0034 大模型推理，卡在哪？——从内存高墙到硬件破局，一篇给你讲透

date

Jun 25, 2026

summary

算力不再是瓶颈，搬数据的速度才是那个真正的隐形天花板。

status

Published

一、先说个扎心的事实

你刷了这么多大模型，有没有想过一个问题：为什么 ChatGPT 一个字一个字往外蹦的时候，总觉得它"在想"，而训练的时候 GPU 集群跑得呼呼的，反倒是飞快？

答案可能让你意外——不是算力不够，是"搬砖"太慢了。

想象一下：你是一个顶级大厨（GPU），刀工火候样样精通，一秒能颠一百下锅。但你的徒弟（内存系统）每次递食材都要跑半个厨房，你颠完一勺菜，要等五秒钟他才把下一勺递过来。那你再能颠勺，出餐速度也被这"等待"死死按住。

这就是当前大模型推理（Inference）的核心困境。这个词在圈内有个专业叫法——Memory Wall（内存墙）。而捅破这堵墙，已经成为整个 AI 硬件圈最上头的话题。

二、训练猛如虎，推理二百五？——Decode 阶段在搞什么鬼

要理解为什么推理这么"卡"，得先搞清楚大模型生成一句话的两个阶段：

Prefill（预填充）：你输入 prompt，模型一口气把整段 prompt 算完，生成第一个 token。这个阶段是计算密集型的，GPU 的矩阵乘法单元火力全开，爽得很。

Decode（解码）：然后，它开始一个字一个字地往外生。每生成一个字，都要把前面所有的历史记录（Key-Value 缓存，简称 KV Cache）重新读一遍，再算下一个字。

问题就出在这个 Decode 阶段——它不再是算力瓶颈，而是内存带宽瓶颈。

图灵奖得主 David Patterson（对，就是 RISC 架构那位大佬）和谷歌 DeepMind 的 Xiaoyu Ma 在 2026 年 IEEE Computer 上发了一篇论文，标题就很直白：《Challenges and Research Directions for Large Language Model Inference Hardware》。里面甩了个数据：

GPU 的算力（FLOPS）从 2012 到 2022 年涨了 80 倍，但内存带宽只涨了 17 倍。

这差距，就像你给超跑换了火箭发动机，但轮胎还是自行车胎——根本传不过去那个扭矩。

所以现在业界达成了一个共识：LLM 推理，瓶颈在 Memory，不在 Compute。

Decode v.s. Prefill 对比示意图

三、大佬指路：四大架构创新方向

David Patterson 和 Ma 在论文里给出了四个他们看好的硬件方向，每一个都有点"不走寻常路"的味道：

1️⃣ High Bandwidth Flash（HBF）——给闪存装上火箭喷射器

现在的 HBM（高带宽内存）虽然快，但贵得离谱——每 GB 成本是 DDR 的 5~6 倍，而且容量有限。HBF 的想法很粗暴：把 NAND 闪存像 HBM 一样堆叠起来，再用超宽接口猛提带宽，目标是做到 HBM 级别的带宽 × 10 倍容量。

代价是什么？NAND 的写入寿命有限，延迟也比 DRAM 高一个数量级。但它特别适合存已经训练好的模型权重和不太变化的上下文——一次写入，多次读取，这不就是闪存的舒适区吗？

Patterson 管这叫"用容量换带宽焦虑"，嗯，有点意思。

2️⃣ Processing-Near-Memory（PNM）——把厨房搬到食材仓库

别搞混了，这不是 PIM（Processing-in-Memory，把计算塞进内存芯片里）。PNM 是把计算单元放在内存旁边，而不是里面。

听起来像是文字游戏？其实差别巨大。PIM 的"计算进内存"方案有个要命的问题：软件切分（Sharding）复杂到让人想辞职——数据分片粒度比传统方案细 1000 倍，分布式系统工程师看了直接血压拉满。而且 DRAM 的制程工艺根本不适合跑逻辑电路（性能拉胯）。

PNM 的解决方案是：计算和内存各用各的工艺，做在独立的 die 上，然后通过先进封装贴在一起。 这样既有高带宽，又不牺牲计算性能。属于既要又要还要的典范。

3️⃣ 3D Memory-Logic Stacking——纵向发展才是王道

既然平面上扩展受限，那就往上堆。通过 TSV（硅通孔） 技术把内存 die 和逻辑 die 垂直堆叠，用密密麻麻的穿硅通孔做"高速公路"，带宽可以远超 HBM，功耗还能降 2~3 倍。

当然，散热是个大问题——一堆 die 叠在一起，热量怎么排出去？这问题目前还在攻坚中，但方向已经非常明确了。

4️⃣ Low-Latency Interconnect——人多网不能卡

大模型推理很少单卡搞定，多卡通信就变成了新瓶颈。传统的网络拓扑在传输小批量、小消息时延迟感人。

论文提出要向 Dragonfly 拓扑、高维 Torus 等新型拓扑结构探索，同时搞 In-Network Processing——让网络交换机也能帮忙算一点。NVIDIA 的 SHARP 技术就是这个思路的早期实践。

四大架构创新方向四象限图

四、不走寻常路：H2M2 的"不对称"美学

看完了远方，再看看脚下。KAIST 和 Stanford 的研究者在 2025 年提出的 H2M2（Hardware-based Heterogeneous Memory Management） 架构，解决的是当前更紧迫的问题——我手头的 GPU，怎么让它跑得更快？

他们的洞察很犀利：LLM 推理中，不同类型的数据对内存的需求完全不一样。

模型权重（Weights）和激活值（Activations）：需要高带宽，但量相对固定

KV Cache：需要大容量，而且随着序列增长动态膨胀

于是 H2M2 设计了一个非对称内存架构：

带宽型内存（HBM 级别）：伺候 compute-heavy 的 QKV 线性层和注意力计算

容量型内存（LPDDR 级别）：装 KV Cache 这种又大又"胖"的数据

两边都有计算单元，各自干各自的活。听起来像不像 NVIDIA Grace Hopper 的设计思路？对，它俩确实是亲戚。

H2M2 的核心贡献是一套动态运行时算法，能在推理过程中根据 KV Cache 的大小变化，实时调整数据映射策略。不是"一刀切"，而是"看人下菜碟"。

效果如何？在 GPT-3 175B 上实现了 1.46× 加速，在 Llama2-70B 上更是飙到了 2.94×。而且这个架构的硬件开销只有不到 1.36% 的性能损耗——性价比拉满了。

H2M2 异构内存架构工作原理图

五、NVIDIA 的实战操作：KV Cache Offload 三板斧

学术界在畅想未来，工业界已经在动手了。

NVIDIA 的 Dynamo 框架（开源，支持 TensorRT-LLM、vLLM、SGLang）搞了一套 KV Block Manager（KVBM），把 KV Cache 管成了三层体系：

层级	介质	速度	用途
G1	GPU HBM	最快	当前活跃的推理数据
G2	CPU 内存	中速	近线卸载
G3	本地 SSD	较慢但容量大	持久化冷数据
G4	远程/云存储	最慢但无限	可扩展共享池

你可能会问：搬到 SSD 上那不慢死了？

关键来了——NVIDIA 搞了个 NIXL 传输库，用 RDMA、NVLink、P2P 直接传输，配合 GPU Direct Storage，实测在单张 H100 上就能做到 35 GB/s 的搬运速度。8 张 H100 配合 WEKA 存储，读吞吐飙到 270 GB/s。

这速度，KV Cache 从 SSD 拉回来基本感觉不到延迟。

效果有多猛？金山办公（Kingsoft Office） 用 Dynamo 部署 72B 模型，做了 PD 分离 + KV Cache Router 优化，结果：延迟降低 50%，成本节省 50%。这数据放在任何公司的 OKR 里都是妥妥的超出预期。

六、HBM：AI 硬件的"心脏"和它的进化史

说到 LLM 推理，怎么也绕不开 HBM（High Bandwidth Memory）。Micron 有个很形象的比喻："Memory Capacity = Cognitive Potential"——对 LLM 来说，内存容量直接决定了它的"智商"。

这不是修辞。更大的 HBM 容量意味着：

能塞下更大的模型（不降精度跑 FP16，不用量化到 INT4 牺牲质量）

能处理更长的上下文（100K token 的 KV Cache 要吃 ~50GB）

能同时服务更多用户（batch size 翻倍，收益翻倍）

HBM3E 目前是主流，单堆栈带宽 ~1.2 TB/s，容量最高 36 GB。但真正让人兴奋的是 HBM4：

规格	HBM3E	HBM4
接口宽度	1024-bit	2048-bit
带宽/堆栈	~1.2 TB/s	2.0~3.3 TB/s
最大容量	36 GB	64 GB
基础 die 工艺	DRAM 工艺	5nm/4nm 逻辑工艺
封装技术	Micro-bump	Hybrid Bonding

HBM4 不仅是提速，更是架构革命——它的基础 die 用上了 5nm 逻辑工艺，意味着可以在内存堆栈里直接塞进一些计算逻辑（比如注意力分数聚合、纠错码），把数据搬运能耗再砍 50%。

目前三巨头在疯狂内卷：SK 海力士（市占 ~50-60%）和 TSMC 结盟，三星（2026 年 2 月率先量产 HBM4）拿下特斯拉 165 亿美元 Dojo 订单，美光主打能效比。整个 HBM 市场 2026 年预计冲到 580 亿美元——而且今年的产能已经被 hyperscaler 全部包圆了。

HBM 世代对比与市场格局图

七、所以，推理硬件的未来长啥样？

把这四个方向串起来，我们可以看到一张清晰的拼图：

短期（现在~2026）：HBM3E + KV Cache Offload（NVIDIA Dynamo）+ 异构内存管理，怎么压榨现有硬件的每一滴性能

中期（2026~2028）：HBM4 带来的带宽和容量跃升 + PNM 架构落地，单卡能跑更大的模型

长期（2028+）：3D 堆叠成熟 + HBF 闪存突破 + 新型互联拓扑，真正意义上的"memory-centric computing"

David Patterson 在那篇论文里还提了一个很有意思的点：计算机架构顶会 ISCA 的行业参与率，从 1976 年的 ~40% 掉到了 2025 年的不到 4%。

这说明学术界的架构研究和工业界的真实需求已经严重脱节。而这篇文章的核心价值，恰恰在于把学术界的前沿探索和工业界的最佳实践拉到一起，给你一张完整的路线图。

毕竟，理解了哪里卡脖子，才知道往哪个方向使劲。

参考文献

[1] Ma, X. and Patterson, D., "Challenges and Research Directions for Large Language Model Inference Hardware," IEEE Computer, vol. 59, no. 5, 2026. arXiv:2601.05047. DOI: 10.1109/MC.2026.3652916.

[2] Hwang, S., Kim, J., Lee, S., Kim, H. and Huh, J., "Hardware-based Heterogeneous Memory Management for Large Language Model Inference," arXiv:2504.14893, 2025. [3] NVIDIA, "How to Reduce KV Cache Bottlenecks with NVIDIA Dynamo," NVIDIA Technical Blog, 2025. Available: https://developer.nvidia.com/blog/how-to-reduce-kv-cache-bottlenecks-with-nvidia-dynamo/

[4] NVIDIA Dynamo Documentation, "KV Block Manager (KVBM)." Available: https://docs.nvidia.com/dynamo/latest/components/kvbm

[5] Micron Technology, "Memory that matches the scale of human ambition — HBM4." Available: https://sg.micron.com/products/memory/hbm/hbm4

[6] Wedbush Securities, "The HBM4 Memory Supercycle: The Trillion-Dollar War Powering the Next Frontier of AI," 2026.

[7] SemiEngineering, "Four Architectural Opportunities for LLM Inference Hardware (Google)," 2026. Available: https://semiengineering.com/four-architectural-opportunities-for-llm-inference-hardware-google/

[8] SemiEngineering, "HW-based Heterogeneous Memory Management for LLM Inferencing (KAIST, Stanford)," 2025. Available: https://semiengineering.com/hw-based-heterogeneous-memory-management-for-large-language-model-inference/

[9] NVIDIA, "Deploying a 72B Model Using NVIDIA Dynamo to Improve PD Separation Performance," NVIDIA Developer Blog, 2025.

[10] TrendForce, "Memory Wall Bottleneck: AI Compute Sparks Memory Supercycle," 2025.