date
Jun 25, 2026
summary
算力不再是瓶颈,搬数据的速度才是那个真正的隐形天花板。
status
Published
tags
热门文章
必看精选
AI
slug
llm-trainning-1
icon
category
AI
type
Post
算力不再是瓶颈,搬数据的速度才是那个真正的隐形天花板。
一、先说个扎心的事实
你刷了这么多大模型,有没有想过一个问题:为什么 ChatGPT 一个字一个字往外蹦的时候,总觉得它"在想",而训练的时候 GPU 集群跑得呼呼的,反倒是飞快?
答案可能让你意外——不是算力不够,是"搬砖"太慢了。
想象一下:你是一个顶级大厨(GPU),刀工火候样样精通,一秒能颠一百下锅。但你的徒弟(内存系统)每次递食材都要跑半个厨房,你颠完一勺菜,要等五秒钟他才把下一勺递过来。那你再能颠勺,出餐速度也被这"等待"死死按住。
这就是当前大模型推理(Inference)的核心困境。这个词在圈内有个专业叫法——Memory Wall(内存墙)。而捅破这堵墙,已经成为整个 AI 硬件圈最上头的话题。
二、训练猛如虎,推理二百五?——Decode 阶段在搞什么鬼
要理解为什么推理这么"卡",得先搞清楚大模型生成一句话的两个阶段:
Prefill(预填充):你输入 prompt,模型一口气把整段 prompt 算完,生成第一个 token。这个阶段是计算密集型的,GPU 的矩阵乘法单元火力全开,爽得很。
Decode(解码):然后,它开始一个字一个字地往外生。每生成一个字,都要把前面所有的历史记录(Key-Value 缓存,简称 KV Cache)重新读一遍,再算下一个字。
问题就出在这个 Decode 阶段——它不再是算力瓶颈,而是内存带宽瓶颈。
图灵奖得主 David Patterson(对,就是 RISC 架构那位大佬)和谷歌 DeepMind 的 Xiaoyu Ma 在 2026 年 IEEE Computer 上发了一篇论文,标题就很直白:《Challenges and Research Directions for Large Language Model Inference Hardware》。里面甩了个数据:
GPU 的算力(FLOPS)从 2012 到 2022 年涨了 80 倍,但内存带宽只涨了 17 倍。
这差距,就像你给超跑换了火箭发动机,但轮胎还是自行车胎——根本传不过去那个扭矩。
所以现在业界达成了一个共识:LLM 推理,瓶颈在 Memory,不在 Compute。

Decode v.s. Prefill 对比示意图
三、大佬指路:四大架构创新方向
David Patterson 和 Ma 在论文里给出了四个他们看好的硬件方向,每一个都有点"不走寻常路"的味道:
1️⃣ High Bandwidth Flash(HBF)——给闪存装上火箭喷射器
现在的 HBM(高带宽内存)虽然快,但贵得离谱——每 GB 成本是 DDR 的 5~6 倍,而且容量有限。HBF 的想法很粗暴:把 NAND 闪存像 HBM 一样堆叠起来,再用超宽接口猛提带宽,目标是做到 HBM 级别的带宽 × 10 倍容量。
代价是什么?NAND 的写入寿命有限,延迟也比 DRAM 高一个数量级。但它特别适合存已经训练好的模型权重和不太变化的上下文——一次写入,多次读取,这不就是闪存的舒适区吗?
Patterson 管这叫"用容量换带宽焦虑",嗯,有点意思。
2️⃣ Processing-Near-Memory(PNM)——把厨房搬到食材仓库
别搞混了,这不是 PIM(Processing-in-Memory,把计算塞进内存芯片里)。PNM 是把计算单元放在内存旁边,而不是里面。
听起来像是文字游戏?其实差别巨大。PIM 的"计算进内存"方案有个要命的问题:软件切分(Sharding)复杂到让人想辞职——数据分片粒度比传统方案细 1000 倍,分布式系统工程师看了直接血压拉满。而且 DRAM 的制程工艺根本不适合跑逻辑电路(性能拉胯)。
PNM 的解决方案是:计算和内存各用各的工艺,做在独立的 die 上,然后通过先进封装贴在一起。 这样既有高带宽,又不牺牲计算性能。属于既要又要还要的典范。
3️⃣ 3D Memory-Logic Stacking——纵向发展才是王道
既然平面上扩展受限,那就往上堆。通过 TSV(硅通孔) 技术把内存 die 和逻辑 die 垂直堆叠,用密密麻麻的穿硅通孔做"高速公路",带宽可以远超 HBM,功耗还能降 2~3 倍。
当然,散热是个大问题——一堆 die 叠在一起,热量怎么排出去?这问题目前还在攻坚中,但方向已经非常明确了。
4️⃣ Low-Latency Interconnect——人多网不能卡
大模型推理很少单卡搞定,多卡通信就变成了新瓶颈。传统的网络拓扑在传输小批量、小消息时延迟感人。
论文提出要向 Dragonfly 拓扑、高维 Torus 等新型拓扑结构探索,同时搞 In-Network Processing——让网络交换机也能帮忙算一点。NVIDIA 的 SHARP 技术就是这个思路的早期实践。

四大架构创新方向四象限图
四、不走寻常路:H2M2 的"不对称"美学
看完了远方,再看看脚下。KAIST 和 Stanford 的研究者在 2025 年提出的 H2M2(Hardware-based Heterogeneous Memory Management) 架构,解决的是当前更紧迫的问题——我手头的 GPU,怎么让它跑得更快?
他们的洞察很犀利:LLM 推理中,不同类型的数据对内存的需求完全不一样。
- 模型权重(Weights)和激活值(Activations):需要高带宽,但量相对固定
- KV Cache:需要大容量,而且随着序列增长动态膨胀
于是 H2M2 设计了一个非对称内存架构:
- 带宽型内存(HBM 级别):伺候 compute-heavy 的 QKV 线性层和注意力计算
- 容量型内存(LPDDR 级别):装 KV Cache 这种又大又"胖"的数据
两边都有计算单元,各自干各自的活。听起来像不像 NVIDIA Grace Hopper 的设计思路?对,它俩确实是亲戚。
H2M2 的核心贡献是一套动态运行时算法,能在推理过程中根据 KV Cache 的大小变化,实时调整数据映射策略。不是"一刀切",而是"看人下菜碟"。
效果如何?在 GPT-3 175B 上实现了 1.46× 加速,在 Llama2-70B 上更是飙到了 2.94×。而且这个架构的硬件开销只有不到 1.36% 的性能损耗——性价比拉满了。

H2M2 异构内存架构工作原理图
五、NVIDIA 的实战操作:KV Cache Offload 三板斧
学术界在畅想未来,工业界已经在动手了。
NVIDIA 的 Dynamo 框架(开源,支持 TensorRT-LLM、vLLM、SGLang)搞了一套 KV Block Manager(KVBM),把 KV Cache 管成了三层体系:
层级 | 介质 | 速度 | 用途 |
G1 | GPU HBM | 最快 | 当前活跃的推理数据 |
G2 | CPU 内存 | 中速 | 近线卸载 |
G3 | 本地 SSD | 较慢但容量大 | 持久化冷数据 |
G4 | 远程/云存储 | 最慢但无限 | 可扩展共享池 |
你可能会问:搬到 SSD 上那不慢死了?
关键来了——NVIDIA 搞了个 NIXL 传输库,用 RDMA、NVLink、P2P 直接传输,配合 GPU Direct Storage,实测在单张 H100 上就能做到 35 GB/s 的搬运速度。8 张 H100 配合 WEKA 存储,读吞吐飙到 270 GB/s。
这速度,KV Cache 从 SSD 拉回来基本感觉不到延迟。
效果有多猛?金山办公(Kingsoft Office) 用 Dynamo 部署 72B 模型,做了 PD 分离 + KV Cache Router 优化,结果:延迟降低 50%,成本节省 50%。这数据放在任何公司的 OKR 里都是妥妥的超出预期。
六、HBM:AI 硬件的"心脏"和它的进化史
说到 LLM 推理,怎么也绕不开 HBM(High Bandwidth Memory)。Micron 有个很形象的比喻:"Memory Capacity = Cognitive Potential"——对 LLM 来说,内存容量直接决定了它的"智商"。
这不是修辞。更大的 HBM 容量意味着:
- 能塞下更大的模型(不降精度跑 FP16,不用量化到 INT4 牺牲质量)
- 能处理更长的上下文(100K token 的 KV Cache 要吃 ~50GB)
- 能同时服务更多用户(batch size 翻倍,收益翻倍)
HBM3E 目前是主流,单堆栈带宽 ~1.2 TB/s,容量最高 36 GB。但真正让人兴奋的是 HBM4:
规格 | HBM3E | HBM4 |
接口宽度 | 1024-bit | 2048-bit |
带宽/堆栈 | ~1.2 TB/s | 2.0~3.3 TB/s |
最大容量 | 36 GB | 64 GB |
基础 die 工艺 | DRAM 工艺 | 5nm/4nm 逻辑工艺 |
封装技术 | Micro-bump | Hybrid Bonding |
HBM4 不仅是提速,更是架构革命——它的基础 die 用上了 5nm 逻辑工艺,意味着可以在内存堆栈里直接塞进一些计算逻辑(比如注意力分数聚合、纠错码),把数据搬运能耗再砍 50%。
目前三巨头在疯狂内卷:SK 海力士(市占 ~50-60%)和 TSMC 结盟,三星(2026 年 2 月率先量产 HBM4)拿下特斯拉 165 亿美元 Dojo 订单,美光主打能效比。整个 HBM 市场 2026 年预计冲到 580 亿美元——而且今年的产能已经被 hyperscaler 全部包圆了。

HBM 世代对比与市场格局图
七、所以,推理硬件的未来长啥样?
把这四个方向串起来,我们可以看到一张清晰的拼图:
- 短期(现在~2026):HBM3E + KV Cache Offload(NVIDIA Dynamo)+ 异构内存管理,怎么压榨现有硬件的每一滴性能
- 中期(2026~2028):HBM4 带来的带宽和容量跃升 + PNM 架构落地,单卡能跑更大的模型
- 长期(2028+):3D 堆叠成熟 + HBF 闪存突破 + 新型互联拓扑,真正意义上的"memory-centric computing"
David Patterson 在那篇论文里还提了一个很有意思的点:计算机架构顶会 ISCA 的行业参与率,从 1976 年的 ~40% 掉到了 2025 年的不到 4%。
这说明学术界的架构研究和工业界的真实需求已经严重脱节。而这篇文章的核心价值,恰恰在于把学术界的前沿探索和工业界的最佳实践拉到一起,给你一张完整的路线图。
毕竟,理解了哪里卡脖子,才知道往哪个方向使劲。
参考文献
[1] Ma, X. and Patterson, D., "Challenges and Research Directions for Large Language Model Inference Hardware," IEEE Computer, vol. 59, no. 5, 2026. arXiv:2601.05047. DOI: 10.1109/MC.2026.3652916.
[2] Hwang, S., Kim, J., Lee, S., Kim, H. and Huh, J., "Hardware-based Heterogeneous Memory Management for Large Language Model Inference," arXiv:2504.14893, 2025. [3] NVIDIA, "How to Reduce KV Cache Bottlenecks with NVIDIA Dynamo," NVIDIA Technical Blog, 2025. Available: https://developer.nvidia.com/blog/how-to-reduce-kv-cache-bottlenecks-with-nvidia-dynamo/
[4] NVIDIA Dynamo Documentation, "KV Block Manager (KVBM)." Available: https://docs.nvidia.com/dynamo/latest/components/kvbm
[5] Micron Technology, "Memory that matches the scale of human ambition — HBM4." Available: https://sg.micron.com/products/memory/hbm/hbm4
[6] Wedbush Securities, "The HBM4 Memory Supercycle: The Trillion-Dollar War Powering the Next Frontier of AI," 2026.
[7] SemiEngineering, "Four Architectural Opportunities for LLM Inference Hardware (Google)," 2026. Available: https://semiengineering.com/four-architectural-opportunities-for-llm-inference-hardware-google/
[8] SemiEngineering, "HW-based Heterogeneous Memory Management for LLM Inferencing (KAIST, Stanford)," 2025. Available: https://semiengineering.com/hw-based-heterogeneous-memory-management-for-large-language-model-inference/
[9] NVIDIA, "Deploying a 72B Model Using NVIDIA Dynamo to Improve PD Separation Performance," NVIDIA Developer Blog, 2025.
[10] TrendForce, "Memory Wall Bottleneck: AI Compute Sparks Memory Supercycle," 2025.
- 作者:zion
- 链接:https://gendlee.github.io/llm-trainning-1
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。







