C
ChaoBro

AI 半导体终局推演:当 Token 经济学从 GPU 算力转移到 HBM 内存

AI 半导体终局推演:当 Token 经济学从 GPU 算力转移到 HBM 内存

核心结论

AI 基础设施的竞争焦点正在发生根本性转移:从 GPU 计算核心数量转向 HBM(高带宽内存)容量和带宽。这一判断基于两个关键信号:

  1. 武汉 2600 亿存储扩产:长江存储三期 + 武汉新芯扩产计划落地,主攻 3D NAND 和 DRAM,预计 2026 年底量产,2027 年目标月产能 5 万片
  2. Token 经济学第一性原理:GPU 架构进化路线推导显示,每个 GPU 的 HBM 需求必然呈指数增长,且这一趋势不会停滞

为什么 HBM 是新的瓶颈

在 AI 推理和训练中,GPU 的算力早已不是限制因素。真正的瓶颈是 数据从内存到计算单元的移动速度

用第一性原理推导:

Token 吞吐量 = HBM 容量 × HBM 带宽 / 模型参数量

当模型参数量持续增大(从 7B 到 70B 到万亿参数),而推理延迟要求不断降低时,HBM 的容量和带宽成为决定 Token 生成速度的核心变量。

HBM 需求为何不会停滞

驱动因素说明影响
模型规模增长前沿模型参数持续增长单 GPU 需要更多 HBM 容量
上下文长度扩展1M token 上下文成为标配KV Cache 占用大量 HBM
多模态输入图像/视频/音频同时处理中间激活值暴增
Agent 工作流多轮工具调用保持状态推理过程中 HBM 占用持续累积

每个 GPU 的 HBM 需求指数增长不是推测,而是 GPU 架构进化的 数学必然。这也是为什么 SK 海力士、三星和美光的 HBM 产线成为 2026 年半导体行业最抢手的产能。

武汉扩产的战略意义

长江存储三期厂房已进入设备调试阶段,加上武汉新芯的 DRAM 扩产,武汉正在成为中国存储半导体的双核心。虽然目前 3D NAND 和 DRAM 与 HBM 在技术路线上有差异,但这一产能布局为中国在 HBM 领域的自主化奠定了基础。

时间线

  • 2026 年底:长江存储三期投入量产
  • 2027 年:月产能 5 万片
  • 中长期:从 3D NAND 向 HBM 技术迁移

投资与行动建议

对芯片行业

  • HBM 供应链是比 GPU 芯片更确定的增长赛道——所有 GPU 厂商都需要 HBM,但 HBM 产能集中在 3 家企业
  • 中国存储扩产是国产替代的关键一步,但 HBM 技术差距仍有 2-3 年

对 AI 应用开发者

  • 选择模型时关注 HBM 需求:大模型不一定更好,如果推理时 HBM 不足导致频繁 swapping,实际吞吐量可能不如小模型
  • 1M 上下文的真实成本:长上下文不仅消耗更多 token,还需要更多 HBM 来维护 KV Cache——这是 API 定价中没有显式体现的隐性成本

对投资者

  • 存储半导体扩产是 AI 基础设施投资的 “第二波”——第一波是 GPU,第二波是 HBM 和存储
  • 关注 SK 海力士、三星、美光的 HBM 产能扩张计划,以及中国存储厂商的技术追赶进度

AI 行业的瓶颈正在转移。理解这一转移的方向,比追逐最新的模型发布更重要。