Jiayun's Blog

探索与分享

核心观点:AI 推理硬件正在分化成两条独立路线 —— 一条向上要"装得下更大模型"(HBF 高带宽闪存),一条向下要"每瓦更多 token"(SOCAMM2 LPDDR5X)。HBM 仍然是训练王者,但它在推理场景里被两端蚕食。这不是供应链短缺的临时方案,而是工艺与经济决定的结构性分叉。下一波数据中心采购,内存账单的形状会和 2024 年完全不同。

一、为什么 HBM 不再是 AI 推理的"唯一正确答案"

过去三年,关于 AI 硬件的所有讨论都默认一个等式:"AI 加速器 = 大算力 + HBM"。Nvidia H100/H200/B100、AMD MI300X、Google TPU v5p、Cerebras、Groq —— 它们之间的差异主要在算力和互连,HBM 是共识。

但 2026 年的现实是:

  1. HBM 供给到 2027 年都是死锁状态。SK Hynix、Samsung、Micron 三家的 HBM3E/HBM4 产能 100% 被签长约。新入场的客户基本拿不到。
  2. HBM 的每比特成本是 LPDDR5X 的 5-8 倍。在推理场景里,模型权重 90% 的时间是"静态读",付 HBM 的钱去买"静态存储能力"在经济学上越来越不合理。
  3. HBM 的能耗占整机 30-40%。推理数据中心的 PUE 已经被冷却卡死,再降只能靠器件本身。HBM 的 IO 能耗(pJ/bit)是 LPDDR5X 的 2-3 倍。

这三件事单独看不致命,叠加在一起就是"推理内存需要重新设计“的呼声。SemiEngineering 在 5 月初连发两篇深度文章 —— 一篇讲 High Bandwidth Flash (HBF),一篇讲 SOCAMM2 + LPDDR5X —— 不是巧合,是行业共识开始公开化。

二、HBF:把 HBM 的 3D 堆叠思路搬给 NAND

2.1 HBF 是什么

HBF(High Bandwidth Flash)借用了 HBM 的 3D 堆叠 + 硅中介层(interposer)+ 大宽度 IO 的封装思路,但底层 die 换成了 3D NAND。SK Hynix 和 Sandisk(旧西部数据闪存部门,2025 年独立后)是目前最积极的两家。

维度HBM3EHBF 第一代(2026 样片)
单 stack 容量24-36 GB256-512 GB
单 stack 带宽1.2 TB/s1-2 GB/s 写 / 64-128 GB/s 读
每比特能耗~3 pJ/bit~5 pJ/bit(但仅在读访问时)
介质DRAM3D TLC NAND
写寿命无限~10^4 P/E

注意 HBF 的"带宽"是强烈非对称的:读非常快,写慢得离谱,且有寿命问题。这听起来像缺陷,但对于模型权重存储恰恰是完美匹配 —— 模型权重一旦加载就只读,几个月、几年都不动。

2.2 它解决什么问题:能装下整个 Llama-5 405B 权重而不分片

今天部署一个 405B 模型需要至少 8 张 H200(每张 141 GB HBM3E),权重要在 GPU 间切片,KV cache 还要额外预留。HBF 的目标场景是:

  • 加速器板载 512 GB ~ 2 TB HBF,能装下任意尺寸的 dense 模型权重
  • HBM 容量可以减半,专心承担激活值(activations)和 KV cache
  • 整机权重总持有成本下降 60-70%

SemiEngineering 的分析提到:“HBF capacity will be much higher, allowing static storage of AI model weights, with optimized read speed. Samples are due out later this year, with accelerators featuring it coming out next year.”

注意"next year” —— 2027 年才会有量产产品,所以现在还是早期信号。

2.3 它不是 SSD,也不是 CXL 内存池

行业里有人把 HBF 和 CXL 内存扩展、近存计算 SSD 混为一谈,这是误解。三者的关键差别:

类别物理形态延迟带宽容量用途
板载 HBM硅中介层堆叠< 10nsTB/s数十-上百 GB全场景
板载 HBF硅中介层堆叠100ns-1μs64-128 GB/s数百 GB-TB权重静态存储
CXL Type-3 内存PCIe Gen5/6200-500ns64 GB/s数 TB内存扩展池
近存计算 SSDNVMe + 计算引擎10-100μs14 GB/s数十 TB检索增强 / RAG

HBF 的位置非常具体:在 HBM 旁边,作为权重专属层。它不能取代 HBM(延迟高 10-100 倍),也不和 CXL/SSD 重叠(带宽高一个量级)。

2.4 经济意义:让"千亿参数模型上消费级 AI 设备"成为可能

这一条值得用大字标黑。当 HBF 进入 PC、手机、边缘盒子的 SoC 封装(预计 2028-2029 年),消费级设备本地跑 100B+ 模型不再是 RAM 不够的问题。苹果、高通、联发科都在 HBF 的 JEDEC 标准化讨论里活跃。这是 antirez 那种"在 128GB MacBook 上本地跑 DeepSeek V4"的工作流,从极客玩具变成主流体验的物理前提。

三、SOCAMM2:把 LPDDR5X 改造成数据中心内存

3.1 LPDDR 进数据中心的逻辑

LPDDR(Low Power DDR)原本是手机内存。它在 2024 年开始被 Nvidia(Grace、Grace Hopper)认真考虑用于 AI 服务器,原因很单纯:每 GB 的功耗是 DDR5 的 30-50%

但 LPDDR 有结构性问题:

  1. 没有 RDIMM 形态,长期只能焊死在主板上
  2. 没有 ECC(消费级),不能用于关键数据
  3. 每个模组容量太小(16-32 GB),堆不出 TB 级

SOCAMM2(Small Outline Compression Attached Memory Module 第二代)是 JEDEC 在 2025-2026 年推动的解决方案:

  • LPDDR5X 颗粒 + 小型化模组
  • 支持 on-die ECC + side-band ECC(数据中心级 RAS)
  • 单模组 128-256 GB,可插拔
  • 用 LPCAMM2 形态因子(笔记本同款)

3.2 它解决什么问题:CPU 主机内存的"省电革命"

这里要澄清一个常见误解:SOCAMM2 不是用来跟 HBM 抢推理带宽的,它是用来取代 AI 服务器里 CPU 主机的 DDR5 RDIMM

一台典型的 8 卡 GPU 服务器:

  • GPU 内存:8 × 141 GB HBM3E = 约 1.1 TB
  • CPU 主机内存:1-2 TB DDR5 RDIMM(用于数据预处理、参数服务、CPU offload)
  • 整机功耗:6-8 kW
  • 内存功耗占比:~15-20%(CPU 侧 DDR 是大头)

把 CPU 侧 DDR5 换成 SOCAMM2 LPDDR5X,整机省电 8-12%。在 AI 数据中心 PUE 普遍 1.3-1.5、电力是 OpEx 大头的今天,每年每千卡能省下数百万美元电费

3.3 隐形赢家:联发科、三星 SOCAMM2 业务部、阿斯麦

SOCAMM2 量产的真正赢家不是 Nvidia(用户),也不是直接的 LPDDR 供应商,而是中间环节:

  • 联发科 / 群联:SOCAMM2 控制器 IP
  • 三星 / SK Hynix SOCAMM 模组业务部:组装与认证
  • ASML EUV:LPDDR5X 用 1α 工艺,EUV 设备订单进一步增长

中国大陆厂商在 SOCAMM2 上的进度落后约 1.5-2 年(长鑫 LPDDR5X 量产时间 vs 美韩),这是另一条值得跟踪的产业线。

四、HBM 被夹在中间,会消失吗?

不会,但角色会重新定位。

4.1 HBM 的新位置

任务主导内存理由
训练(前向 + 反向 + 优化器)HBM 不可替代写带宽、随机访问、寿命都不允许换
推理 - 权重静态存储HBF容量、成本、能耗全面胜出
推理 - KV cacheHBM(短上下文)/ HBF + HBM 混合(长上下文)写频率决定
推理 - 激活值HBM写频繁
CPU 主机内存SOCAMM2 LPDDR5X省电
内存扩展池CXL Type-3 / DDR5容量与延迟权衡

HBM 从"AI 内存的代名词"变成"AI 内存里负责写密集任务的那一档"。它的总量不会下降(训练还要扩大、激活值在长上下文里增长),但单加速器的 HBM 容量增速会放缓,腾出预算和功耗给 HBF。

4.2 对 SK Hynix、Samsung、Micron 的影响

  • SK Hynix:HBM 领导者,HBF 跟进者,长期受益
  • Samsung:HBM3E 良率追赶中,HBF 由内存事业部主导,SOCAMM2 独立业务部 —— 三线并进
  • Micron:HBM3E 已量产,HBF 推进相对慢,可能在 SOCAMM2 上发力

更值得关注的是 Sandisk 与 Kioxia:传统 NAND 厂第一次有机会冲进 AI 内存的核心位置(通过 HBF),打破"AI 内存 = 三家 DRAM 厂"的格局。

五、对买家、对投资人、对开发者的可执行结论

5.1 给云厂商 / 数据中心采购方

今年(2026)和明年(2027)的 AI 服务器采购清单需要改两栏:

  1. CPU 侧内存:DDR5 → SOCAMM2 LPDDR5X(早期溢价 10-15%,三年内 ROI 正)
  2. GPU 侧内存:留意 2027 年带 HBF 的加速器路线图(NVIDIA、AMD、Cerebras 都已在 RFC 阶段)

5.2 给做 LLM 推理优化的工程师

权重静态存储 vs KV cache 的访问模式第一次有了硬件层面的真正分隔。这意味着:

  • 模型权重量化(FP8、FP4、Mxfp4)的收益会被放大 —— 因为权重落在更便宜的 HBF
  • KV cache 量化、分页(PagedAttention)的工程价值更高 —— 因为它仍占用昂贵的 HBM
  • 模型架构层面,weight-heavy 但 activation-light 的设计(如 MoE 中的稀疏激活)会更受硬件青睐

5.3 给二级市场投资者

  • 长期看 HBM 三巨头依然受益,但纯 HBM 估值倍数 (P/E) 应该开始向"高端 DRAM"靠拢,而不是"AI 算力代理"
  • NAND 厂的 HBF 业务是真正的"AI 增量"
  • SOCAMM2 的核心受益方是控制器 IP 和模组厂商,传统 RDIMM 模组商(Kingston、Adata 等消费端品牌)面临压力
  • 一个反共识观点:HBF 量产时间晚(2027),但其市场预期会在 2026 年底前完成 re-rating。等到产品出货时市场已经定价。

5.4 给开发者

不要把"AI 推理 = 显存够大"当作长期假设。2027 年后你在云上看到的"显存"可能是 HBM + HBF 的复合结构,对模型加载时间、cold start 行为、weight prefetch 策略都有影响。提前在你的推理框架(vLLM、SGLang、TensorRT-LLM)里关注weight tier-aware scheduling 这条线。

六、结语

2024 年的 AI 硬件叙事是"GPU 算力卷起来",2025 年是"互连和 chiplet 抢戏",2026 年开始内存成为新的隐形战线。HBF 和 SOCAMM2 不是 HBM 的替代品,是 AI 推理对内存子系统的重新分工

对中国半导体生态而言,这是一个新窗口:HBM 几乎追不上(节点、工艺、专利全方位封锁),但 HBF(NAND 基础)和 LPDDR5X(手机内存基础)是中国厂商最熟悉的两条路线。SMIC 的 5.9 亿美元晶圆代工收购、长江存储的 3D NAND 节点突破、长鑫的 LPDDR 推进 —— 三条独立的产业线,第一次有机会在 AI 内存上汇成一股力

这件事比下一颗"中国版 H100"重要得多。但媒体目前几乎没人讲。

参考来源

  1. SemiEngineering — Flash Getting Stacked High-Bandwidth Version
  2. SemiEngineering — SOCAMM2: Bringing LPDDR5X Benefits To AI Servers
  3. SemiEngineering — Why Vision LLMs Force A Rethink Of Edge AI Hardware
  4. SemiWiki — Configurable xSPI memory controller IP core is FuSa-ready
  5. JEDEC — SOCAMM2 / LPCAMM2 标准文档(JESD319 草案)
  6. SK Hynix / Sandisk Investor Day 2026 — HBF 路线图披露
  7. TechNode — SMIC secures approval for $5.9 billion acquisition in China’s largest domestic wafer foundry M&A
  8. Tom’s Hardware — Samsung 内存事业部产能调整报告(2026-05)