📌 前沿科技 · 半导体深度 | Semiconductor Deep Dive
2026 年 5 月这一周,SemiEngineering 连发四篇技术文章,分别是:
- Flash Getting Stacked High-Bandwidth Version — 介绍 HBF(High Bandwidth Flash)的 3D 堆叠样品
- SOCAMM2: Bringing LPDDR5X Benefits To AI Servers — JEDEC 标准化的服务器 LPDDR 模组
- Confusion Grows With More Interconnect Options And Tradeoffs — 5 种互联标准并存的系统设计困境
- Chiplets Need A New Workflow — 系统级 chiplet 设计方法论问题
这四件事被分开报道时是技术新闻,串起来看是一张完整的『AI 数据中心去 GPU 中心化』路线图。这篇文章把它们整合成一个故事。
一、为什么 GPU 不再是瓶颈
H200 → B200 → GB200 → Vera Rubin 这条算力曲线大家都熟。但 2026 年第一季度,多家 hyperscaler 的内部数据开始指向同一个结论:
大模型训练的 wall-clock 时间里,真正在跑 matmul 的占比已经掉到 40-55%。剩下 45-60% 全是数据搬运 — HBM ↔ SRAM、GPU ↔ GPU、节点 ↔ 节点。
这个数据点首次公开出现是在 NVIDIA 5 月 14 日的 Vera Rubin 平台 blog 里,他们坦白说"agentic AI 的 scale-up problem 不在算子库,在 fabric"。
简而言之:摩尔定律给了我们 5 年 6 倍的 dense FP4 算力,但带宽只翻 2 倍、容量只翻 1.5 倍。所谓的 memory wall 不是新概念,但今年是这堵墙第一次贵到不能假装它不存在。
| |
下面分别拆三个具体的"新战线"。
二、HBF:把 NAND 闪存堆成 HBM 的形状
2.1 是什么
HBF(High Bandwidth Flash)是 SanDisk(前 WD)联合 SK hynix 在 2026 年 Q2 公开样品的新存储产品。物理上它长得跟 HBM 一模一样:12 颗 NAND die 通过 TSV 垂直堆叠,封装在 GPU 旁边的同一 interposer 上,但每颗 die 不是 DRAM 而是 3D NAND。
| 参数 | HBM3E | HBF (sample) |
|---|---|---|
| 容量 / stack | 36 GB | 512 GB+ |
| 带宽 / stack | 1.2 TB/s | 64 GB/s (read) |
| 延迟 | ~10ns | ~10µs |
| 功耗 / GB | ~0.05 W | ~0.005 W |
| 单 GB 成本 | ~$15 | ~$0.6 |
注意带宽差 20 倍、延迟差 1000 倍 — HBF 不是为了替代 HBM,是为了在 HBM 旁边做"近内存的二级缓存"。
2.2 为什么这次能成
3D NAND 堆 HBM 形状这个想法不新(2019 就有论文),但过去三个 blocker:
- TSV 工艺不兼容 — NAND 的写入电压 > 18V,跟 DRAM 的 1.1V TSV 设计冲突
- 热管理 — NAND 写入是热源,堆 12 层会触发 thermal runaway
- 控制器复杂度 — NAND 的 wear leveling / GC / ECC 在堆叠后变得极复杂
SanDisk + SK hynix 2026 这次的突破:
- 新一代 HV-TSV 工艺,把 18V 写入电压隔离在每颗 die 的独立 well 里
- 主动温度感知的 per-layer programming throttle(专利在 hynix)
- 控制器从 stack 内移到 base die,类似 HBM3E 的 logic die 设计
2.3 改变了什么
对大模型训练,HBF 解决的是一个具体痛点:KV cache + weights checkpoint 的本地缓存。
举个具体场景:Llama-4 405B 在 4-way TP × 8-way PP 训练时,每个 GPU 的 model state 大概需要 200GB,但 H200 只有 141GB HBM3E。多出来的 60GB 现在是去 CPU RAM 取,pipeline stall 200µs。如果换成 HBF:
- 容量足够(500GB+ 单 stack)
- 延迟 10µs,比 PCIe 取 CPU RAM 的 20µs 快 2 倍
- 成本是 HBM 的 1/25
这意味着:单卡能装下的有效模型尺寸,可能在 2027 翻 3-4 倍,不需要等下一代 HBM。
详见 SemiEngineering Flash Getting Stacked High-Bandwidth Version。
三、SOCAMM2:把 LPDDR5X 抬上 AI 服务器
3.1 是什么
SOCAMM2(Small Outline Compression Attached Memory Module,第二代)是 JEDEC 在 2026 年初标准化的服务器 LPDDR 模组规格。形态上类似笔记本的 SODIMM,但物理触点更密、信号完整性指标更严,针对的是 LPDDR5X(最高 9600 MT/s)。
关键 spec:
- 容量:单模组 96GB(4× 24GB stacks)
- 带宽:单模组 ~76.8 GB/s(8-channel)
- 功耗:1/3 of RDIMM DDR5 at iso-capacity
- 替换性:socket’d,不是 BGA — 可现场升级
3.2 为什么 AI 服务器关心 LPDDR
过去 LPDDR 是手机用的。它进入服务器只有一个理由:功耗。
| |
在 hyperscaler 数据中心里,这 150W 的 delta 乘以几万节点 = 一座中型水电站。
更关键的是,AI workload 对 server CPU RAM 的需求模式变了:
- 传统 web/db:随机访问、低带宽、小 working set → DDR5 优
- AI 训练辅助:顺序大块访问、高带宽、做 GPU 的二级备份 → LPDDR5X 反而更合算
所以你会看到 Samsung 5 月推出 9600 MT/s LPDDR5X 直接定位 AI 服务器,配合 Grace Hopper / GB200 / GB300 的 HBM-CPU 分层架构。
3.3 谁会受伤
- Hynix / Samsung DDR5 RDIMM 业务:会被 SOCAMM2 蚕食 30% 以上 server 份额
- Micron:相对收益 — 它的 LPDDR 业务份额 > DDR
- Astera Labs 之类 CXL 内存厂商:本来想做"分层内存控制器",SOCAMM2 直接把"近 CPU 的层"标准化了,CXL 内存的吸引力相对下降
四、Interconnect 五国混战:UCIe / BoW / PCIe / NVLink / CXL
4.1 现状
SemiEngineering 5 月 18 日发的 Confusion Grows With More Interconnect Options And Tradeoffs 给了一个数据点:现代 AI 服务器系统设计师,单系统内平均评估 5+ 种 interconnect 协议。
| 协议 | 用途 | 带宽 (lane) | 延迟 | 状态 |
|---|---|---|---|---|
| PCIe 6.0 | Chip-to-chip board level | 64 GT/s | ~150ns | 量产 |
| CXL 3.0 | Memory pooling | 64 GT/s | ~200ns | 起量 |
| UCIe 1.1 | Die-to-die (organic) | 32 GT/s | ~5ns | 量产 |
| BoW | Die-to-die (silicon bridge) | 16 GT/s | ~3ns | 局部 |
| NVLink 6 | GPU-to-GPU (proprietary) | 200 GT/s | ~50ns | NVIDIA 独占 |
4.2 真正的混乱在哪
技术上,每种协议都有 niche。但产业上的混乱在于:
- UCIe 和 BoW 之争:UCIe 是 Intel-TSMC-Samsung 联盟主推;BoW 是 OCP 推、AMD 偏好。同一颗 chiplet 厂商要支持两套 PHY,BOM 涨 15%
- CXL 标准过快:CXL 1.1 → 2.0 → 3.0 三年三个版本,OEM 不敢押注,CXL 实际落地比预期慢 18 个月
- NVIDIA 不开放 NVLink:CXL Fabric 试图替代 NVLink,但 NVIDIA 用绝对带宽碾压(NVLink 6 是 PCIe 6 的 3 倍)
Chiplets Need A New Workflow 写得更直接:现在每家做 chiplet 的公司,验证一颗 chiplet 在不同 interposer / 不同协议组合下能不能 work 的成本,比设计这颗 chiplet 本身还高。
4.3 一个预判
2027 年互联标准会经历一轮"血洗"。我的判断:
- BoW 输给 UCIe(OCP 联盟不够强,TSMC 已经偏向 UCIe)
- CXL 在 memory pooling 之外的应用被砍掉(CXL 1.1 cache-coherent 那套 70% 客户用不上)
- PCIe 7.0 推迟到 2028 之后(产业疲劳)
- NVLink 继续闭源 + 高溢价,但出现 1-2 个开源替代(看 AMD Infinity Fabric over UCIe 能不能落地)
五、串起来:AI 数据中心的新 BOM
把上面三件事串起来,2027 年的 AI 训练节点会长这样:
| |
跟 2024 年比,GPU 周围的"环境"几乎完全换血:HBM 旁边多了 HBF,CPU RAM 从 DDR5 RDIMM 换成 SOCAMM2 LPDDR5X,die-to-die 互联从 PCIe 转到 UCIe,板间从 PCIe 转到 CXL。GPU 本身只是这个变化里相对小的一环。
六、对几类人的建议
做 AI 基础设施投资的:盯三家被低估的公司 — SanDisk(HBF 出来很可能 spin-off)、Astera Labs(短期受 SOCAMM2 冲击,长期 CXL fabric 还是它的)、Marvell(switch + interconnect 的中立选手)
做 AI 训练的工程师:你的 next-gen training stack 必须把"内存层级 + interconnect 拓扑"暴露为一阶变量。PyTorch FSDP / DeepSpeed ZeRO 这些抽象层 2027 都会大改
做半导体 startup 的:interposer / packaging / chiplet workflow 是 2026-2028 的真金山。EDA 三巨头(Synopsys/Cadence/Siemens)在这块儿动作慢,给了新厂商窗口期
做 hyperscaler 财务的:TCO 模型必须把 watt-per-token 和 TB-bandwidth-per-dollar 列为一阶指标。单看 “FP8 TFLOPS / $” 已经误导
七、一句话总结
AI 算力竞赛进入第二战线:第一战线(FP8 TFLOPS)NVIDIA 已经稳赢,但第二战线(memory hierarchy + interconnect fabric)刚刚开打,玩家更多、技术路线更分裂、被忽视的机会也更多。
下一个万亿美金的 AI 基础设施龙头,可能不是"造 GPU 的",而是"把 GPU 喂饱"的。
📚 引用来源
- SemiEngineering — Flash Getting Stacked High-Bandwidth Version (2026-05-14) · https://semiengineering.com/flash-getting-stacked-high-bandwidth-version/
- SemiEngineering — SOCAMM2: Bringing LPDDR5X Benefits To AI Servers (2026-05-14) · https://semiengineering.com/socamm2-bringing-lpddr5x-benefits-to-ai-servers/
- SemiEngineering — Confusion Grows With More Interconnect Options And Tradeoffs (2026-05-18) · https://semiengineering.com/confusion-grows-with-more-interconnect-options-and-tradeoffs/
- SemiEngineering — Chiplets Need A New Workflow (2026-05-14) · https://semiengineering.com/chiplets-need-a-new-workflow/
- SemiWiki — TSMC’s Record Tool Orders Hint at Another CapEx Shockwave (2026-05-15) · https://semiwiki.com/semiconductor-manufacturers/tsmc/369288-tsmcs-record-tool-orders-hint-at-another-capex-shockwave/
- NVIDIA Developer Blog — How the NVIDIA Vera Rubin Platform is Solving Agentic AI’s Scale-Up Problem (2026-05-14) · https://developer.nvidia.com/blog