GPU 之外的第二战线：HBF、SOCAMM2、UCIe — AI 算力瓶颈正在从计算搬到『内存与互联』

📌 前沿科技 · 半导体深度 | Semiconductor Deep Dive
2026 年 5 月这一周，SemiEngineering 连发四篇技术文章，分别是：
Flash Getting Stacked High-Bandwidth Version — 介绍 HBF（High Bandwidth Flash）的 3D 堆叠样品
SOCAMM2: Bringing LPDDR5X Benefits To AI Servers — JEDEC 标准化的服务器 LPDDR 模组
Confusion Grows With More Interconnect Options And Tradeoffs — 5 种互联标准并存的系统设计困境
Chiplets Need A New Workflow — 系统级 chiplet 设计方法论问题
这四件事被分开报道时是技术新闻，串起来看是一张完整的『AI 数据中心去 GPU 中心化』路线图。这篇文章把它们整合成一个故事。

一、为什么 GPU 不再是瓶颈

H200 → B200 → GB200 → Vera Rubin 这条算力曲线大家都熟。但 2026 年第一季度，多家 hyperscaler 的内部数据开始指向同一个结论：

大模型训练的 wall-clock 时间里，真正在跑 matmul 的占比已经掉到 40-55%。剩下 45-60% 全是数据搬运 — HBM ↔ SRAM、GPU ↔ GPU、节点 ↔ 节点。

这个数据点首次公开出现是在 NVIDIA 5 月 14 日的 Vera Rubin 平台 blog 里，他们坦白说"agentic AI 的 scale-up problem 不在算子库，在 fabric"。

简而言之：摩尔定律给了我们 5 年 6 倍的 dense FP4 算力，但带宽只翻 2 倍、容量只翻 1.5 倍。所谓的 memory wall 不是新概念，但今年是这堵墙第一次贵到不能假装它不存在。

1
2
3
4
5
6
7
8
                  AI Workload Bottleneck Shift (2022 → 2026)
        
        2022 │ Compute ████████████░░░ Memory ███ Interconnect ░░
        2023 │ Compute ██████████░░░░░ Memory █████ Interconnect ░░░
        2024 │ Compute ████████░░░░░░░ Memory ███████ Interconnect ████
        2025 │ Compute ██████░░░░░░░░░ Memory ████████ Interconnect ██████
        2026 │ Compute █████░░░░░░░░░░ Memory █████████ Interconnect ████████
                       FP/Tensor          HBM/LPDDR/HBF   PCIe/UCIe/NVLink/BoW

下面分别拆三个具体的"新战线"。

二、HBF：把 NAND 闪存堆成 HBM 的形状

2.1 是什么

HBF（High Bandwidth Flash）是 SanDisk（前 WD）联合 SK hynix 在 2026 年 Q2 公开样品的新存储产品。物理上它长得跟 HBM 一模一样：12 颗 NAND die 通过 TSV 垂直堆叠，封装在 GPU 旁边的同一 interposer 上，但每颗 die 不是 DRAM 而是 3D NAND。

参数	HBM3E	HBF (sample)
容量 / stack	36 GB	512 GB+
带宽 / stack	1.2 TB/s	64 GB/s (read)
延迟	~10ns	~10µs
功耗 / GB	~0.05 W	~0.005 W
单 GB 成本	~$15	~$0.6

注意带宽差 20 倍、延迟差 1000 倍 — HBF 不是为了替代 HBM，是为了在 HBM 旁边做"近内存的二级缓存"。

2.2 为什么这次能成

3D NAND 堆 HBM 形状这个想法不新（2019 就有论文），但过去三个 blocker：

TSV 工艺不兼容 — NAND 的写入电压 > 18V，跟 DRAM 的 1.1V TSV 设计冲突
热管理 — NAND 写入是热源，堆 12 层会触发 thermal runaway
控制器复杂度 — NAND 的 wear leveling / GC / ECC 在堆叠后变得极复杂

SanDisk + SK hynix 2026 这次的突破：

新一代 HV-TSV 工艺，把 18V 写入电压隔离在每颗 die 的独立 well 里
主动温度感知的 per-layer programming throttle（专利在 hynix）
控制器从 stack 内移到 base die，类似 HBM3E 的 logic die 设计

2.3 改变了什么

对大模型训练，HBF 解决的是一个具体痛点：KV cache + weights checkpoint 的本地缓存。

举个具体场景：Llama-4 405B 在 4-way TP × 8-way PP 训练时，每个 GPU 的 model state 大概需要 200GB，但 H200 只有 141GB HBM3E。多出来的 60GB 现在是去 CPU RAM 取，pipeline stall 200µs。如果换成 HBF：

容量足够（500GB+ 单 stack）
延迟 10µs，比 PCIe 取 CPU RAM 的 20µs 快 2 倍
成本是 HBM 的 1/25

这意味着：单卡能装下的有效模型尺寸，可能在 2027 翻 3-4 倍，不需要等下一代 HBM。

详见 SemiEngineering Flash Getting Stacked High-Bandwidth Version。

三、SOCAMM2：把 LPDDR5X 抬上 AI 服务器

3.1 是什么

SOCAMM2（Small Outline Compression Attached Memory Module，第二代）是 JEDEC 在 2026 年初标准化的服务器 LPDDR 模组规格。形态上类似笔记本的 SODIMM，但物理触点更密、信号完整性指标更严，针对的是 LPDDR5X（最高 9600 MT/s）。

关键 spec：

容量：单模组 96GB（4× 24GB stacks）
带宽：单模组 ~76.8 GB/s（8-channel）
功耗：1/3 of RDIMM DDR5 at iso-capacity
替换性：socket’d，不是 BGA — 可现场升级

3.2 为什么 AI 服务器关心 LPDDR

过去 LPDDR 是手机用的。它进入服务器只有一个理由：功耗。

1
2
3
4
5
6
              单节点 768GB 内存的功耗对比（2024 测算）
   
   RDIMM DDR5-6400 │█████████████████████████│ 240W
   MRDIMM DDR5-8800│██████████████████│ 180W
   SOCAMM2 LPDDR5X │█████████│ 90W
                    0    50    100    150    200    250 W

在 hyperscaler 数据中心里，这 150W 的 delta 乘以几万节点 = 一座中型水电站。

更关键的是，AI workload 对 server CPU RAM 的需求模式变了：

传统 web/db：随机访问、低带宽、小 working set → DDR5 优
AI 训练辅助：顺序大块访问、高带宽、做 GPU 的二级备份 → LPDDR5X 反而更合算

所以你会看到 Samsung 5 月推出 9600 MT/s LPDDR5X 直接定位 AI 服务器，配合 Grace Hopper / GB200 / GB300 的 HBM-CPU 分层架构。

3.3 谁会受伤

Hynix / Samsung DDR5 RDIMM 业务：会被 SOCAMM2 蚕食 30% 以上 server 份额
Micron：相对收益 — 它的 LPDDR 业务份额 > DDR
Astera Labs 之类 CXL 内存厂商：本来想做"分层内存控制器"，SOCAMM2 直接把"近 CPU 的层"标准化了，CXL 内存的吸引力相对下降

四、Interconnect 五国混战：UCIe / BoW / PCIe / NVLink / CXL

4.1 现状

SemiEngineering 5 月 18 日发的 Confusion Grows With More Interconnect Options And Tradeoffs 给了一个数据点：现代 AI 服务器系统设计师，单系统内平均评估 5+ 种 interconnect 协议。

协议	用途	带宽 (lane)	延迟	状态
PCIe 6.0	Chip-to-chip board level	64 GT/s	~150ns	量产
CXL 3.0	Memory pooling	64 GT/s	~200ns	起量
UCIe 1.1	Die-to-die (organic)	32 GT/s	~5ns	量产
BoW	Die-to-die (silicon bridge)	16 GT/s	~3ns	局部
NVLink 6	GPU-to-GPU (proprietary)	200 GT/s	~50ns	NVIDIA 独占

4.2 真正的混乱在哪

技术上，每种协议都有 niche。但产业上的混乱在于：

UCIe 和 BoW 之争：UCIe 是 Intel-TSMC-Samsung 联盟主推；BoW 是 OCP 推、AMD 偏好。同一颗 chiplet 厂商要支持两套 PHY，BOM 涨 15%
CXL 标准过快：CXL 1.1 → 2.0 → 3.0 三年三个版本，OEM 不敢押注，CXL 实际落地比预期慢 18 个月
NVIDIA 不开放 NVLink：CXL Fabric 试图替代 NVLink，但 NVIDIA 用绝对带宽碾压（NVLink 6 是 PCIe 6 的 3 倍）

Chiplets Need A New Workflow 写得更直接：现在每家做 chiplet 的公司，验证一颗 chiplet 在不同 interposer / 不同协议组合下能不能 work 的成本，比设计这颗 chiplet 本身还高。

4.3 一个预判

2027 年互联标准会经历一轮"血洗"。我的判断：

BoW 输给 UCIe（OCP 联盟不够强，TSMC 已经偏向 UCIe）
CXL 在 memory pooling 之外的应用被砍掉（CXL 1.1 cache-coherent 那套 70% 客户用不上）
PCIe 7.0 推迟到 2028 之后（产业疲劳）
NVLink 继续闭源 + 高溢价，但出现 1-2 个开源替代（看 AMD Infinity Fabric over UCIe 能不能落地）

五、串起来：AI 数据中心的新 BOM

把上面三件事串起来，2027 年的 AI 训练节点会长这样：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
┌──────────────────────────────────────────────────────────┐
│              AI Training Node (single)                   │
├──────────────────────────────────────────────────────────┤
│                                                          │
│  ┌───────────┐ NVLink 6  ┌───────────┐                   │
│  │ Vera Rubin├──────────►│ Vera Rubin│  ← 8 路 NVLink     │
│  │  CR-GPU   │  200GT/s  │  CR-GPU   │                   │
│  └─────┬─────┘            └─────┬─────┘                  │
│        │                        │                        │
│   HBM3E (1.2TB/s) + HBF (0.5TB)  ← 同 interposer           │
│        │                        │                        │
│        │ UCIe / CXL 3.0          │                        │
│        ▼                        ▼                        │
│  ┌─────────────────────────────────┐                     │
│  │ CPU (ARM Neoverse v3) × 2 sockets│                    │
│  │ SOCAMM2 LPDDR5X 1.5TB (per socket)│                   │
│  └─────────────────────────────────┘                     │
│        │                                                 │
│        │ PCIe 6.0                                        │
│        ▼                                                 │
│  ┌─────────────────────────────────┐                     │
│  │ Smart NIC (BlueField-4 / Marvell)│                    │
│  │ → InfiniBand NDR 800Gb/s         │                    │
│  └─────────────────────────────────┘                     │
└──────────────────────────────────────────────────────────┘

跟 2024 年比，GPU 周围的"环境"几乎完全换血：HBM 旁边多了 HBF，CPU RAM 从 DDR5 RDIMM 换成 SOCAMM2 LPDDR5X，die-to-die 互联从 PCIe 转到 UCIe，板间从 PCIe 转到 CXL。GPU 本身只是这个变化里相对小的一环。

六、对几类人的建议

做 AI 基础设施投资的：盯三家被低估的公司 — SanDisk（HBF 出来很可能 spin-off）、Astera Labs（短期受 SOCAMM2 冲击，长期 CXL fabric 还是它的）、Marvell（switch + interconnect 的中立选手）

做 AI 训练的工程师：你的 next-gen training stack 必须把"内存层级 + interconnect 拓扑"暴露为一阶变量。PyTorch FSDP / DeepSpeed ZeRO 这些抽象层 2027 都会大改

做半导体 startup 的：interposer / packaging / chiplet workflow 是 2026-2028 的真金山。EDA 三巨头（Synopsys/Cadence/Siemens）在这块儿动作慢，给了新厂商窗口期

做 hyperscaler 财务的：TCO 模型必须把 watt-per-token 和 TB-bandwidth-per-dollar 列为一阶指标。单看 “FP8 TFLOPS / $” 已经误导

七、一句话总结

AI 算力竞赛进入第二战线：第一战线（FP8 TFLOPS）NVIDIA 已经稳赢，但第二战线（memory hierarchy + interconnect fabric）刚刚开打，玩家更多、技术路线更分裂、被忽视的机会也更多。

下一个万亿美金的 AI 基础设施龙头，可能不是"造 GPU 的"，而是"把 GPU 喂饱"的。

📚 引用来源

SemiEngineering — Flash Getting Stacked High-Bandwidth Version (2026-05-14) · https://semiengineering.com/flash-getting-stacked-high-bandwidth-version/
SemiEngineering — SOCAMM2: Bringing LPDDR5X Benefits To AI Servers (2026-05-14) · https://semiengineering.com/socamm2-bringing-lpddr5x-benefits-to-ai-servers/
SemiEngineering — Confusion Grows With More Interconnect Options And Tradeoffs (2026-05-18) · https://semiengineering.com/confusion-grows-with-more-interconnect-options-and-tradeoffs/
SemiEngineering — Chiplets Need A New Workflow (2026-05-14) · https://semiengineering.com/chiplets-need-a-new-workflow/
SemiWiki — TSMC’s Record Tool Orders Hint at Another CapEx Shockwave (2026-05-15) · https://semiwiki.com/semiconductor-manufacturers/tsmc/369288-tsmcs-record-tool-orders-hint-at-another-capex-shockwave/
NVIDIA Developer Blog — How the NVIDIA Vera Rubin Platform is Solving Agentic AI’s Scale-Up Problem (2026-05-14) · https://developer.nvidia.com/blog

Jiayun's Blog