Jiayun's Blog

探索与分享

GPU 之外的第二战线:HBF、SOCAMM2、UCIe — AI 算力瓶颈正在从计算搬到『内存与互联』

当所有人都在算 H200/B200/Vera Rubin 的 FP8 TOPS,真正卡住 AI 训练扩张的不是 compute,是内存层级和 chip-to-chip 互联。SanDisk × SK hynix 的 HBF(High Bandwidth Flash)、Samsung × Micron 的 SOCAMM2 LPDDR5X,以及 UCIe / BoW / PCIe 6.0 三家互联标准混战,正在重写 AI 数据中心的 BOM。本文整合 SemiEngineering 2026-05 的 4 篇技术文章,给出一份『内存与互联』视角下的 AI 算力新地图。

HBF 与 SOCAMM2:AI 推理内存正在分裂成两套架构,HBM 不再是唯一答案

2026 年 AI 推理硬件的最大变化不是新一代加速器,而是内存子系统的分叉 —— 高带宽闪存(HBF)抢走静态权重的位置,SOCAMM2 LPDDR5X 抢走低功耗推理的位置,HBM 被夹在中间。这是 GPU 之外,AI 数据中心的第二条隐形战线,决定未来三年每瓦推理 token 数的上限。

AMMA 架构:用存算一体 HBM 替代 GPU 计算 Die,百万上下文 Attention 的内存墙解法

UCSD、Columbia 和延世大学提出 AMMA 多芯粒存算一体架构,在长上下文 LLM 推理中用 PNM-HBM 替代传统 GPU 计算 Die。当内存带宽成为瓶颈,计算应该搬到数据旁边。

Nvidia 90% 成本卡在亚洲:AI 算力霸权的地理单点故障

Nvidia 最新披露生产成本 90% 来自亚洲供应链。这不是 CHIPS Act 能解决的问题——晶圆可以搬,封装/HBM/基板搬不动。AI 算力霸权正坐在一个不可分散的地理单点上。

内存饥荒延至 2027:三星与 SK 海力士的预警,正在改写 AI 产业的成本曲线

三星与 SK 海力士罕见联合预警 HBM 与常规 DRAM 紧缺持续到 2027 年。本文从产能、产品组合、长协与现货价差、以及对云厂商和消费电子的传导路径,拆解这一轮内存周期为何与历史上任何一次都不同。