HBM on Jiayun's Blog

GPU 之外的第二战线：HBF、SOCAMM2、UCIe — AI 算力瓶颈正在从计算搬到『内存与互联』

Mon, 18 May 2026 00:00:00 +0000

📌 前沿科技 · 半导体深度 | Semiconductor Deep Dive

2026 年 5 月这一周，SemiEngineering 连发四篇技术文章，分别是：

Flash Getting Stacked High-Bandwidth Version — 介绍 HBF（High Bandwidth Flash）的 3D 堆叠样品

SOCAMM2: Bringing LPDDR5X Benefits To AI Servers — JEDEC 标准化的服务器 LPDDR 模组

Confusion Grows With More Interconnect Options And Tradeoffs — 5 种互联标准并存的系统设计困境

Chiplets Need A New Workflow — 系统级 chiplet 设计方法论问题

这四件事被分开报道时是技术新闻，串起来看是一张完整的『AI 数据中心去 GPU 中心化』路线图。这篇文章把它们整合成一个故事。

HBF 与 SOCAMM2：AI 推理内存正在分裂成两套架构，HBM 不再是唯一答案

Fri, 15 May 2026 00:00:00 +0000

核心观点：AI 推理硬件正在分化成两条独立路线 —— 一条向上要"装得下更大模型"（HBF 高带宽闪存），一条向下要"每瓦更多 token"（SOCAMM2 LPDDR5X）。HBM 仍然是训练王者，但它在推理场景里被两端蚕食。这不是供应链短缺的临时方案，而是工艺与经济决定的结构性分叉。下一波数据中心采购，内存账单的形状会和 2024 年完全不同。

AMMA 架构：用存算一体 HBM 替代 GPU 计算 Die，百万上下文 Attention 的内存墙解法

Wed, 06 May 2026 00:00:00 +0000

当上下文长度从 8K 增长到 1M，Attention 的计算量增长了 15000 倍。但真正的瓶颈不是算力——是数据搬运。

一、长上下文推理的真正瓶颈不是 FLOPS

2026 年的 LLM 推理正在经历一场静默的危机。

Nvidia 90% 成本卡在亚洲：AI 算力霸权的地理单点故障

Tue, 05 May 2026 00:00:00 +0000

一、一个被低估的数字：90%

2026 年 4 月底，Nvidia 在一份提交给美国证券交易委员会的补充披露文件里，第一次用一个具体百分比刻画了它的"地理风险敞口"——生产成本的约 90% 来自亚洲供应链。Tom’s Hardware 在 5 月初梳理这份文件时强调：这不是营收的 90%，也不是出货量的 90%，而是"成本结构"的 90%。换句话说，每当 Jensen Huang 在主题演讲里举起一块 Blackwell 板卡，那块板卡上每一美元的物理成本，有九毛是在台北、新竹、首尔、熊本、槟城和胡志明之间被分摊掉的。

内存饥荒延至 2027：三星与 SK 海力士的预警，正在改写 AI 产业的成本曲线

Fri, 01 May 2026 00:00:00 +0000

一封罕见的"双家联合预警"

2026 年 4 月，三星电子与 SK 海力士在各自的财报电话会上几乎同时给出了一个判断：由 AI 驱动的内存短缺，将持续到 2027 年甚至更晚。云厂商已经在锁定 2027 年的长期合同，部分一线买家甚至在谈 2028 年的远期价格。