<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>HBM on Jiayun's Blog</title><link>https://xiejiayun.github.io/tags/hbm/</link><description>Recent content in HBM on Jiayun's Blog</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Mon, 18 May 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://xiejiayun.github.io/tags/hbm/index.xml" rel="self" type="application/rss+xml"/><item><title>GPU 之外的第二战线：HBF、SOCAMM2、UCIe — AI 算力瓶颈正在从计算搬到『内存与互联』</title><link>https://xiejiayun.github.io/post/hbf-socamm2-interconnect-memory-wall-2026/</link><pubDate>Mon, 18 May 2026 00:00:00 +0000</pubDate><guid>https://xiejiayun.github.io/post/hbf-socamm2-interconnect-memory-wall-2026/</guid><description>&lt;blockquote>
&lt;p>📌 &lt;strong>前沿科技 · 半导体深度 | Semiconductor Deep Dive&lt;/strong>&lt;/p>
&lt;p>2026 年 5 月这一周，SemiEngineering 连发四篇技术文章，分别是：&lt;/p>
&lt;ol>
&lt;li>&lt;em>Flash Getting Stacked High-Bandwidth Version&lt;/em> — 介绍 HBF（High Bandwidth Flash）的 3D 堆叠样品&lt;/li>
&lt;li>&lt;em>SOCAMM2: Bringing LPDDR5X Benefits To AI Servers&lt;/em> — JEDEC 标准化的服务器 LPDDR 模组&lt;/li>
&lt;li>&lt;em>Confusion Grows With More Interconnect Options And Tradeoffs&lt;/em> — 5 种互联标准并存的系统设计困境&lt;/li>
&lt;li>&lt;em>Chiplets Need A New Workflow&lt;/em> — 系统级 chiplet 设计方法论问题&lt;/li>
&lt;/ol>
&lt;p>这四件事被分开报道时是技术新闻，&lt;strong>串起来看是一张完整的『AI 数据中心去 GPU 中心化』路线图&lt;/strong>。这篇文章把它们整合成一个故事。&lt;/p></description></item><item><title>HBF 与 SOCAMM2：AI 推理内存正在分裂成两套架构，HBM 不再是唯一答案</title><link>https://xiejiayun.github.io/post/hbf-socamm2-ai-inference-memory-architecture-bifurcation-2026/</link><pubDate>Fri, 15 May 2026 00:00:00 +0000</pubDate><guid>https://xiejiayun.github.io/post/hbf-socamm2-ai-inference-memory-architecture-bifurcation-2026/</guid><description>&lt;blockquote>
&lt;p>&lt;strong>核心观点&lt;/strong>：AI 推理硬件正在分化成两条独立路线 —— 一条向上要&amp;quot;装得下更大模型&amp;quot;（HBF 高带宽闪存），一条向下要&amp;quot;每瓦更多 token&amp;quot;（SOCAMM2 LPDDR5X）。HBM 仍然是训练王者，但它在推理场景里被两端蚕食。这不是供应链短缺的临时方案，而是工艺与经济决定的&lt;strong>结构性分叉&lt;/strong>。下一波数据中心采购，内存账单的形状会和 2024 年完全不同。&lt;/p></description></item><item><title>AMMA 架构：用存算一体 HBM 替代 GPU 计算 Die，百万上下文 Attention 的内存墙解法</title><link>https://xiejiayun.github.io/post/pnm-hbm-replace-gpu-compute-die-attention-2026/</link><pubDate>Wed, 06 May 2026 00:00:00 +0000</pubDate><guid>https://xiejiayun.github.io/post/pnm-hbm-replace-gpu-compute-die-attention-2026/</guid><description>&lt;blockquote>
&lt;p>当上下文长度从 8K 增长到 1M，Attention 的计算量增长了 15000 倍。但真正的瓶颈不是算力——是数据搬运。&lt;/p>&lt;/blockquote>
&lt;hr>
&lt;h2 id="一长上下文推理的真正瓶颈不是-flops">一、长上下文推理的真正瓶颈不是 FLOPS&lt;/h2>
&lt;p>2026 年的 LLM 推理正在经历一场静默的危机。&lt;/p></description></item><item><title>Nvidia 90% 成本卡在亚洲：AI 算力霸权的地理单点故障</title><link>https://xiejiayun.github.io/post/nvidia-asia-supply-chain-90-percent-geographic-spof-2026/</link><pubDate>Tue, 05 May 2026 00:00:00 +0000</pubDate><guid>https://xiejiayun.github.io/post/nvidia-asia-supply-chain-90-percent-geographic-spof-2026/</guid><description>&lt;h2 id="一一个被低估的数字90">一、一个被低估的数字：90%&lt;/h2>
&lt;p>2026 年 4 月底，Nvidia 在一份提交给美国证券交易委员会的补充披露文件里，第一次用一个具体百分比刻画了它的&amp;quot;地理风险敞口&amp;quot;——&lt;strong>生产成本的约 90% 来自亚洲供应链&lt;/strong>。Tom&amp;rsquo;s Hardware 在 5 月初梳理这份文件时强调：这不是营收的 90%，也不是出货量的 90%，而是&amp;quot;成本结构&amp;quot;的 90%。换句话说，每当 Jensen Huang 在主题演讲里举起一块 Blackwell 板卡，那块板卡上每一美元的物理成本，有九毛是在台北、新竹、首尔、熊本、槟城和胡志明之间被分摊掉的。&lt;/p></description></item><item><title>内存饥荒延至 2027：三星与 SK 海力士的预警，正在改写 AI 产业的成本曲线</title><link>https://xiejiayun.github.io/post/memory-shortage-2027-supply-chain/</link><pubDate>Fri, 01 May 2026 00:00:00 +0000</pubDate><guid>https://xiejiayun.github.io/post/memory-shortage-2027-supply-chain/</guid><description>&lt;h2 id="一封罕见的双家联合预警">一封罕见的&amp;quot;双家联合预警&amp;quot;&lt;/h2>
&lt;p>2026 年 4 月，三星电子与 SK 海力士在各自的财报电话会上几乎同时给出了一个判断：&lt;strong>由 AI 驱动的内存短缺，将持续到 2027 年甚至更晚&lt;/strong>。云厂商已经在锁定 2027 年的长期合同，部分一线买家甚至在谈 2028 年的远期价格。&lt;/p></description></item></channel></rss>