近存计算3D堆叠芯片：LLM推理的下一个范式转移

LLM推理的真正瓶颈：不是算力，是搬数据

如果你问一个GPU工程师"为什么LLM推理这么贵"，他的回答可能不是"算力不够"，而是**“数据搬不动”**。

SemiEngineering最新报道直指核心：“Moving data has become the top challenge inside data centers。” 数据中心最大的挑战不再是计算，而是数据搬运。

为什么？因为LLM推理有一个独特的计算特征：解码阶段（Decoding）是内存带宽受限的（Memory-bound），而不是计算受限的（Compute-bound）。

每生成一个Token，模型需要从显存中读取完整的KV Cache和模型权重——对于一个70B参数的模型，这意味着每个Token需要搬运超过140GB的数据。即使是NVIDIA最高端的GPU，其HBM带宽也只有几TB/s，这成为了不可逾越的物理瓶颈。

解决方案不是更快的计算单元，而是让计算靠近数据。

爱丁堡大学、北京大学、剑桥大学等机构联合发表的论文"Rethinking Compute Substrates for 3D-Stacked Near-Memory LLM Decoding"提出了一个激进的方案：不要把数据搬到GPU上计算，而是在内存旁边直接计算。

这不是一个新概念——近存计算（Near-Memory Computing，NMC）已经讨论了几十年。但这篇论文的创新在于：它第一次系统性地针对LLM解码任务，进行了微架构和调度的协同设计。

关键创新点在于调度器的协同设计。论文发现，传统GPU调度器假设计算和内存是分离的，这在近存计算架构中完全不适用。新的调度策略需要考虑：

几乎同时，TSMC在其2026年Technology Symposium上发出了一个明确信号：AI时代的芯片设计已经从"做更好的晶体管"转向"做更好的系统"。

SemiWiki对TSMC演讲的深度分析指出，TSMC认为AI的主要约束已经不再是模型能力，而是运行这些模型所需的系统——包括封装、互连、散热、供电等系统级挑战。

这与学术界的近存计算研究形成了完美的呼应。TSMC正在推进的几项关键技术：

SemiWiki另一篇深度报道"Scalable Network-on-Chip Enables a Modular Chiplet Platform"揭示了另一个关键趋势：Chiplet（芯粒）架构正在从概念走向标准化。

传统的单片SoC（System-on-Chip）面临物理极限：芯片越大，良率越低，成本指数增长。Chiplet方案将一个大芯片拆分成多个小芯片，通过先进封装互连。

对于LLM推理，Chiplet的意义在于：

IEEE Spectrum报道了"Better Hardware Could Turn Zeros into AI Heroes"——利用AI计算中大量存在的零值来加速推理。

这与近存计算形成了互补关系。LLM推理中，激活值（Activation）通常有50-90%是零或接近零的值。如果硬件能够原生跳过这些无效计算：

IEEE Spectrum还报道了一个有趣的创新：“The Chip That Made Hardware Rewriteable”——一种可以在部署后重新配置的芯片架构。

这对近存计算的意义在于：LLM模型迭代非常快，专用硬件面临的最大风险是被新模型架构淘汰。可重写芯片提供了一个折中方案——在保持近存计算效率优势的同时，允许硬件适应新的模型架构。

近存计算3D堆叠将在2-3年内从学术研究走向商业芯片产品。

理由如下：

我的预测：