Jiayun's Blog

探索与分享

推理工程:三年前训练是什么,今天推理就是什么

The Pragmatic Engineer最近的深度分析一针见血:2023年,AI行业的核心挑战是"如何训练更大的模型";2026年,核心挑战变成了**“如何让模型更快更便宜地推理”**。

原因很简单:当每家公司都在部署AI Agent,每个Agent每天消耗数十亿token时,推理成本和延迟成了真正的业务瓶颈。训练是一次性的资本支出,推理是持续的运营支出——后者的优化空间才是商业竞争的主战场。

本文聚焦三个正在同时发生的突破,它们的交汇将定义未来三年的推理基础设施。

突破一:异构推理——把LLM拆开放在不同芯片上

SambaNova与Intel联合发布的异构推理架构蓝图,代表了一种根本性的思维转变:不再用一种芯片做所有事情

LLM推理分为两个截然不同的阶段:

阶段计算特征瓶颈最优硬件
Prefill(预填充)大规模并行矩阵运算计算带宽SambaNova RDU / GPU
Decode(解码)顺序token生成内存带宽Intel Gaudi / 定制ASIC

传统方案用同一块GPU同时做prefill和decode,就像让短跑运动员跑马拉松——两边都不是最优的。异构架构的核心洞见是:把这两个阶段调度到各自最擅长的硬件上

SambaNova的RDU(Reconfigurable Dataflow Unit)在prefill阶段的吞吐量远超传统GPU,而Intel Gaudi在decode阶段的内存带宽利用率更高。两者通过高速互连协同工作,总体推理效率提升可达3-5倍。

TSMC的CC Wei在最新财报电话会上的话可以作为注脚:“没有建厂的捷径。“当所有人都在追求更先进的制程时,TSMC用其"无瑕疵执行"继续主导芯片制造。但即使是2nm芯片,单芯片方案也无法满足LLM推理的异构需求——这就是为什么chiplet(小芯片)架构正在成为主流。

突破二:KV缓存压缩——数学上的美丽突破

KV缓存是Transformer推理的隐藏瓶颈。对于一个70B参数的模型,长上下文对话的KV缓存可能占用数十GB内存。

arXiv上最新的一篇论文提出了一个突破性思路:现有的KV缓存量化方法(如TurboQuant)已经逼近了单向量的Shannon熵极限。但作者指出,这个极限适用的是一个比实际问题更弱的问题

关键洞察:KV缓存中的token不是随机浮点数据——它们是模型所训练的形式语言的样本。利用这个语言结构,通过概率语言Trie树进行序列级压缩,可以超越单向量的Shannon极限。

这类似于文本压缩的思路:如果你知道数据是英语文本而非随机字节,你的压缩率可以高得多。

然而,另一篇同期论文"The Illusion of Equivalence"敲响了警钟:在标准FP16精度下,KV缓存和非缓存的推理路径会产生确定性的分歧。原因是FP16浮点运算的非结合性——不同的累加顺序产生不同的结果。这意味着:

我们以为KV缓存是"无损"优化,实际上它在数学上改变了模型的输出。三个开源模型(LLaMA-2-7B、Mistral等)都确认了这一现象。

这对推理系统的正确性验证提出了根本性挑战——你如何测试一个在数学上就不等价的优化?

突破三:硅光子互连——光速解决带宽困境

SemiEngineering的深度报告揭示了一个正在加速的趋势:硅光子(Silicon Photonics)正在从实验室走向数据中心

AI工作负载对数据中心互连的需求正在突破电信号的物理极限:

指标电互连硅光子互连提升倍数
带宽密度~100 Gbps/mm~1 Tbps/mm10x
功耗(pJ/bit)5-101-25x
传输距离<1m(高速)10m-2km100x+
延迟基线接近光速显著降低

但挑战同样巨大:硅光子需要多种不同材料(硅、磷化铟、氮化硅等),引入了工艺兼容性问题以及热和机械应力。集成电光I/O模块是终极目标,但材料和工艺挑战仍然严峻。

与此同时,chiplet标准化正在推进"即插即用"的愿景。SemiEngineering报道指出,Die-to-die的chiplet标准只是开始——封装标准、系统架构、通用链路层等一系列标准都在同步推进。Intel的突破性薄GaN chiplet技术(在300mm GaN-on-Si晶圆上实现)则展示了异构集成的新可能:将功率放大、高频通信和数字计算集成在同一封装中。

三重奏的交汇点

这三个突破不是孤立的——它们正在交汇成一个全新的推理基础设施范式:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
┌─────────────────────────────────────────────┐
│              推理编排层(软件)                │
│     调度prefill/decode到不同硬件               │
├─────────────┬───────────────┬───────────────┤
│  Prefill芯片 │   Decode芯片   │  KV Cache存储  │
│  (RDU/GPU)  │  (Gaudi/ASIC) │  (HBM+压缩)   │
├─────────────┴───────────────┴───────────────┤
│          硅光子互连层(物理)                   │
│     Tbps级带宽,<2 pJ/bit功耗                 │
├─────────────────────────────────────────────┤
│          Chiplet封装层(封装)                  │
│     异构芯片集成,即插即用标准                   │
└─────────────────────────────────────────────┘

我的预判

  1. 2026年底:至少两家云厂商将提供商业化的prefill/decode分离推理服务
  2. 2027年:KV缓存的序列级压缩将成为标准优化,内存需求降低50%+
  3. 2028年:硅光子互连在新建AI数据中心中的渗透率超过30%
  4. 终极预测:通过这三重优化的叠加,2028年的推理成本将比2025年降低10倍以上

最尖锐的观点: 推理优化的竞赛将比训练竞赛更加激烈,因为它直接关系到每一笔AI推理交易的毛利率。训练大模型是少数巨头的游戏,但推理优化是每一家使用AI的公司都必须关注的基础设施问题。未来三年,“推理工程师"将取代"提示工程师"成为最热门的AI岗位。


参考链接