推理工程:三年前训练是什么,今天推理就是什么
The Pragmatic Engineer最近的深度分析一针见血:2023年,AI行业的核心挑战是"如何训练更大的模型";2026年,核心挑战变成了**“如何让模型更快更便宜地推理”**。
原因很简单:当每家公司都在部署AI Agent,每个Agent每天消耗数十亿token时,推理成本和延迟成了真正的业务瓶颈。训练是一次性的资本支出,推理是持续的运营支出——后者的优化空间才是商业竞争的主战场。
本文聚焦三个正在同时发生的突破,它们的交汇将定义未来三年的推理基础设施。
突破一:异构推理——把LLM拆开放在不同芯片上
SambaNova与Intel联合发布的异构推理架构蓝图,代表了一种根本性的思维转变:不再用一种芯片做所有事情。
LLM推理分为两个截然不同的阶段:
| 阶段 | 计算特征 | 瓶颈 | 最优硬件 |
|---|---|---|---|
| Prefill(预填充) | 大规模并行矩阵运算 | 计算带宽 | SambaNova RDU / GPU |
| Decode(解码) | 顺序token生成 | 内存带宽 | Intel Gaudi / 定制ASIC |
传统方案用同一块GPU同时做prefill和decode,就像让短跑运动员跑马拉松——两边都不是最优的。异构架构的核心洞见是:把这两个阶段调度到各自最擅长的硬件上。
SambaNova的RDU(Reconfigurable Dataflow Unit)在prefill阶段的吞吐量远超传统GPU,而Intel Gaudi在decode阶段的内存带宽利用率更高。两者通过高速互连协同工作,总体推理效率提升可达3-5倍。
TSMC的CC Wei在最新财报电话会上的话可以作为注脚:“没有建厂的捷径。“当所有人都在追求更先进的制程时,TSMC用其"无瑕疵执行"继续主导芯片制造。但即使是2nm芯片,单芯片方案也无法满足LLM推理的异构需求——这就是为什么chiplet(小芯片)架构正在成为主流。
突破二:KV缓存压缩——数学上的美丽突破
KV缓存是Transformer推理的隐藏瓶颈。对于一个70B参数的模型,长上下文对话的KV缓存可能占用数十GB内存。
arXiv上最新的一篇论文提出了一个突破性思路:现有的KV缓存量化方法(如TurboQuant)已经逼近了单向量的Shannon熵极限。但作者指出,这个极限适用的是一个比实际问题更弱的问题。
关键洞察:KV缓存中的token不是随机浮点数据——它们是模型所训练的形式语言的样本。利用这个语言结构,通过概率语言Trie树进行序列级压缩,可以超越单向量的Shannon极限。
这类似于文本压缩的思路:如果你知道数据是英语文本而非随机字节,你的压缩率可以高得多。
然而,另一篇同期论文"The Illusion of Equivalence"敲响了警钟:在标准FP16精度下,KV缓存和非缓存的推理路径会产生确定性的分歧。原因是FP16浮点运算的非结合性——不同的累加顺序产生不同的结果。这意味着:
我们以为KV缓存是"无损"优化,实际上它在数学上改变了模型的输出。三个开源模型(LLaMA-2-7B、Mistral等)都确认了这一现象。
这对推理系统的正确性验证提出了根本性挑战——你如何测试一个在数学上就不等价的优化?
突破三:硅光子互连——光速解决带宽困境
SemiEngineering的深度报告揭示了一个正在加速的趋势:硅光子(Silicon Photonics)正在从实验室走向数据中心。
AI工作负载对数据中心互连的需求正在突破电信号的物理极限:
| 指标 | 电互连 | 硅光子互连 | 提升倍数 |
|---|---|---|---|
| 带宽密度 | ~100 Gbps/mm | ~1 Tbps/mm | 10x |
| 功耗(pJ/bit) | 5-10 | 1-2 | 5x |
| 传输距离 | <1m(高速) | 10m-2km | 100x+ |
| 延迟 | 基线 | 接近光速 | 显著降低 |
但挑战同样巨大:硅光子需要多种不同材料(硅、磷化铟、氮化硅等),引入了工艺兼容性问题以及热和机械应力。集成电光I/O模块是终极目标,但材料和工艺挑战仍然严峻。
与此同时,chiplet标准化正在推进"即插即用"的愿景。SemiEngineering报道指出,Die-to-die的chiplet标准只是开始——封装标准、系统架构、通用链路层等一系列标准都在同步推进。Intel的突破性薄GaN chiplet技术(在300mm GaN-on-Si晶圆上实现)则展示了异构集成的新可能:将功率放大、高频通信和数字计算集成在同一封装中。
三重奏的交汇点
这三个突破不是孤立的——它们正在交汇成一个全新的推理基础设施范式:
| |
我的预判
- 2026年底:至少两家云厂商将提供商业化的prefill/decode分离推理服务
- 2027年:KV缓存的序列级压缩将成为标准优化,内存需求降低50%+
- 2028年:硅光子互连在新建AI数据中心中的渗透率超过30%
- 终极预测:通过这三重优化的叠加,2028年的推理成本将比2025年降低10倍以上
最尖锐的观点: 推理优化的竞赛将比训练竞赛更加激烈,因为它直接关系到每一笔AI推理交易的毛利率。训练大模型是少数巨头的游戏,但推理优化是每一家使用AI的公司都必须关注的基础设施问题。未来三年,“推理工程师"将取代"提示工程师"成为最热门的AI岗位。
参考链接
- The Pragmatic Engineer: What is inference engineering? Deepdive
- SemiWiki: Disaggregating LLM Inference: SambaNova Intel Heterogeneous Compute Blueprint
- arXiv: Sequential KV Cache Compression via Probabilistic Language Tries
- arXiv: The Illusion of Equivalence: Systematic FP16 Divergence in KV-Cached Inference
- SemiEngineering: Silicon Photonics Lights The Way To More Efficient Data Centers
- SemiEngineering: Chiplet Standards Aim For Plug-n-Play
- SemiEngineering: Breakthrough Thin GaN Chiplet Technology
- SemiWiki: TSMC to Elon Musk: There are no Shortcuts in Building Fabs