Jiayun's Blog

探索与分享

当推理速度提升 3 倍不再靠更大的 GPU,而靠"先猜后验"的算法

2026 年 4 月底 arXiv 上挂出一篇看起来不起眼但分量很重的论文:SpecTr-GBV: Multi-Draft Block Verification Accelerating Speculative Decoding。它把 speculative decoding 的吞吐推到了一个新台阶——在不损失生成质量的前提下,对 70B 级别模型实现了 3.4× 端到端吞吐提升,关键创新是放弃了"单 draft 模型 + 逐 token 验证"的经典范式,改成"多 draft 并行 + 块级一次性验证"。

如果你还没追这个领域,可能不太理解这个数字的意义。我直白地说:Speculative Decoding 是过去两年大模型推理优化里影响最深远但讨论最少的一条主线,它和 KV cache 压缩、量化、并行解码这几条线,共同决定了 2026-2028 年大模型部署的成本曲线。

本文带读者把这套技术理一遍——它怎么工作、过去两年发生了什么、SpecTr-GBV 这种新工作在解决什么旧瓶颈、以及它对开源 LLM 工具链(vLLM/SGLang/TGI)意味着什么。


一、什么是 Speculative Decoding:用"猜测+验证"绕过 autoregressive 瓶颈

LLM 推理慢的根本原因是 autoregressive:每生成一个 token 都要做一次完整 forward。token 之间无法并行,GPU 算力大量浪费在等内存带宽上。一个 70B 模型在 H100 上单 batch 解码大约只能跑到 30-40 tokens/s,瓶颈不是算力是访存。

Google 在 2022 年的 Fast Inference from Transformers via Speculative Decoding(Leviathan et al.)和 DeepMind 几乎同时发的 Accelerating Large Language Model Decoding with Speculative Sampling(Chen et al.)提出了一个聪明的破局思路:

1
2
3
4
5
1. 用一个小模型(draft model,比如 1B)先"猜"出未来 K 个 token;
2. 把这 K 个 token 作为一段输入丢进大模型做一次 forward;
3. 大模型给出对每个位置的概率分布;
4. 从前往后比对,命中的部分被接受,第一个不命中的位置用大模型的分布重采;
5. 净效果:一次大模型 forward 产生 1~K+1 个 token。

接受率 α 越高,加速比越大。理论上限是 K+1 倍;实测在大多数 instruction-following 任务上能到 2-3 倍。

这个机制的精妙之处在于它是无损的——只要采样规则正确,输出分布严格等价于直接用大模型解码。这是它能被 vLLM、SGLang、TGI、TensorRT-LLM 全员接入的根本原因。

二、过去两年的演进:从 trick 到产线主流

2023-2024 年这条线被打开后,发生了几次关键升级:

阶段代表工作核心改进
1.0 经典Leviathan / Chen 2022Draft+Target 双模型
1.5 自推测Medusa (2023)在主模型上加多头预测,省掉 draft
2.0 树搜索EAGLE / EAGLE-2 (2024)把 draft 输出做成树,并行验证多分支
2.5 状态保留EAGLE-3 (2025)把 hidden state 也共享
3.0 块级SpecTr-GBV (2026)多 draft 并行 + 块验证,绕过逐 token 串行

EAGLE 系列是这两年的"产线宠儿"——它把 draft 做成主模型自己的一个轻量子图,加速比稳定在 2.5-3.5×,被 vLLM/SGLang 默认集成。但 EAGLE 仍然有个软肋:verification 阶段是逐 token 序列的,当树深变大时,validation kernel 的 launch overhead 反过来吃掉一部分收益。

SpecTr-GBV 的核心创新就是把这个"逐 token 验证"重构成"块级一次性验证"。它的关键 trick 是用一个数学上更紧的概率上界,让多个 draft 的整段 K 个 token 可以一次 GEMM 决定全部的 accept/reject,把 kernel launch 数量从 O(K) 砍到 O(1)。在 70B 级别模型上把 EAGLE-3 已经很高的接受率 (~0.78) 又拉了一截。

三、为什么这件事比看起来重要:成本结构的连锁反应

这层算法层的进步直接对应一个产业级的事实:单位 token 的推理成本,正在以每 12 个月减半的速度下降——不是靠 GPU 变快(H100 → B200 单代不到 2×),而是靠这一类算法栈的累积。

让我们粗略算一下连锁效应:

1
2
3
4
5
6
7
8
2024 基线(H100 + vLLM 0.3 + 经典 spec dec):
  70B 模型    35 tokens/s/单卡,  $0.50 / 1M tokens

2025 中(EAGLE-2 + chunked prefill + FP8):
  70B 模型    105 tokens/s/单卡, $0.18 / 1M tokens

2026 上半年(EAGLE-3 + SpecTr-GBV + B200 + KV路由):
  70B 模型    ~340 tokens/s/单卡, $0.04 / 1M tokens

也就是 24 个月推理成本下降一个量级。这是 DeepSeek、月之暗面、字节、智谱敢打"白菜价 API"的真实底层原因——不是赔本赚吆喝,是工程红利传导到了 P&L

更深一层影响:当推理成本下降快过模型规模上升,部署 100B+ 大模型的门槛对中型企业开始打开。2024 年只有头部云厂商能负担 70B 在线推理;2026 年一家拿到 8 张 H200 的公司就能做。这是开源生态最大的红利。

四、对开源工具链意味着什么

这一波变化对几个主要 inference engine 的态势:

vLLM:仍是社区基线,但 2026 起在低延迟场景被 SGLang 反超。vLLM v1 重构 (2025) 解决了调度器瓶颈,下一步是把 spec dec 抽象成可插拔策略,否则会被 SGLang 在 spec 层赶上。

SGLang:在 spec decoding 集成上速度最快,EAGLE-3 / Medusa 都是首发支持。Together AI 和 Lambda 在大量服务采用。

TensorRT-LLM:性能仍是绝对值最快的,但闭源、绑 NV、迭代慢,开源社区粘性低。

TGI (Hugging Face):长期在掉队,下一个 12 个月如果不快速集成 EAGLE-3 + 块验证,可能彻底被边缘化。

llama.cpp:在端侧场景吃下了 spec decoding(用小模型作 draft)的全部红利,是消费级 GPU 上跑 70B 的事实标准。

我的判断:2026 年底,spec decoding 会从一个"可选优化"变成"默认开"。任何还在用 baseline autoregressive 部署 LLM 的团队,账单会比对手贵 3-4 倍。

五、还没被解决的问题

不要被加速比的数字冲昏头,spec decoding 仍然有几个真实的开放问题:

  1. Long context 下接受率坍塌——当上下文超过 64K,draft 和 target 的分布漂移变大,加速比会从 3× 跌到 1.5×。这是 SpecTr-GBV 后续工作要解决的方向。
  2. Tool calling / 结构化输出场景——JSON/工具调用场景的 token 分布尖锐,传统 spec dec 会打到坑里,需要专门的 grammar-aware draft。
  3. 多模态场景——VLM/多模态推理的 prefix 异质性大,draft 模型设计仍是开放问题。
  4. 训练——目前所有 spec dec 都假设 draft 已经训好,draft 与 target 的联合训练框架还非常初步。

结语:算法层仍然是大模型成本曲线的最大变量

媒体喜欢报道更大的 GPU 集群、更高带宽的 NVLink、更先进的 HBM4,但过去两年大模型推理成本下降的最大功臣,其实是 spec decoding + KV cache 优化这一类纯算法工作。它告诉我们一个反直觉的事实:

AI 基础设施的下一波突破,不一定来自硅,而来自数学。

如果你做 LLM 部署、做开源 infra、或者只是想理解为什么 API 价格还能继续往下砸——把 SpecTr-GBV 这条线放到你的雷达上,比追又一个 1.6T MoE 重要得多。


引用与延伸阅读

  1. arXiv – SpecTr-GBV: Multi-Draft Block Verification Accelerating Speculative Decoding (2026) — https://arxiv.org/
  2. Leviathan et al. – Fast Inference from Transformers via Speculative Decoding (2022) — https://arxiv.org/abs/2211.17192
  3. Chen et al. (DeepMind) – Accelerating LLM Decoding with Speculative Sampling (2022) — https://arxiv.org/abs/2302.01318
  4. Medusa & EAGLE / EAGLE-2 / EAGLE-3 papers — https://sites.google.com/view/medusa-llm
  5. vLLM project blog & release notes — https://blog.vllm.ai/
  6. SGLang project — https://github.com/sgl-project/sglang
  7. Latent Space – The Inference Inflectionhttps://www.latent.space/