当推理速度提升 3 倍不再靠更大的 GPU,而靠"先猜后验"的算法
2026 年 4 月底 arXiv 上挂出一篇看起来不起眼但分量很重的论文:SpecTr-GBV: Multi-Draft Block Verification Accelerating Speculative Decoding。它把 speculative decoding 的吞吐推到了一个新台阶——在不损失生成质量的前提下,对 70B 级别模型实现了 3.4× 端到端吞吐提升,关键创新是放弃了"单 draft 模型 + 逐 token 验证"的经典范式,改成"多 draft 并行 + 块级一次性验证"。
如果你还没追这个领域,可能不太理解这个数字的意义。我直白地说:Speculative Decoding 是过去两年大模型推理优化里影响最深远但讨论最少的一条主线,它和 KV cache 压缩、量化、并行解码这几条线,共同决定了 2026-2028 年大模型部署的成本曲线。
本文带读者把这套技术理一遍——它怎么工作、过去两年发生了什么、SpecTr-GBV 这种新工作在解决什么旧瓶颈、以及它对开源 LLM 工具链(vLLM/SGLang/TGI)意味着什么。
一、什么是 Speculative Decoding:用"猜测+验证"绕过 autoregressive 瓶颈
LLM 推理慢的根本原因是 autoregressive:每生成一个 token 都要做一次完整 forward。token 之间无法并行,GPU 算力大量浪费在等内存带宽上。一个 70B 模型在 H100 上单 batch 解码大约只能跑到 30-40 tokens/s,瓶颈不是算力是访存。
Google 在 2022 年的 Fast Inference from Transformers via Speculative Decoding(Leviathan et al.)和 DeepMind 几乎同时发的 Accelerating Large Language Model Decoding with Speculative Sampling(Chen et al.)提出了一个聪明的破局思路:
| |
接受率 α 越高,加速比越大。理论上限是 K+1 倍;实测在大多数 instruction-following 任务上能到 2-3 倍。
这个机制的精妙之处在于它是无损的——只要采样规则正确,输出分布严格等价于直接用大模型解码。这是它能被 vLLM、SGLang、TGI、TensorRT-LLM 全员接入的根本原因。
二、过去两年的演进:从 trick 到产线主流
2023-2024 年这条线被打开后,发生了几次关键升级:
| 阶段 | 代表工作 | 核心改进 |
|---|---|---|
| 1.0 经典 | Leviathan / Chen 2022 | Draft+Target 双模型 |
| 1.5 自推测 | Medusa (2023) | 在主模型上加多头预测,省掉 draft |
| 2.0 树搜索 | EAGLE / EAGLE-2 (2024) | 把 draft 输出做成树,并行验证多分支 |
| 2.5 状态保留 | EAGLE-3 (2025) | 把 hidden state 也共享 |
| 3.0 块级 | SpecTr-GBV (2026) | 多 draft 并行 + 块验证,绕过逐 token 串行 |
EAGLE 系列是这两年的"产线宠儿"——它把 draft 做成主模型自己的一个轻量子图,加速比稳定在 2.5-3.5×,被 vLLM/SGLang 默认集成。但 EAGLE 仍然有个软肋:verification 阶段是逐 token 序列的,当树深变大时,validation kernel 的 launch overhead 反过来吃掉一部分收益。
SpecTr-GBV 的核心创新就是把这个"逐 token 验证"重构成"块级一次性验证"。它的关键 trick 是用一个数学上更紧的概率上界,让多个 draft 的整段 K 个 token 可以一次 GEMM 决定全部的 accept/reject,把 kernel launch 数量从 O(K) 砍到 O(1)。在 70B 级别模型上把 EAGLE-3 已经很高的接受率 (~0.78) 又拉了一截。
三、为什么这件事比看起来重要:成本结构的连锁反应
这层算法层的进步直接对应一个产业级的事实:单位 token 的推理成本,正在以每 12 个月减半的速度下降——不是靠 GPU 变快(H100 → B200 单代不到 2×),而是靠这一类算法栈的累积。
让我们粗略算一下连锁效应:
| |
也就是 24 个月推理成本下降一个量级。这是 DeepSeek、月之暗面、字节、智谱敢打"白菜价 API"的真实底层原因——不是赔本赚吆喝,是工程红利传导到了 P&L。
更深一层影响:当推理成本下降快过模型规模上升,部署 100B+ 大模型的门槛对中型企业开始打开。2024 年只有头部云厂商能负担 70B 在线推理;2026 年一家拿到 8 张 H200 的公司就能做。这是开源生态最大的红利。
四、对开源工具链意味着什么
这一波变化对几个主要 inference engine 的态势:
vLLM:仍是社区基线,但 2026 起在低延迟场景被 SGLang 反超。vLLM v1 重构 (2025) 解决了调度器瓶颈,下一步是把 spec dec 抽象成可插拔策略,否则会被 SGLang 在 spec 层赶上。
SGLang:在 spec decoding 集成上速度最快,EAGLE-3 / Medusa 都是首发支持。Together AI 和 Lambda 在大量服务采用。
TensorRT-LLM:性能仍是绝对值最快的,但闭源、绑 NV、迭代慢,开源社区粘性低。
TGI (Hugging Face):长期在掉队,下一个 12 个月如果不快速集成 EAGLE-3 + 块验证,可能彻底被边缘化。
llama.cpp:在端侧场景吃下了 spec decoding(用小模型作 draft)的全部红利,是消费级 GPU 上跑 70B 的事实标准。
我的判断:2026 年底,spec decoding 会从一个"可选优化"变成"默认开"。任何还在用 baseline autoregressive 部署 LLM 的团队,账单会比对手贵 3-4 倍。
五、还没被解决的问题
不要被加速比的数字冲昏头,spec decoding 仍然有几个真实的开放问题:
- Long context 下接受率坍塌——当上下文超过 64K,draft 和 target 的分布漂移变大,加速比会从 3× 跌到 1.5×。这是 SpecTr-GBV 后续工作要解决的方向。
- Tool calling / 结构化输出场景——JSON/工具调用场景的 token 分布尖锐,传统 spec dec 会打到坑里,需要专门的 grammar-aware draft。
- 多模态场景——VLM/多模态推理的 prefix 异质性大,draft 模型设计仍是开放问题。
- 训练——目前所有 spec dec 都假设 draft 已经训好,draft 与 target 的联合训练框架还非常初步。
结语:算法层仍然是大模型成本曲线的最大变量
媒体喜欢报道更大的 GPU 集群、更高带宽的 NVLink、更先进的 HBM4,但过去两年大模型推理成本下降的最大功臣,其实是 spec decoding + KV cache 优化这一类纯算法工作。它告诉我们一个反直觉的事实:
AI 基础设施的下一波突破,不一定来自硅,而来自数学。
如果你做 LLM 部署、做开源 infra、或者只是想理解为什么 API 价格还能继续往下砸——把 SpecTr-GBV 这条线放到你的雷达上,比追又一个 1.6T MoE 重要得多。
引用与延伸阅读
- arXiv – SpecTr-GBV: Multi-Draft Block Verification Accelerating Speculative Decoding (2026) — https://arxiv.org/
- Leviathan et al. – Fast Inference from Transformers via Speculative Decoding (2022) — https://arxiv.org/abs/2211.17192
- Chen et al. (DeepMind) – Accelerating LLM Decoding with Speculative Sampling (2022) — https://arxiv.org/abs/2302.01318
- Medusa & EAGLE / EAGLE-2 / EAGLE-3 papers — https://sites.google.com/view/medusa-llm
- vLLM project blog & release notes — https://blog.vllm.ai/
- SGLang project — https://github.com/sgl-project/sglang
- Latent Space – The Inference Inflection — https://www.latent.space/