推理加速的隐形革命：从EAGLE到块级验证，算法层把单token成本砍到4美分

当推理速度提升 3 倍不再靠更大的 GPU，而靠"先猜后验"的算法

2026 年 4 月底 arXiv 上挂出一篇看起来不起眼但分量很重的论文：SpecTr-GBV: Multi-Draft Block Verification Accelerating Speculative Decoding。它把 speculative decoding 的吞吐推到了一个新台阶——在不损失生成质量的前提下，对 70B 级别模型实现了 3.4× 端到端吞吐提升，关键创新是放弃了"单 draft 模型 + 逐 token 验证"的经典范式，改成"多 draft 并行 + 块级一次性验证"。

如果你还没追这个领域，可能不太理解这个数字的意义。我直白地说：Speculative Decoding 是过去两年大模型推理优化里影响最深远但讨论最少的一条主线，它和 KV cache 压缩、量化、并行解码这几条线，共同决定了 2026-2028 年大模型部署的成本曲线。

本文带读者把这套技术理一遍——它怎么工作、过去两年发生了什么、SpecTr-GBV 这种新工作在解决什么旧瓶颈、以及它对开源 LLM 工具链（vLLM/SGLang/TGI）意味着什么。

一、什么是 Speculative Decoding：用"猜测+验证"绕过 autoregressive 瓶颈

LLM 推理慢的根本原因是 autoregressive：每生成一个 token 都要做一次完整 forward。token 之间无法并行，GPU 算力大量浪费在等内存带宽上。一个 70B 模型在 H100 上单 batch 解码大约只能跑到 30-40 tokens/s，瓶颈不是算力是访存。

Google 在 2022 年的 Fast Inference from Transformers via Speculative Decoding（Leviathan et al.）和 DeepMind 几乎同时发的 Accelerating Large Language Model Decoding with Speculative Sampling（Chen et al.）提出了一个聪明的破局思路：

1
2
3
4
5
1. 用一个小模型（draft model，比如 1B）先"猜"出未来 K 个 token；
2. 把这 K 个 token 作为一段输入丢进大模型做一次 forward；
3. 大模型给出对每个位置的概率分布；
4. 从前往后比对，命中的部分被接受，第一个不命中的位置用大模型的分布重采；
5. 净效果：一次大模型 forward 产生 1~K+1 个 token。

接受率 α 越高，加速比越大。理论上限是 K+1 倍；实测在大多数 instruction-following 任务上能到 2-3 倍。

这个机制的精妙之处在于它是无损的——只要采样规则正确，输出分布严格等价于直接用大模型解码。这是它能被 vLLM、SGLang、TGI、TensorRT-LLM 全员接入的根本原因。

二、过去两年的演进：从 trick 到产线主流

2023-2024 年这条线被打开后，发生了几次关键升级：

阶段	代表工作	核心改进
1.0 经典	Leviathan / Chen 2022	Draft+Target 双模型
1.5 自推测	Medusa (2023)	在主模型上加多头预测，省掉 draft
2.0 树搜索	EAGLE / EAGLE-2 (2024)	把 draft 输出做成树，并行验证多分支
2.5 状态保留	EAGLE-3 (2025)	把 hidden state 也共享
3.0 块级	SpecTr-GBV (2026)	多 draft 并行 + 块验证，绕过逐 token 串行

EAGLE 系列是这两年的"产线宠儿"——它把 draft 做成主模型自己的一个轻量子图，加速比稳定在 2.5-3.5×，被 vLLM/SGLang 默认集成。但 EAGLE 仍然有个软肋：verification 阶段是逐 token 序列的，当树深变大时，validation kernel 的 launch overhead 反过来吃掉一部分收益。

SpecTr-GBV 的核心创新就是把这个"逐 token 验证"重构成"块级一次性验证"。它的关键 trick 是用一个数学上更紧的概率上界，让多个 draft 的整段 K 个 token 可以一次 GEMM 决定全部的 accept/reject，把 kernel launch 数量从 O(K) 砍到 O(1)。在 70B 级别模型上把 EAGLE-3 已经很高的接受率 (~0.78) 又拉了一截。

三、为什么这件事比看起来重要：成本结构的连锁反应

这层算法层的进步直接对应一个产业级的事实：单位 token 的推理成本，正在以每 12 个月减半的速度下降——不是靠 GPU 变快（H100 → B200 单代不到 2×），而是靠这一类算法栈的累积。

让我们粗略算一下连锁效应：

1
2
3
4
5
6
7
8
2024 基线（H100 + vLLM 0.3 + 经典 spec dec）：
  70B 模型    35 tokens/s/单卡，  $0.50 / 1M tokens

2025 中（EAGLE-2 + chunked prefill + FP8）：
  70B 模型    105 tokens/s/单卡, $0.18 / 1M tokens

2026 上半年（EAGLE-3 + SpecTr-GBV + B200 + KV路由）：
  70B 模型    ~340 tokens/s/单卡, $0.04 / 1M tokens

也就是 24 个月推理成本下降一个量级。这是 DeepSeek、月之暗面、字节、智谱敢打"白菜价 API"的真实底层原因——不是赔本赚吆喝，是工程红利传导到了 P&L。

更深一层影响：当推理成本下降快过模型规模上升，部署 100B+ 大模型的门槛对中型企业开始打开。2024 年只有头部云厂商能负担 70B 在线推理；2026 年一家拿到 8 张 H200 的公司就能做。这是开源生态最大的红利。

四、对开源工具链意味着什么

这一波变化对几个主要 inference engine 的态势：

vLLM：仍是社区基线，但 2026 起在低延迟场景被 SGLang 反超。vLLM v1 重构 (2025) 解决了调度器瓶颈，下一步是把 spec dec 抽象成可插拔策略，否则会被 SGLang 在 spec 层赶上。

SGLang：在 spec decoding 集成上速度最快，EAGLE-3 / Medusa 都是首发支持。Together AI 和 Lambda 在大量服务采用。

TensorRT-LLM：性能仍是绝对值最快的，但闭源、绑 NV、迭代慢，开源社区粘性低。

TGI (Hugging Face)：长期在掉队，下一个 12 个月如果不快速集成 EAGLE-3 + 块验证，可能彻底被边缘化。

llama.cpp：在端侧场景吃下了 spec decoding（用小模型作 draft）的全部红利，是消费级 GPU 上跑 70B 的事实标准。

我的判断：2026 年底，spec decoding 会从一个"可选优化"变成"默认开"。任何还在用 baseline autoregressive 部署 LLM 的团队，账单会比对手贵 3-4 倍。

五、还没被解决的问题

不要被加速比的数字冲昏头，spec decoding 仍然有几个真实的开放问题：

Long context 下接受率坍塌——当上下文超过 64K，draft 和 target 的分布漂移变大，加速比会从 3× 跌到 1.5×。这是 SpecTr-GBV 后续工作要解决的方向。
Tool calling / 结构化输出场景——JSON/工具调用场景的 token 分布尖锐，传统 spec dec 会打到坑里，需要专门的 grammar-aware draft。
多模态场景——VLM/多模态推理的 prefix 异质性大，draft 模型设计仍是开放问题。
训练——目前所有 spec dec 都假设 draft 已经训好，draft 与 target 的联合训练框架还非常初步。

结语：算法层仍然是大模型成本曲线的最大变量

媒体喜欢报道更大的 GPU 集群、更高带宽的 NVLink、更先进的 HBM4，但过去两年大模型推理成本下降的最大功臣，其实是 spec decoding + KV cache 优化这一类纯算法工作。它告诉我们一个反直觉的事实：

AI 基础设施的下一波突破，不一定来自硅，而来自数学。

如果你做 LLM 部署、做开源 infra、或者只是想理解为什么 API 价格还能继续往下砸——把 SpecTr-GBV 这条线放到你的雷达上，比追又一个 1.6T MoE 重要得多。

引用与延伸阅读

arXiv – SpecTr-GBV: Multi-Draft Block Verification Accelerating Speculative Decoding (2026) — https://arxiv.org/
Leviathan et al. – Fast Inference from Transformers via Speculative Decoding (2022) — https://arxiv.org/abs/2211.17192
Chen et al. (DeepMind) – Accelerating LLM Decoding with Speculative Sampling (2022) — https://arxiv.org/abs/2302.01318
Medusa & EAGLE / EAGLE-2 / EAGLE-3 papers — https://sites.google.com/view/medusa-llm
vLLM project blog & release notes — https://blog.vllm.ai/
SGLang project — https://github.com/sgl-project/sglang
Latent Space – The Inference Inflection — https://www.latent.space/

Jiayun's Blog