【论文导读】MinT：把「百万 LoRA × 1T 基模」做成一个可调度服务的工程母带

Mon, 18 May 2026 00:00:00 +0000

📌 好文共赏 · 论文导读 | Paper Pick

论文：MinT: Managed Infrastructure for Training and Serving Millions of LLMs | arXiv:2605.13779 作者：Mind Lab（投稿人 Changhai Zhou，~55 人团队，核心贡献者 12 人）机构：Macaron AI 旗下研究实验室 Mind Lab（contact@mindlab.ltd，公开 cookbook 在 MindLab-Research/mint-cookbook）发布：2026-05-13（27 页，cs.LG/cs.AI/cs.DC）| 多模评分：综合 8.7/10（Opus 8.9 / Sonnet 7.5 / Gemini 7.5；编辑加权后取 8.7） 一句话：当前业界还在争论「LoRA 能不能用在 RL post-training」时，这份报告直接给出了百万 LoRA × 1T 基模 × MoE/MLA/DSA的完整调度方案，并把每一条速度曲线都钉到了真实集群上的秒级测量上。

推理加速的隐形革命：从EAGLE到块级验证，算法层把单token成本砍到4美分

Thu, 30 Apr 2026 00:00:00 +0000

当推理速度提升 3 倍不再靠更大的 GPU，而靠"先猜后验"的算法

2026 年 4 月底 arXiv 上挂出一篇看起来不起眼但分量很重的论文：SpecTr-GBV: Multi-Draft Block Verification Accelerating Speculative Decoding。它把 speculative decoding 的吞吐推到了一个新台阶——在不损失生成质量的前提下，对 70B 级别模型实现了 3.4× 端到端吞吐提升，关键创新是放弃了"单 draft 模型 + 逐 token 验证"的经典范式，改成"多 draft 并行 + 块级一次性验证"。

VLLM on Jiayun's Blog

【论文导读】MinT：把「百万 LoRA × 1T 基模」做成一个可调度服务的工程母带

推理加速的隐形革命：从EAGLE到块级验证，算法层把单token成本砍到4美分

当推理速度提升 3 倍不再靠更大的 GPU，而靠"先猜后验"的算法