<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>VLLM on Jiayun's Blog</title><link>https://xiejiayun.github.io/tags/vllm/</link><description>Recent content in VLLM on Jiayun's Blog</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Mon, 18 May 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://xiejiayun.github.io/tags/vllm/index.xml" rel="self" type="application/rss+xml"/><item><title>【论文导读】MinT：把「百万 LoRA × 1T 基模」做成一个可调度服务的工程母带</title><link>https://xiejiayun.github.io/post/paper-2605.13779/</link><pubDate>Mon, 18 May 2026 00:00:00 +0000</pubDate><guid>https://xiejiayun.github.io/post/paper-2605.13779/</guid><description>&lt;blockquote>
&lt;p>📌 &lt;strong>好文共赏 · 论文导读 | Paper Pick&lt;/strong>&lt;/p>
&lt;p>&lt;strong>论文&lt;/strong>：&lt;a href="https://arxiv.org/abs/2605.13779">MinT: Managed Infrastructure for Training and Serving Millions of LLMs&lt;/a> | arXiv:2605.13779
&lt;strong>作者&lt;/strong>：Mind Lab（投稿人 Changhai Zhou，~55 人团队，核心贡献者 12 人）
&lt;strong>机构&lt;/strong>：Macaron AI 旗下研究实验室 Mind Lab（contact@mindlab.ltd，公开 cookbook 在 &lt;a href="https://github.com/MindLab-Research">&lt;code>MindLab-Research/mint-cookbook&lt;/code>&lt;/a>）
&lt;strong>发布&lt;/strong>：2026-05-13（27 页，cs.LG/cs.AI/cs.DC）| &lt;strong>多模评分&lt;/strong>：综合 &lt;strong>8.7/10&lt;/strong>（Opus 8.9 / Sonnet 7.5 / Gemini 7.5；编辑加权后取 8.7）
&lt;strong>一句话&lt;/strong>：当前业界还在争论「LoRA 能不能用在 RL post-training」时，这份报告直接给出了&lt;strong>百万 LoRA × 1T 基模 × MoE/MLA/DSA&lt;/strong>的完整调度方案，并把每一条速度曲线都钉到了真实集群上的秒级测量上。&lt;/p></description></item><item><title>推理加速的隐形革命：从EAGLE到块级验证，算法层把单token成本砍到4美分</title><link>https://xiejiayun.github.io/post/speculative-decoding-block-verification-2026/</link><pubDate>Thu, 30 Apr 2026 00:00:00 +0000</pubDate><guid>https://xiejiayun.github.io/post/speculative-decoding-block-verification-2026/</guid><description>&lt;h2 id="当推理速度提升-3-倍不再靠更大的-gpu而靠先猜后验的算法">当推理速度提升 3 倍不再靠更大的 GPU，而靠&amp;quot;先猜后验&amp;quot;的算法&lt;/h2>
&lt;p>2026 年 4 月底 arXiv 上挂出一篇看起来不起眼但分量很重的论文：&lt;em>SpecTr-GBV: Multi-Draft Block Verification Accelerating Speculative Decoding&lt;/em>。它把 speculative decoding 的吞吐推到了一个新台阶——在不损失生成质量的前提下，对 70B 级别模型实现了 &lt;strong>3.4× 端到端吞吐提升&lt;/strong>，关键创新是放弃了&amp;quot;单 draft 模型 + 逐 token 验证&amp;quot;的经典范式，改成&amp;quot;多 draft 并行 + 块级一次性验证&amp;quot;。&lt;/p></description></item></channel></rss>