Jiayun's Blog

探索与分享

【论文导读】MinT:把「百万 LoRA × 1T 基模」做成一个可调度服务的工程母带

拆解 arXiv 2605.13779——Macaron AI 旗下 Mind Lab 的 27 页技术报告,第一份把 LoRA RL 推到 Kimi K2 1.04T、把百万级 LoRA 政策做成一个有 catalog/CPU/GPU 三层 cache 的服务系统,并给出 8.5× 加载、18.3× 切换、1.77× 并发 GRPO 等可复现的工程数据。

推理加速的隐形革命:从EAGLE到块级验证,算法层把单token成本砍到4美分

SpecTr-GBV 把 speculative decoding 推到 3.4× 吞吐新台阶。本文系统梳理这条被低估的大模型推理优化主线,解释为什么算法层比 GPU 更决定 2026-2028 年的部署成本。