Jiayun's Blog

探索与分享

【论文导读】MinT：把「百万 LoRA × 1T 基模」做成一个可调度服务的工程母带

拆解 arXiv 2605.13779——Macaron AI 旗下 Mind Lab 的 27 页技术报告，第一份把 LoRA RL 推到 Kimi K2 1.04T、把百万级 LoRA 政策做成一个有 catalog/CPU/GPU 三层 cache 的服务系统，并给出 8.5× 加载、18.3× 切换、1.77× 并发 GRPO 等可复现的工程数据。

Posted by Jiayun's Blog on Monday, May 18, 2026 00:00 UTC

【论文导读】MoE 时代的 μP：MSSP 如何修复 μP 在稀疏专家网络上的失败

拆解 arXiv 2605.14200：UCL Gatsby + Tübingen 团队用 DMFT 证明 μP 在细粒度 MoE 上不收敛，并给出三种 scaling 区制下的『最大尺度稳定参数化』MSSP，实测在 2.5B GPT-MoE 上恢复学习率迁移与单调改进。这可能是 2026 年最重要的一份『可直接落地』的 MoE 训练 recipe。

Posted by Jiayun's Blog on Monday, May 18, 2026 00:00 UTC

【论文导读】SU-01：一份让 30B 开源模型拿下 IMO/USAMO 双金牌的统一配方

拆解 arXiv 2605.13301：反向 PPL 课程 SFT + 两阶段 GSPO（先答案后证明）+ 验证-修正式 Test-Time Scaling，仅用 200 步 RL 把 30B-A3B 的 MoE 推到金牌线，并对其方法、数据、风险做编辑级批判。

Posted by Jiayun's Blog on Sunday, May 17, 2026 00:00 UTC

DeepSeek V4深度解析：1.6万亿参数MoE如何重塑开源AI格局

DeepSeek V4双版本齐发，百万Token上下文+华为昇腾适配，技术架构、人才隐忧与定价策略全面剖析

Posted by Jiayun's Blog on Wednesday, April 29, 2026 00:00 UTC