<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>GRPO on Jiayun's Blog</title><link>https://xiejiayun.github.io/tags/grpo/</link><description>Recent content in GRPO on Jiayun's Blog</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Mon, 18 May 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://xiejiayun.github.io/tags/grpo/index.xml" rel="self" type="application/rss+xml"/><item><title>【论文导读】MinT：把「百万 LoRA × 1T 基模」做成一个可调度服务的工程母带</title><link>https://xiejiayun.github.io/post/paper-2605.13779/</link><pubDate>Mon, 18 May 2026 00:00:00 +0000</pubDate><guid>https://xiejiayun.github.io/post/paper-2605.13779/</guid><description>&lt;blockquote>
&lt;p>📌 &lt;strong>好文共赏 · 论文导读 | Paper Pick&lt;/strong>&lt;/p>
&lt;p>&lt;strong>论文&lt;/strong>：&lt;a href="https://arxiv.org/abs/2605.13779">MinT: Managed Infrastructure for Training and Serving Millions of LLMs&lt;/a> | arXiv:2605.13779
&lt;strong>作者&lt;/strong>：Mind Lab（投稿人 Changhai Zhou，~55 人团队，核心贡献者 12 人）
&lt;strong>机构&lt;/strong>：Macaron AI 旗下研究实验室 Mind Lab（contact@mindlab.ltd，公开 cookbook 在 &lt;a href="https://github.com/MindLab-Research">&lt;code>MindLab-Research/mint-cookbook&lt;/code>&lt;/a>）
&lt;strong>发布&lt;/strong>：2026-05-13（27 页，cs.LG/cs.AI/cs.DC）| &lt;strong>多模评分&lt;/strong>：综合 &lt;strong>8.7/10&lt;/strong>（Opus 8.9 / Sonnet 7.5 / Gemini 7.5；编辑加权后取 8.7）
&lt;strong>一句话&lt;/strong>：当前业界还在争论「LoRA 能不能用在 RL post-training」时，这份报告直接给出了&lt;strong>百万 LoRA × 1T 基模 × MoE/MLA/DSA&lt;/strong>的完整调度方案，并把每一条速度曲线都钉到了真实集群上的秒级测量上。&lt;/p></description></item><item><title>【论文导读】SU-01：一份让 30B 开源模型拿下 IMO/USAMO 双金牌的统一配方</title><link>https://xiejiayun.github.io/post/paper-2605.13301/</link><pubDate>Sun, 17 May 2026 00:00:00 +0000</pubDate><guid>https://xiejiayun.github.io/post/paper-2605.13301/</guid><description>&lt;blockquote>
&lt;p>📌 &lt;strong>好文共赏 · 论文导读 | Paper Pick&lt;/strong>&lt;/p>
&lt;p>📄 论文：&lt;a href="https://arxiv.org/abs/2605.13301">Achieving Gold-Medal-Level Olympiad Reasoning via Simple and Unified Scaling&lt;/a> · arXiv &lt;strong>2605.13301&lt;/strong>&lt;br>
👥 作者：Yafu Li, Runzhe Zhan, Haoran Zhang, Shunkai Zhang, Yizhuo Li et al.（上海 AI 实验室 / 香港中文大学 / 清华大学 / 上海交大 / 北大）&lt;br>
📅 发布：2026-05-13 | 多模评分：综合 &lt;strong>8.67 / 10&lt;/strong>（Opus 8.75 · Sonnet-equiv 8.25 · Gemini-equiv 9.0）&lt;br>
✍️ 一句话：一份&lt;strong>200 步 RL&lt;/strong> 就能把 30B-A3B 开源 MoE 推到 &lt;strong>IMO 35/42、USAMO 35/42、IPhO 双金&lt;/strong>的统一配方——开源世界第一次在自然语言路线上摸到奥赛金牌带。&lt;/p></description></item></channel></rss>