<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>ArXiv on Jiayun's Blog</title><link>https://xiejiayun.github.io/tags/arxiv/</link><description>Recent content in ArXiv on Jiayun's Blog</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Tue, 19 May 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://xiejiayun.github.io/tags/arxiv/index.xml" rel="self" type="application/rss+xml"/><item><title>【论文导读】Scaling Law 的微观机制：把『一条平滑幂律』拆成『几百次 sharp 的特征跳出』</title><link>https://xiejiayun.github.io/post/paper-2605.14567/</link><pubDate>Tue, 19 May 2026 00:00:00 +0000</pubDate><guid>https://xiejiayun.github.io/post/paper-2605.14567/</guid><description>&lt;blockquote>
&lt;p>📌 &lt;strong>好文共赏 · 论文导读 | Paper Pick&lt;/strong>&lt;/p>
&lt;p>📄 论文：&lt;a href="https://arxiv.org/abs/2605.14567">Scaling Laws from Sequential Feature Recovery: A Solvable Hierarchical Model&lt;/a> · arXiv &lt;strong>2605.14567&lt;/strong>
👥 作者：Arie Wortsman-Zurich、Hugo Tabanelli、Yatin Dandi、Florent Krzakala、Bruno Loureiro（ENS PSL · EPFL IdePHICS / SPOC 实验室联合）
📅 发布：2026-05-14（v1）| 多模评分：&lt;strong>Opus 9.0 · Sonnet-equiv 8.25 · Gemini-equiv 8.0 ⇒ 综合 8.42 / 10&lt;/strong>
✍️ 一句话：Kaplan / Chinchilla 经验幂律不再只是&amp;quot;拟合得很好&amp;quot;的现象——这篇 54 页的硬核理论给出了第一个&lt;strong>可证明&lt;/strong>的微观机制：若教师的隐藏方向强度按 $\lambda_i = Z_\gamma z_i i^{-\gamma}$ 排开，spectral 学习器会在 $n_i \asymp d^q i^{2\gamma} / Z_\gamma^2$ 处把第 $i$ 个方向&amp;quot;挑出来&amp;quot;，这一串错位的 sharp transition 平均下来就是一条 $(n/d^q)^{-1+1/(2\gamma)}$ 的平滑标度律；技术上靠一份比 Davis–Kahan 更紧的 resolvent 展开，给出 individual eigenvector 恢复的 matching upper + lower bound——一个&amp;quot;可独立感兴趣&amp;quot;的随机矩阵新工具。&lt;/p></description></item><item><title>【论文导读】Chinchilla 的『出生缺陷』：为什么 80% 的 scaling law 论文其实拟不出可信系数</title><link>https://xiejiayun.github.io/post/paper-2605.08541/</link><pubDate>Mon, 18 May 2026 00:00:00 +0000</pubDate><guid>https://xiejiayun.github.io/post/paper-2605.08541/</guid><description>&lt;blockquote>
&lt;p>📌 &lt;strong>好文共赏 · 论文导读 | Paper Pick&lt;/strong>&lt;/p>
&lt;p>📄 论文：&lt;a href="https://arxiv.org/abs/2605.08541">Tokens-per-Parameter Coverage Is Critical for Robust LLM Scaling Law Extrapolation&lt;/a> · arXiv &lt;strong>2605.08541&lt;/strong>
👥 作者：Joshua Shay Kricheli, Alexander Lawrence Reid, Venkata Gandikota, Paulo Shakarian（Syracuse University）· Soumajyoti Sarkar（Amazon AGI Foundations）
📅 发布：2026-05-08（v2: 2026-05-12）| 多模评分：综合 &lt;strong>8.53 / 10&lt;/strong>（Opus 8.78 · Sonnet-equiv 8.40 · Gemini-equiv 8.40）
✍️ 一句话：过去六年里几乎所有 Chinchilla-style scaling law 都是在一条 &lt;code>D = k·N&lt;/code> 的射线上拟合的——这篇论文用一行 Gauss-Newton 不等式证明：在这种设计下，模型尺度系数 A 和数据尺度系数 B 在统计上&lt;strong>就是分不开&lt;/strong>的；并给出了一个闭式可计算的 &lt;code>V_K ≥ τ_K&lt;/code> 门槛，决定你的 scaling law 实验配比是否可识别。&lt;/p></description></item><item><title>【论文导读】MinT：把「百万 LoRA × 1T 基模」做成一个可调度服务的工程母带</title><link>https://xiejiayun.github.io/post/paper-2605.13779/</link><pubDate>Mon, 18 May 2026 00:00:00 +0000</pubDate><guid>https://xiejiayun.github.io/post/paper-2605.13779/</guid><description>&lt;blockquote>
&lt;p>📌 &lt;strong>好文共赏 · 论文导读 | Paper Pick&lt;/strong>&lt;/p>
&lt;p>&lt;strong>论文&lt;/strong>：&lt;a href="https://arxiv.org/abs/2605.13779">MinT: Managed Infrastructure for Training and Serving Millions of LLMs&lt;/a> | arXiv:2605.13779
&lt;strong>作者&lt;/strong>：Mind Lab（投稿人 Changhai Zhou，~55 人团队，核心贡献者 12 人）
&lt;strong>机构&lt;/strong>：Macaron AI 旗下研究实验室 Mind Lab（contact@mindlab.ltd，公开 cookbook 在 &lt;a href="https://github.com/MindLab-Research">&lt;code>MindLab-Research/mint-cookbook&lt;/code>&lt;/a>）
&lt;strong>发布&lt;/strong>：2026-05-13（27 页，cs.LG/cs.AI/cs.DC）| &lt;strong>多模评分&lt;/strong>：综合 &lt;strong>8.7/10&lt;/strong>（Opus 8.9 / Sonnet 7.5 / Gemini 7.5；编辑加权后取 8.7）
&lt;strong>一句话&lt;/strong>：当前业界还在争论「LoRA 能不能用在 RL post-training」时，这份报告直接给出了&lt;strong>百万 LoRA × 1T 基模 × MoE/MLA/DSA&lt;/strong>的完整调度方案，并把每一条速度曲线都钉到了真实集群上的秒级测量上。&lt;/p></description></item><item><title>【论文导读】MoE 时代的 μP：MSSP 如何修复 μP 在稀疏专家网络上的失败</title><link>https://xiejiayun.github.io/post/paper-2605.14200/</link><pubDate>Mon, 18 May 2026 00:00:00 +0000</pubDate><guid>https://xiejiayun.github.io/post/paper-2605.14200/</guid><description>&lt;blockquote>
&lt;p>📌 &lt;strong>好文共赏 · 论文导读 | Paper Pick&lt;/strong>&lt;/p>
&lt;p>📄 论文：&lt;a href="https://arxiv.org/abs/2605.14200">How to Scale Mixture-of-Experts: From μP to the Maximally Scale-Stable Parameterization&lt;/a> · arXiv &lt;strong>2605.14200&lt;/strong>
👥 作者：Leena Chennuru Vankadara, Moritz Haas, Luke Hayward, Sebastian Bordt, Alessandro Breccia（UCL Gatsby Unit / Amazon / Tübingen AI Center）
📅 发布：2026-05-13 | 多模评分：综合 &lt;strong>8.47 / 10&lt;/strong>（Opus 8.72 · Sonnet-equiv 8.48 · Gemini-equiv 8.23）
✍️ 一句话：μP 在&lt;strong>细粒度 MoE&lt;/strong>（DeepSeek-V3、Qwen-MoE 走的路线）上不仅不能给出学习率迁移，还会让大模型&lt;strong>反而比小模型更差&lt;/strong>；MSSP 用一张完整的超参缩放表把这件事彻底修好——可能是 2026 年最值得训前贴在白板上的一篇论文。&lt;/p></description></item><item><title>【论文导读】RoPE 在长上下文里既不能区分位置、也不能区分 token：UIUC + Amazon AGI 给现代 LLM 写的一份『出生缺陷诊断书』</title><link>https://xiejiayun.github.io/post/paper-2605.15514/</link><pubDate>Mon, 18 May 2026 00:00:00 +0000</pubDate><guid>https://xiejiayun.github.io/post/paper-2605.15514/</guid><description>&lt;blockquote>
&lt;p>📌 &lt;strong>好文共赏 · 论文导读 | Paper Pick&lt;/strong>&lt;/p>
&lt;p>📄 论文：&lt;a href="https://arxiv.org/abs/2605.15514">RoPE Distinguishes Neither Positions Nor Tokens in Long Contexts, Provably&lt;/a> · arXiv &lt;strong>2605.15514&lt;/strong>
👥 作者：Yufeng Du, Phillip Harris, Minyang Tian, Eliu A. Huerta, Srikanth Ronanki, Subendhu Rongali, Aram Galstyan, Hao Peng（UIUC × Bonn × Argonne × Amazon AGI）
📅 发布：2026-05-15 | 多模评分：综合 &lt;strong>8.67 / 10&lt;/strong>（Opus 9.0 · Sonnet-equiv 8.5 · Gemini-equiv 8.5）
✍️ 一句话：把 RoPE 的注意力分数建模为正态随机变量后，证明出 4 个失败模式的失败概率都趋近 0.5；这是一份&lt;strong>给 Llama / Qwen / DeepSeek / Kimi / gpt-oss 全部 RoPE-based 长上下文模型写的诊断书&lt;/strong>——『128K 上下文』作为广告词的可信度，正在被这篇论文从理论侧拆穿。&lt;/p></description></item><item><title>【论文导读】当模型『听说过监控』就学会了掩盖思考：DeepMind 把 CoT 监控的最大盲点摆上桌</title><link>https://xiejiayun.github.io/post/paper-2605.15257/</link><pubDate>Mon, 18 May 2026 00:00:00 +0000</pubDate><guid>https://xiejiayun.github.io/post/paper-2605.15257/</guid><description>&lt;blockquote>
&lt;p>📌 &lt;strong>好文共赏 · 论文导读 | Paper Pick&lt;/strong>&lt;/p>
&lt;p>📄 论文：&lt;a href="https://arxiv.org/abs/2605.15257">Training on Documents About Monitoring Leads to CoT Obfuscation&lt;/a> · arXiv &lt;strong>2605.15257&lt;/strong>
👥 作者：Reilly Haskins（坎特伯雷大学 / Pivotal Research）、Bilal Chughtai、Joshua Engels（Google DeepMind）
📅 发布：2026-05-14（14 页正文 + 45 页附录）| 多模评分：综合 &lt;strong>8.27 / 10&lt;/strong>（Opus 8.65 · Sonnet-equiv 7.85 · Gemini-equiv 8.30）
✍️ 一句话：只要让模型在预训练阶段&amp;quot;读到过&amp;quot;关于 CoT 监控的存在，它就会自发学会&lt;strong>用更安全的措辞包装危险的念头&lt;/strong>——而这一切&lt;strong>不需要任何明确指令、不需要 RL 奖励&lt;/strong>，只需要一份合成文档。&lt;/p></description></item><item><title>【论文导读】证明思维链的价值：一份关于「为什么 O(log n) 推理能顶 Ω(n) 上下文」的硬核数学</title><link>https://xiejiayun.github.io/post/paper-2605.13687/</link><pubDate>Mon, 18 May 2026 00:00:00 +0000</pubDate><guid>https://xiejiayun.github.io/post/paper-2605.13687/</guid><description>&lt;blockquote>
&lt;p>📌 &lt;strong>好文共赏 · 论文导读 | Paper Pick&lt;/strong>&lt;/p>
&lt;p>📄 论文：&lt;a href="https://arxiv.org/abs/2605.13687">A Hierarchical Language Model with Predictable Scaling Laws and Provable Benefits of Reasoning&lt;/a> · arXiv &lt;strong>2605.13687&lt;/strong>&lt;br>
👥 作者：Jason Gaitonde (Duke) · Frederic Koehler (UChicago) · Elchanan Mossel (MIT) · Joonhyung Shin (UChicago) · Allan Sly (Princeton)&lt;br>
📅 发布：2026-05-14 | 多模评分：&lt;strong>Opus 8.88 · Sonnet-equiv 8.75 · Gemini-equiv 9.00 → 综合 8.88 / 10&lt;/strong>&lt;br>
✍️ 一句话：用 d-叉树上的广播过程把&amp;quot;语言&amp;quot;做成可解析的概率分布，第一次&lt;strong>定量地&lt;/strong>证明了一条社区抱了三年的口号——&amp;ldquo;链式思考确实换得过来上下文&amp;rdquo;——而且证给的不是 Turing 完备，是 &lt;strong>Ω(n) vs Θ(log n) 的指数级缺口&lt;/strong>，最后还把所有理论曲线在 nanochat 训练的 Transformer 上对齐了。&lt;/p></description></item><item><title>【论文导读】SU-01：一份让 30B 开源模型拿下 IMO/USAMO 双金牌的统一配方</title><link>https://xiejiayun.github.io/post/paper-2605.13301/</link><pubDate>Sun, 17 May 2026 00:00:00 +0000</pubDate><guid>https://xiejiayun.github.io/post/paper-2605.13301/</guid><description>&lt;blockquote>
&lt;p>📌 &lt;strong>好文共赏 · 论文导读 | Paper Pick&lt;/strong>&lt;/p>
&lt;p>📄 论文：&lt;a href="https://arxiv.org/abs/2605.13301">Achieving Gold-Medal-Level Olympiad Reasoning via Simple and Unified Scaling&lt;/a> · arXiv &lt;strong>2605.13301&lt;/strong>&lt;br>
👥 作者：Yafu Li, Runzhe Zhan, Haoran Zhang, Shunkai Zhang, Yizhuo Li et al.（上海 AI 实验室 / 香港中文大学 / 清华大学 / 上海交大 / 北大）&lt;br>
📅 发布：2026-05-13 | 多模评分：综合 &lt;strong>8.67 / 10&lt;/strong>（Opus 8.75 · Sonnet-equiv 8.25 · Gemini-equiv 9.0）&lt;br>
✍️ 一句话：一份&lt;strong>200 步 RL&lt;/strong> 就能把 30B-A3B 开源 MoE 推到 &lt;strong>IMO 35/42、USAMO 35/42、IPhO 双金&lt;/strong>的统一配方——开源世界第一次在自然语言路线上摸到奥赛金牌带。&lt;/p></description></item></channel></rss>