理论机器学习 on Jiayun's Blog

【论文导读】Scaling Law 的微观机制：把『一条平滑幂律』拆成『几百次 sharp 的特征跳出』

Tue, 19 May 2026 00:00:00 +0000

📌 好文共赏 · 论文导读 | Paper Pick

📄 论文：Scaling Laws from Sequential Feature Recovery: A Solvable Hierarchical Model · arXiv 2605.14567 👥 作者：Arie Wortsman-Zurich、Hugo Tabanelli、Yatin Dandi、Florent Krzakala、Bruno Loureiro（ENS PSL · EPFL IdePHICS / SPOC 实验室联合） 📅 发布：2026-05-14（v1）| 多模评分：Opus 9.0 · Sonnet-equiv 8.25 · Gemini-equiv 8.0 ⇒ 综合 8.42 / 10 ✍️ 一句话：Kaplan / Chinchilla 经验幂律不再只是"拟合得很好"的现象——这篇 54 页的硬核理论给出了第一个可证明的微观机制：若教师的隐藏方向强度按 $\lambda_i = Z_\gamma z_i i^{-\gamma}$ 排开，spectral 学习器会在 $n_i \asymp d^q i^{2\gamma} / Z_\gamma^2$ 处把第 $i$ 个方向"挑出来"，这一串错位的 sharp transition 平均下来就是一条 $(n/d^q)^{-1+1/(2\gamma)}$ 的平滑标度律；技术上靠一份比 Davis–Kahan 更紧的 resolvent 展开，给出 individual eigenvector 恢复的 matching upper + lower bound——一个"可独立感兴趣"的随机矩阵新工具。

【论文导读】Chinchilla 的『出生缺陷』：为什么 80% 的 scaling law 论文其实拟不出可信系数

Mon, 18 May 2026 00:00:00 +0000

📌 好文共赏 · 论文导读 | Paper Pick

📄 论文：Tokens-per-Parameter Coverage Is Critical for Robust LLM Scaling Law Extrapolation · arXiv 2605.08541 👥 作者：Joshua Shay Kricheli, Alexander Lawrence Reid, Venkata Gandikota, Paulo Shakarian（Syracuse University）· Soumajyoti Sarkar（Amazon AGI Foundations） 📅 发布：2026-05-08（v2: 2026-05-12）| 多模评分：综合 8.53 / 10（Opus 8.78 · Sonnet-equiv 8.40 · Gemini-equiv 8.40） ✍️ 一句话：过去六年里几乎所有 Chinchilla-style scaling law 都是在一条 D = k·N 的射线上拟合的——这篇论文用一行 Gauss-Newton 不等式证明：在这种设计下，模型尺度系数 A 和数据尺度系数 B 在统计上就是分不开的；并给出了一个闭式可计算的 V_K ≥ τ_K 门槛，决定你的 scaling law 实验配比是否可识别。

【论文导读】MoE 时代的 μP：MSSP 如何修复 μP 在稀疏专家网络上的失败

Mon, 18 May 2026 00:00:00 +0000

📌 好文共赏 · 论文导读 | Paper Pick

📄 论文：How to Scale Mixture-of-Experts: From μP to the Maximally Scale-Stable Parameterization · arXiv 2605.14200 👥 作者：Leena Chennuru Vankadara, Moritz Haas, Luke Hayward, Sebastian Bordt, Alessandro Breccia（UCL Gatsby Unit / Amazon / Tübingen AI Center） 📅 发布：2026-05-13 | 多模评分：综合 8.47 / 10（Opus 8.72 · Sonnet-equiv 8.48 · Gemini-equiv 8.23） ✍️ 一句话：μP 在细粒度 MoE（DeepSeek-V3、Qwen-MoE 走的路线）上不仅不能给出学习率迁移，还会让大模型反而比小模型更差；MSSP 用一张完整的超参缩放表把这件事彻底修好——可能是 2026 年最值得训前贴在白板上的一篇论文。

【论文导读】RoPE 在长上下文里既不能区分位置、也不能区分 token：UIUC + Amazon AGI 给现代 LLM 写的一份『出生缺陷诊断书』

Mon, 18 May 2026 00:00:00 +0000

📌 好文共赏 · 论文导读 | Paper Pick

📄 论文：RoPE Distinguishes Neither Positions Nor Tokens in Long Contexts, Provably · arXiv 2605.15514 👥 作者：Yufeng Du, Phillip Harris, Minyang Tian, Eliu A. Huerta, Srikanth Ronanki, Subendhu Rongali, Aram Galstyan, Hao Peng（UIUC × Bonn × Argonne × Amazon AGI） 📅 发布：2026-05-15 | 多模评分：综合 8.67 / 10（Opus 9.0 · Sonnet-equiv 8.5 · Gemini-equiv 8.5） ✍️ 一句话：把 RoPE 的注意力分数建模为正态随机变量后，证明出 4 个失败模式的失败概率都趋近 0.5；这是一份给 Llama / Qwen / DeepSeek / Kimi / gpt-oss 全部 RoPE-based 长上下文模型写的诊断书——『128K 上下文』作为广告词的可信度，正在被这篇论文从理论侧拆穿。