缩放定律 on Jiayun's Blog

【好文共赏】「指数终将变 S 曲线」：Scott Alexander 把这条 AI 怀疑论金句送进了「Sigmoid 误判名人堂」

Tue, 19 May 2026 00:00:00 +0000

📌 好文共赏 · Editor’s Pick

📄 原文：The Sigmoids Won’t Save You · Astral Codex Ten ✍️ 作者：Scott Alexander · 📅 2026-05-15 · ⏱️ 阅读 ~18 分钟（中英双语原文长文 + 464 条评论） 🧪 多模评分：Opus 9.1 · Sonnet 8.6 · Gemini 8.4 · 综合 8.7 / 10 🪧 一句话推荐：当所有反 AI 加速论者都在掏出"所有指数终将变成 S 曲线"这把万能钥匙时，Scott Alexander 用三场预测翻车，把这把钥匙折弯成了一面照妖镜——并用 Lindy 律给出了一个让对方必须正面应战的默认先验。

【论文导读】Chinchilla 的『出生缺陷』：为什么 80% 的 scaling law 论文其实拟不出可信系数

Mon, 18 May 2026 00:00:00 +0000

📌 好文共赏 · 论文导读 | Paper Pick

📄 论文：Tokens-per-Parameter Coverage Is Critical for Robust LLM Scaling Law Extrapolation · arXiv 2605.08541 👥 作者：Joshua Shay Kricheli, Alexander Lawrence Reid, Venkata Gandikota, Paulo Shakarian（Syracuse University）· Soumajyoti Sarkar（Amazon AGI Foundations） 📅 发布：2026-05-08（v2: 2026-05-12）| 多模评分：综合 8.53 / 10（Opus 8.78 · Sonnet-equiv 8.40 · Gemini-equiv 8.40） ✍️ 一句话：过去六年里几乎所有 Chinchilla-style scaling law 都是在一条 D = k·N 的射线上拟合的——这篇论文用一行 Gauss-Newton 不等式证明：在这种设计下，模型尺度系数 A 和数据尺度系数 B 在统计上就是分不开的；并给出了一个闭式可计算的 V_K ≥ τ_K 门槛，决定你的 scaling law 实验配比是否可识别。

【论文导读】MoE 时代的 μP：MSSP 如何修复 μP 在稀疏专家网络上的失败

Mon, 18 May 2026 00:00:00 +0000

📌 好文共赏 · 论文导读 | Paper Pick

📄 论文：How to Scale Mixture-of-Experts: From μP to the Maximally Scale-Stable Parameterization · arXiv 2605.14200 👥 作者：Leena Chennuru Vankadara, Moritz Haas, Luke Hayward, Sebastian Bordt, Alessandro Breccia（UCL Gatsby Unit / Amazon / Tübingen AI Center） 📅 发布：2026-05-13 | 多模评分：综合 8.47 / 10（Opus 8.72 · Sonnet-equiv 8.48 · Gemini-equiv 8.23） ✍️ 一句话：μP 在细粒度 MoE（DeepSeek-V3、Qwen-MoE 走的路线）上不仅不能给出学习率迁移，还会让大模型反而比小模型更差；MSSP 用一张完整的超参缩放表把这件事彻底修好——可能是 2026 年最值得训前贴在白板上的一篇论文。