缩放定律 | Jiayun's Blog

【好文共赏】「指数终将变 S 曲线」：Scott Alexander 把这条 AI 怀疑论金句送进了「Sigmoid 误判名人堂」

Astral Codex Ten 用三个最经典的预测翻车案例（联合国生育率、WEO 太阳能、METR AI 能力）证明一件事：sigmoid 在数学上必然为真，但在你做预测的那一刻几乎从不为真。最后用 Lindy 律给出黑盒 AI 预测的默认先验——平均还能再涨七年。

【论文导读】Chinchilla 的『出生缺陷』：为什么 80% 的 scaling law 论文其实拟不出可信系数

拆解 arXiv 2605.08541：Syracuse + Amazon AGI Foundations 用一份 Gauss-Newton 分析证明——只要训练 grid 全在一条 D=kN 直线上、且 α≈β，scaling law 的尺度系数就是统计上不可识别的。Chinchilla 经典 17×、Kaplan 经典 53× 的置信区间膨胀，全部源于 Jacobian 几何而非数据噪声。配一份 1,900 个 LLM 的实证：non-collinear 设计在留出集上以 97.3% 胜率击败 collinear 设计。

【论文导读】MoE 时代的 μP：MSSP 如何修复 μP 在稀疏专家网络上的失败

拆解 arXiv 2605.14200：UCL Gatsby + Tübingen 团队用 DMFT 证明 μP 在细粒度 MoE 上不收敛，并给出三种 scaling 区制下的『最大尺度稳定参数化』MSSP，实测在 2.5B GPT-MoE 上恢复学习率迁移与单调改进。这可能是 2026 年最重要的一份『可直接落地』的 MoE 训练 recipe。

【好文共赏】「指数终将变 S 曲线」：Scott Alexander 把这条 AI 怀疑论金句送进了「Sigmoid 误判名人堂」

【论文导读】Chinchilla 的『出生缺陷』：为什么 80% 的 scaling law 论文其实拟不出可信系数

【论文导读】MoE 时代的 μP：MSSP 如何修复 μP 在稀疏专家网络上的失败

FEATURED TAGS