Scaling Laws | Jiayun's Blog

【论文导读】Scaling Law 的微观机制：把『一条平滑幂律』拆成『几百次 sharp 的特征跳出』

拆解 arXiv 2605.14567 — ENS + EPFL 的 Krzakala / Loureiro 团队为 Kaplan-Chinchilla 经验幂律给出了一个**可证明**的微观机制：当目标函数依赖一族按 power-law 排序的隐藏方向时，spectral 学习器在 n ≍ dᵠ·i²ᵞ 处『一个一个』把第 i 个方向打捞出来，错位的跳出门槛叠加在一起，宏观上就是一条 (n/dᵠ)^{−1+1/(2γ)} 的平滑幂律。技术核心是一份比 Davis–Kahan 更紧的 resolvent / Neumann 展开，给出 individual eigenvector 恢复的 matching upper + lower bound。

【论文导读】Chinchilla 的『出生缺陷』：为什么 80% 的 scaling law 论文其实拟不出可信系数

拆解 arXiv 2605.08541：Syracuse + Amazon AGI Foundations 用一份 Gauss-Newton 分析证明——只要训练 grid 全在一条 D=kN 直线上、且 α≈β，scaling law 的尺度系数就是统计上不可识别的。Chinchilla 经典 17×、Kaplan 经典 53× 的置信区间膨胀，全部源于 Jacobian 几何而非数据噪声。配一份 1,900 个 LLM 的实证：non-collinear 设计在留出集上以 97.3% 胜率击败 collinear 设计。

【论文导读】Scaling Law 的微观机制：把『一条平滑幂律』拆成『几百次 sharp 的特征跳出』

【论文导读】Chinchilla 的『出生缺陷』：为什么 80% 的 scaling law 论文其实拟不出可信系数

FEATURED TAGS