Jiayun's Blog

探索与分享

【论文导读】Scaling Law 的微观机制:把『一条平滑幂律』拆成『几百次 sharp 的特征跳出』

拆解 arXiv 2605.14567 — ENS + EPFL 的 Krzakala / Loureiro 团队为 Kaplan-Chinchilla 经验幂律给出了一个**可证明**的微观机制:当目标函数依赖一族按 power-law 排序的隐藏方向时,spectral 学习器在 n ≍ dᵠ·i²ᵞ 处『一个一个』把第 i 个方向打捞出来,错位的跳出门槛叠加在一起,宏观上就是一条 (n/dᵠ)^{−1+1/(2γ)} 的平滑幂律。技术核心是一份比 Davis–Kahan 更紧的 resolvent / Neumann 展开,给出 individual eigenvector 恢复的 matching upper + lower bound。

【论文导读】Chinchilla 的『出生缺陷』:为什么 80% 的 scaling law 论文其实拟不出可信系数

拆解 arXiv 2605.08541:Syracuse + Amazon AGI Foundations 用一份 Gauss-Newton 分析证明——只要训练 grid 全在一条 D=kN 直线上、且 α≈β,scaling law 的尺度系数就是统计上不可识别的。Chinchilla 经典 17×、Kaplan 经典 53× 的置信区间膨胀,全部源于 Jacobian 几何而非数据噪声。配一份 1,900 个 LLM 的实证:non-collinear 设计在留出集上以 97.3% 胜率击败 collinear 设计。

【论文导读】MoE 时代的 μP:MSSP 如何修复 μP 在稀疏专家网络上的失败

拆解 arXiv 2605.14200:UCL Gatsby + Tübingen 团队用 DMFT 证明 μP 在细粒度 MoE 上不收敛,并给出三种 scaling 区制下的『最大尺度稳定参数化』MSSP,实测在 2.5B GPT-MoE 上恢复学习率迁移与单调改进。这可能是 2026 年最重要的一份『可直接落地』的 MoE 训练 recipe。

【论文导读】RoPE 在长上下文里既不能区分位置、也不能区分 token:UIUC + Amazon AGI 给现代 LLM 写的一份『出生缺陷诊断书』

拆解 arXiv 2605.15514:Yufeng Du 等把 RoPE product 当作正态随机变量来研究,证明 4 个失败模式(位置反转 / 位置混叠 / token 反转 / token 混叠)的概率都随上下文长度 M 单调上升、最终趋近 0.5;并在 Llama 3.1-8B、Qwen3-8B、DeepSeek-V3.1、Kimi-K2.5、gpt-oss-120B 上做了简单到不能再简单的「查 list」实验,所有模型在 4K-8K 之内就掉到随机猜。如果你信这套理论,那么『更长 context』这条路只能靠新机制,不能靠堆数据。