<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Scaling Laws on Jiayun's Blog</title><link>https://xiejiayun.github.io/tags/scaling-laws/</link><description>Recent content in Scaling Laws on Jiayun's Blog</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Tue, 19 May 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://xiejiayun.github.io/tags/scaling-laws/index.xml" rel="self" type="application/rss+xml"/><item><title>【论文导读】Scaling Law 的微观机制：把『一条平滑幂律』拆成『几百次 sharp 的特征跳出』</title><link>https://xiejiayun.github.io/post/paper-2605.14567/</link><pubDate>Tue, 19 May 2026 00:00:00 +0000</pubDate><guid>https://xiejiayun.github.io/post/paper-2605.14567/</guid><description>&lt;blockquote>
&lt;p>📌 &lt;strong>好文共赏 · 论文导读 | Paper Pick&lt;/strong>&lt;/p>
&lt;p>📄 论文：&lt;a href="https://arxiv.org/abs/2605.14567">Scaling Laws from Sequential Feature Recovery: A Solvable Hierarchical Model&lt;/a> · arXiv &lt;strong>2605.14567&lt;/strong>
👥 作者：Arie Wortsman-Zurich、Hugo Tabanelli、Yatin Dandi、Florent Krzakala、Bruno Loureiro（ENS PSL · EPFL IdePHICS / SPOC 实验室联合）
📅 发布：2026-05-14（v1）| 多模评分：&lt;strong>Opus 9.0 · Sonnet-equiv 8.25 · Gemini-equiv 8.0 ⇒ 综合 8.42 / 10&lt;/strong>
✍️ 一句话：Kaplan / Chinchilla 经验幂律不再只是&amp;quot;拟合得很好&amp;quot;的现象——这篇 54 页的硬核理论给出了第一个&lt;strong>可证明&lt;/strong>的微观机制：若教师的隐藏方向强度按 $\lambda_i = Z_\gamma z_i i^{-\gamma}$ 排开，spectral 学习器会在 $n_i \asymp d^q i^{2\gamma} / Z_\gamma^2$ 处把第 $i$ 个方向&amp;quot;挑出来&amp;quot;，这一串错位的 sharp transition 平均下来就是一条 $(n/d^q)^{-1+1/(2\gamma)}$ 的平滑标度律；技术上靠一份比 Davis–Kahan 更紧的 resolvent 展开，给出 individual eigenvector 恢复的 matching upper + lower bound——一个&amp;quot;可独立感兴趣&amp;quot;的随机矩阵新工具。&lt;/p></description></item><item><title>【论文导读】Chinchilla 的『出生缺陷』：为什么 80% 的 scaling law 论文其实拟不出可信系数</title><link>https://xiejiayun.github.io/post/paper-2605.08541/</link><pubDate>Mon, 18 May 2026 00:00:00 +0000</pubDate><guid>https://xiejiayun.github.io/post/paper-2605.08541/</guid><description>&lt;blockquote>
&lt;p>📌 &lt;strong>好文共赏 · 论文导读 | Paper Pick&lt;/strong>&lt;/p>
&lt;p>📄 论文：&lt;a href="https://arxiv.org/abs/2605.08541">Tokens-per-Parameter Coverage Is Critical for Robust LLM Scaling Law Extrapolation&lt;/a> · arXiv &lt;strong>2605.08541&lt;/strong>
👥 作者：Joshua Shay Kricheli, Alexander Lawrence Reid, Venkata Gandikota, Paulo Shakarian（Syracuse University）· Soumajyoti Sarkar（Amazon AGI Foundations）
📅 发布：2026-05-08（v2: 2026-05-12）| 多模评分：综合 &lt;strong>8.53 / 10&lt;/strong>（Opus 8.78 · Sonnet-equiv 8.40 · Gemini-equiv 8.40）
✍️ 一句话：过去六年里几乎所有 Chinchilla-style scaling law 都是在一条 &lt;code>D = k·N&lt;/code> 的射线上拟合的——这篇论文用一行 Gauss-Newton 不等式证明：在这种设计下，模型尺度系数 A 和数据尺度系数 B 在统计上&lt;strong>就是分不开&lt;/strong>的；并给出了一个闭式可计算的 &lt;code>V_K ≥ τ_K&lt;/code> 门槛，决定你的 scaling law 实验配比是否可识别。&lt;/p></description></item></channel></rss>