<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>缩放定律 on Jiayun's Blog</title><link>https://xiejiayun.github.io/tags/%E7%BC%A9%E6%94%BE%E5%AE%9A%E5%BE%8B/</link><description>Recent content in 缩放定律 on Jiayun's Blog</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Tue, 19 May 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://xiejiayun.github.io/tags/%E7%BC%A9%E6%94%BE%E5%AE%9A%E5%BE%8B/index.xml" rel="self" type="application/rss+xml"/><item><title>【好文共赏】「指数终将变 S 曲线」：Scott Alexander 把这条 AI 怀疑论金句送进了「Sigmoid 误判名人堂」</title><link>https://xiejiayun.github.io/post/good-read-scott-alexander-sigmoids-ai-scaling/</link><pubDate>Tue, 19 May 2026 00:00:00 +0000</pubDate><guid>https://xiejiayun.github.io/post/good-read-scott-alexander-sigmoids-ai-scaling/</guid><description>&lt;blockquote>
&lt;p>📌 &lt;strong>好文共赏 · Editor&amp;rsquo;s Pick&lt;/strong>&lt;/p>
&lt;p>📄 原文：&lt;a href="https://www.astralcodexten.com/p/the-sigmoids-wont-save-you">&lt;strong>The Sigmoids Won&amp;rsquo;t Save You&lt;/strong>&lt;/a> · Astral Codex Ten
✍️ 作者：Scott Alexander · 📅 2026-05-15 · ⏱️ 阅读 ~18 分钟（中英双语原文长文 + 464 条评论）
🧪 多模评分：&lt;strong>Opus 9.1 · Sonnet 8.6 · Gemini 8.4 · 综合 8.7 / 10&lt;/strong>
🪧 一句话推荐：当所有反 AI 加速论者都在掏出&amp;quot;所有指数终将变成 S 曲线&amp;quot;这把万能钥匙时，Scott Alexander 用三场预测翻车，把这把钥匙折弯成了一面照妖镜——并用 Lindy 律给出了一个让对方必须正面应战的默认先验。&lt;/p></description></item><item><title>【论文导读】Chinchilla 的『出生缺陷』：为什么 80% 的 scaling law 论文其实拟不出可信系数</title><link>https://xiejiayun.github.io/post/paper-2605.08541/</link><pubDate>Mon, 18 May 2026 00:00:00 +0000</pubDate><guid>https://xiejiayun.github.io/post/paper-2605.08541/</guid><description>&lt;blockquote>
&lt;p>📌 &lt;strong>好文共赏 · 论文导读 | Paper Pick&lt;/strong>&lt;/p>
&lt;p>📄 论文：&lt;a href="https://arxiv.org/abs/2605.08541">Tokens-per-Parameter Coverage Is Critical for Robust LLM Scaling Law Extrapolation&lt;/a> · arXiv &lt;strong>2605.08541&lt;/strong>
👥 作者：Joshua Shay Kricheli, Alexander Lawrence Reid, Venkata Gandikota, Paulo Shakarian（Syracuse University）· Soumajyoti Sarkar（Amazon AGI Foundations）
📅 发布：2026-05-08（v2: 2026-05-12）| 多模评分：综合 &lt;strong>8.53 / 10&lt;/strong>（Opus 8.78 · Sonnet-equiv 8.40 · Gemini-equiv 8.40）
✍️ 一句话：过去六年里几乎所有 Chinchilla-style scaling law 都是在一条 &lt;code>D = k·N&lt;/code> 的射线上拟合的——这篇论文用一行 Gauss-Newton 不等式证明：在这种设计下，模型尺度系数 A 和数据尺度系数 B 在统计上&lt;strong>就是分不开&lt;/strong>的；并给出了一个闭式可计算的 &lt;code>V_K ≥ τ_K&lt;/code> 门槛，决定你的 scaling law 实验配比是否可识别。&lt;/p></description></item><item><title>【论文导读】MoE 时代的 μP：MSSP 如何修复 μP 在稀疏专家网络上的失败</title><link>https://xiejiayun.github.io/post/paper-2605.14200/</link><pubDate>Mon, 18 May 2026 00:00:00 +0000</pubDate><guid>https://xiejiayun.github.io/post/paper-2605.14200/</guid><description>&lt;blockquote>
&lt;p>📌 &lt;strong>好文共赏 · 论文导读 | Paper Pick&lt;/strong>&lt;/p>
&lt;p>📄 论文：&lt;a href="https://arxiv.org/abs/2605.14200">How to Scale Mixture-of-Experts: From μP to the Maximally Scale-Stable Parameterization&lt;/a> · arXiv &lt;strong>2605.14200&lt;/strong>
👥 作者：Leena Chennuru Vankadara, Moritz Haas, Luke Hayward, Sebastian Bordt, Alessandro Breccia（UCL Gatsby Unit / Amazon / Tübingen AI Center）
📅 发布：2026-05-13 | 多模评分：综合 &lt;strong>8.47 / 10&lt;/strong>（Opus 8.72 · Sonnet-equiv 8.48 · Gemini-equiv 8.23）
✍️ 一句话：μP 在&lt;strong>细粒度 MoE&lt;/strong>（DeepSeek-V3、Qwen-MoE 走的路线）上不仅不能给出学习率迁移，还会让大模型&lt;strong>反而比小模型更差&lt;/strong>；MSSP 用一张完整的超参缩放表把这件事彻底修好——可能是 2026 年最值得训前贴在白板上的一篇论文。&lt;/p></description></item></channel></rss>