【好文共赏】把 2000 秒砍成 50 秒：Modal 五年工程账本，从 LP 求解器到 CUDA Checkpoint 的『真·无服务器 GPU』栈

Tue, 19 May 2026 00:00:00 +0000

📌 编辑推荐框

好文共赏 | Editor’s Pick

原文：Cutting inference cold starts by 40x with LP, FUSE, C/R, and CUDA-checkpoint · 作者：Charles Frye / Jonathan Belotti / Erik Bernhardsson / Akshat Bubna（Modal） · 发布：2026-05-12 · 阅读时长：~20 分钟

【论文导读】证明思维链的价值：一份关于「为什么 O(log n) 推理能顶 Ω(n) 上下文」的硬核数学

Mon, 18 May 2026 00:00:00 +0000

📌 好文共赏 · 论文导读 | Paper Pick

📄 论文：A Hierarchical Language Model with Predictable Scaling Laws and Provable Benefits of Reasoning · arXiv 2605.13687
👥 作者：Jason Gaitonde (Duke) · Frederic Koehler (UChicago) · Elchanan Mossel (MIT) · Joonhyung Shin (UChicago) · Allan Sly (Princeton)
📅 发布：2026-05-14 | 多模评分：Opus 8.88 · Sonnet-equiv 8.75 · Gemini-equiv 9.00 → 综合 8.88 / 10
✍️ 一句话：用 d-叉树上的广播过程把"语言"做成可解析的概率分布，第一次定量地证明了一条社区抱了三年的口号——“链式思考确实换得过来上下文”——而且证给的不是 Turing 完备，是 Ω(n) vs Θ(log n) 的指数级缺口，最后还把所有理论曲线在 nanochat 训练的 Transformer 上对齐了。

推理 on Jiayun's Blog

【好文共赏】把 2000 秒砍成 50 秒：Modal 五年工程账本，从 LP 求解器到 CUDA Checkpoint 的『真·无服务器 GPU』栈

📌 编辑推荐框

【论文导读】证明思维链的价值：一份关于「为什么 O(log n) 推理能顶 Ω(n) 上下文」的硬核数学