推理 | Jiayun's Blog

【好文共赏】把 2000 秒砍成 50 秒：Modal 五年工程账本，从 LP 求解器到 CUDA Checkpoint 的『真·无服务器 GPU』栈

Charles Frye、Erik Bernhardsson 等四人把 Modal 五年攻克 serverless GPU 冷启动的全栈技术写成一份完整账本：从云端 buffer 的线性规划，到 ImageFS 的内容寻址 FUSE 文件系统，再到 gVisor checkpoint/restore 与 NVIDIA cuda-checkpoint，把 LLM 推理副本启动从『多个千秒』压到 50 秒，单平台已重启过约 5000 万个 replica。

【论文导读】证明思维链的价值：一份关于「为什么 O(log n) 推理能顶 Ω(n) 上下文」的硬核数学

拆解 arXiv 2605.13687：Mossel/Sly/Koehler 等概率大牛把语言抽象成树上广播过程，给出第一份可证、可验、可量化的'CoT 加速定理'——上下文需要 Ω(n) 才能勉强匹配真实语言的全局统计，而 Θ(log n) 比特的推理记忆就足以精确采样，并在 nanochat 训练的 Transformer 上实验逐项对齐。

【好文共赏】把 2000 秒砍成 50 秒：Modal 五年工程账本，从 LP 求解器到 CUDA Checkpoint 的『真·无服务器 GPU』栈

【论文导读】证明思维链的价值：一份关于「为什么 O(log n) 推理能顶 Ω(n) 上下文」的硬核数学

FEATURED TAGS