Jiayun's Blog

探索与分享

【好文共赏】把 2000 秒砍成 50 秒:Modal 五年工程账本,从 LP 求解器到 CUDA Checkpoint 的『真·无服务器 GPU』栈

Charles Frye、Erik Bernhardsson 等四人把 Modal 五年攻克 serverless GPU 冷启动的全栈技术写成一份完整账本:从云端 buffer 的线性规划,到 ImageFS 的内容寻址 FUSE 文件系统,再到 gVisor checkpoint/restore 与 NVIDIA cuda-checkpoint,把 LLM 推理副本启动从『多个千秒』压到 50 秒,单平台已重启过约 5000 万个 replica。

【论文导读】证明思维链的价值:一份关于「为什么 O(log n) 推理能顶 Ω(n) 上下文」的硬核数学

拆解 arXiv 2605.13687:Mossel/Sly/Koehler 等概率大牛把语言抽象成树上广播过程,给出第一份可证、可验、可量化的'CoT 加速定理'——上下文需要 Ω(n) 才能勉强匹配真实语言的全局统计,而 Θ(log n) 比特的推理记忆就足以精确采样,并在 nanochat 训练的 Transformer 上实验逐项对齐。