CUDA | Jiayun's Blog

【好文共赏】把 2000 秒砍成 50 秒：Modal 五年工程账本，从 LP 求解器到 CUDA Checkpoint 的『真·无服务器 GPU』栈

Charles Frye、Erik Bernhardsson 等四人把 Modal 五年攻克 serverless GPU 冷启动的全栈技术写成一份完整账本：从云端 buffer 的线性规划，到 ImageFS 的内容寻址 FUSE 文件系统，再到 gVisor checkpoint/restore 与 NVIDIA cuda-checkpoint，把 LLM 推理副本启动从『多个千秒』压到 50 秒，单平台已重启过约 5000 万个 replica。