Jiayun's Blog

探索与分享

【好文共赏】把 2000 秒砍成 50 秒:Modal 五年工程账本,从 LP 求解器到 CUDA Checkpoint 的『真·无服务器 GPU』栈

Charles Frye、Erik Bernhardsson 等四人把 Modal 五年攻克 serverless GPU 冷启动的全栈技术写成一份完整账本:从云端 buffer 的线性规划,到 ImageFS 的内容寻址 FUSE 文件系统,再到 gVisor checkpoint/restore 与 NVIDIA cuda-checkpoint,把 LLM 推理副本启动从『多个千秒』压到 50 秒,单平台已重启过约 5000 万个 replica。

DeepSeek V4延期与去CUDA化:中国AI生态的关键抉择

DeepSeek V4一再推迟发布,背后是适配华为昇腾芯片的艰难工程——这场去CUDA运动将重塑全球AI计算生态