Jiayun's Blog

探索与分享

【好文共赏】把 2000 秒砍成 50 秒:Modal 五年工程账本,从 LP 求解器到 CUDA Checkpoint 的『真·无服务器 GPU』栈

Charles Frye、Erik Bernhardsson 等四人把 Modal 五年攻克 serverless GPU 冷启动的全栈技术写成一份完整账本:从云端 buffer 的线性规划,到 ImageFS 的内容寻址 FUSE 文件系统,再到 gVisor checkpoint/restore 与 NVIDIA cuda-checkpoint,把 LLM 推理副本启动从『多个千秒』压到 50 秒,单平台已重启过约 5000 万个 replica。

Cloudflare Dynamic Workflows 全解析:300 行 TypeScript 如何让持久化执行'跟着租户走'

当多租户平台需要为数千万用户各自运行有状态工作流,传统容器方案的成本曲线崩溃了。Cloudflare 的方案是:把一切变成 Worker。