【好文共赏】把 2000 秒砍成 50 秒：Modal 五年工程账本，从 LP 求解器到 CUDA Checkpoint 的『真·无服务器 GPU』栈

Tue, 19 May 2026 00:00:00 +0000

📌 编辑推荐框

好文共赏 | Editor’s Pick

原文：Cutting inference cold starts by 40x with LP, FUSE, C/R, and CUDA-checkpoint · 作者：Charles Frye / Jonathan Belotti / Erik Bernhardsson / Akshat Bubna（Modal） · 发布：2026-05-12 · 阅读时长：~20 分钟

DeepSeek V4延期与去CUDA化：中国AI生态的关键抉择

Tue, 21 Apr 2026 00:00:00 +0000

V4为什么迟迟不来

2026年已经过去近四个月，DeepSeek V4的发布窗口一再推迟。这款预计参数规模达万亿级、支持百万token上下文的多模态开源模型，已成为AI社区最受期待的发布之一。

CUDA on Jiayun's Blog

【好文共赏】把 2000 秒砍成 50 秒：Modal 五年工程账本，从 LP 求解器到 CUDA Checkpoint 的『真·无服务器 GPU』栈

📌 编辑推荐框

DeepSeek V4延期与去CUDA化：中国AI生态的关键抉择

V4为什么迟迟不来