DeepSeek V4延期与去CUDA化：中国AI生态的关键抉择

V4为什么迟迟不来

2026年已经过去近四个月，DeepSeek V4的发布窗口一再推迟。这款预计参数规模达万亿级、支持百万token上下文的多模态开源模型，已成为AI社区最受期待的发布之一。

但延期的原因不是模型架构的问题，也不是训练数据的瓶颈。核心原因是：DeepSeek正在全力适配华为昇腾芯片，通过CANN框架完成核心算子的重写和优化。

Sebastian Raschka在其最新文章中直言：“我原本计划写DeepSeek V4的分析，但它还没发布。“这个事实本身就是一个重要信号——技术社区已经在等待，但硬件适配的工程量超出了所有人的预期。

我的判断：DeepSeek V4的延期不是一个产品发布的问题，而是中国AI产业在CUDA生态和自主生态之间做出战略抉择的标志性事件。

CUDA的统治力有多深

要理解"去CUDA化"的难度，首先要理解CUDA的统治力有多深。

CUDA不仅仅是一个编程框架

CUDA（Compute Unified Device Architecture）表面上是NVIDIA的GPU编程接口，但实际上它是一个完整的生态系统：

层级	CUDA生态组件	替代方案成熟度
底层驱动	CUDA Driver API	华为CANN: 60-70%
编程模型	CUDA Runtime API	ROCm/CANN: 50-60%
数学库	cuBLAS, cuDNN	MIOpen/CANN算子: 40-50%
通信库	NCCL	HCCL: 50-60%
推理优化	TensorRT	MindSpore Lite: 40%
开发工具	Nsight, nvprof	各家自研: 30%
上层框架适配	PyTorch/TF原生支持	需要额外适配层
开发者社区	500万+开发者	华为: ~50万

Xe Iaso在最近的文章中提到一个被很多人忽视的事实：大多数"AI GPU"实际上是计算卡，它们甚至没有视频输出接口。 这意味着这些卡的全部价值都来自于软件生态——而CUDA就是这个生态的基石。

15年的护城河

CUDA从2006年发布至今已有20年历史。15年以上的持续投入意味着：

数百万行经过优化的底层库代码
全球顶尖AI研究都基于CUDA开发
每一篇顶会论文的代码复现都默认CUDA环境
开发者的肌肉记忆和思维惯性

这不是一个可以用"投更多钱"就能快速追平的差距。

华为昇腾的进展与差距

硬件层面

华为昇腾910B/910C在算力指标上已经接近NVIDIA A100/H100的水平。从纯粹的FLOPS角度，差距并不大。真正的鸿沟在软件层面。

CANN框架的挑战

CANN（Compute Architecture for Neural Networks）是华为对标CUDA的计算框架。它面临的核心挑战：

算子覆盖率：PyTorch中有2000+个算子，CANN目前覆盖了约70%。但剩下的30%往往是最复杂、最关键的——比如FlashAttention、各种自定义注意力变体
性能优化深度：即使功能上实现了等价算子，性能调优需要数年的积累。NVIDIA的cuDNN每个版本都有针对特定GPU架构的微调，这种级别的优化不可能快速复制
生态兼容层：让现有PyTorch代码"无缝"运行在昇腾上，需要一个完善的兼容层。目前这个层仍然需要手动干预的地方太多

DeepSeek V4的适配难点

对于DeepSeek V4这种万亿参数的模型，适配挑战主要集中在：

MoE（混合专家）路由：DeepSeek架构的核心创新之一是其MoE设计，这些自定义算子需要在CANN上从头实现
超长上下文（百万token）：需要高效的分布式注意力实现，NCCL→HCCL的通信效率差距在这里被放大
多模态处理：视觉、语言、代码多模态融合的算子组合爆炸

去CUDA化的三条路线

全球范围内，去CUDA化正在沿三条路线展开：

路线一：完全自主（华为路线）

自研芯片+自研框架（昇腾+CANN+MindSpore）
优点：不受供应链制约，长期安全
缺点：短期性能差距大，开发者迁移成本高
前景：需要5-8年才能达到CUDA的成熟度

路线二：开放标准（AMD/Intel路线）

ROCm/oneAPI试图建立CUDA的开放替代
优点：理论上更开放，多厂商支持
缺点：社区分散，缺乏统一推动力
前景：可能在特定场景（推理、边缘）取得突破

路线三：抽象层方案（编译器路线）

Triton（OpenAI）、MLIR（Google）等项目试图在CUDA之上建立硬件无关的抽象层
优点：理论上一次编写，多硬件运行
缺点：抽象必然损失性能，难以充分利用硬件特性
前景：最有希望的长期方向，但当前性能开销在15-30%

对全球AI格局的影响

短期（2026-2027）

DeepSeek V4将以"双版本"形式发布——CUDA版本先行，昇腾版本随后
中国AI企业将不得不维护两套代码路径，增加15-25%的工程成本
性能差距将限制中国在超大规模训练上的能力，但推理场景的差距较小

中期（2027-2029）

华为CANN的算子覆盖率将追赶到90%以上
关键突破点：如果MindSpore或国产PyTorch适配层能做到"一行代码不改就能运行”，去CUDA化将加速
NVIDIA可能通过限制CUDA的开放性来加固护城河，反而推动替代方案发展

长期（2029+）

AI芯片市场可能形成CUDA/昇腾/开放标准三足鼎立
编译器层面的硬件抽象将成为主流，CUDA的直接编程将像汇编语言一样——仍然存在，但只在极端性能场景使用

开发者应该怎么做

不要现在就all-in去CUDA化——CUDA仍然是性能最优解，除非你有明确的合规或供应链需求
关注Triton和JAX——这些框架提供了相对硬件无关的编程模型，是对冲风险的最佳选择
推理与训练分开考虑——推理场景的硬件适配难度远低于训练，可以优先在推理侧尝试非CUDA方案
跟踪DeepSeek V4的昇腾版本性能数据——这将是评估去CUDA化实际可行性的最重要基准测试

我的预判

DeepSeek V4将在2026年Q2末发布CUDA版本，昇腾版本延迟2-3个月
2027年底，昇腾在推理场景将达到CUDA 85-90%的性能，训练场景70-75%
“去CUDA化"不会消灭CUDA，而会创造一个多极化的AI计算生态
真正的赢家是编译器层项目——谁能做到"写一次，高效运行在所有硬件上”，谁就拿到了下一代计算生态的入场券
NVIDIA的最大风险不是技术被追平，而是开源社区的反垄断力量——当Triton、MLIR等开放标准成熟到够用的程度时，开发者会用脚投票

DeepSeek V4的延期不是一个坏消息——它是中国AI产业为长期自主可控付出的必要代价。 关键问题是：这个代价能否在合理的时间窗口内转化为真正的竞争力。

Jiayun's Blog