Jiayun's Blog

探索与分享

V4为什么迟迟不来

2026年已经过去近四个月,DeepSeek V4的发布窗口一再推迟。这款预计参数规模达万亿级、支持百万token上下文的多模态开源模型,已成为AI社区最受期待的发布之一。

但延期的原因不是模型架构的问题,也不是训练数据的瓶颈。核心原因是:DeepSeek正在全力适配华为昇腾芯片,通过CANN框架完成核心算子的重写和优化。

Sebastian Raschka在其最新文章中直言:“我原本计划写DeepSeek V4的分析,但它还没发布。“这个事实本身就是一个重要信号——技术社区已经在等待,但硬件适配的工程量超出了所有人的预期。

我的判断:DeepSeek V4的延期不是一个产品发布的问题,而是中国AI产业在CUDA生态和自主生态之间做出战略抉择的标志性事件。

CUDA的统治力有多深

要理解"去CUDA化"的难度,首先要理解CUDA的统治力有多深。

CUDA不仅仅是一个编程框架

CUDA(Compute Unified Device Architecture)表面上是NVIDIA的GPU编程接口,但实际上它是一个完整的生态系统:

层级CUDA生态组件替代方案成熟度
底层驱动CUDA Driver API华为CANN: 60-70%
编程模型CUDA Runtime APIROCm/CANN: 50-60%
数学库cuBLAS, cuDNNMIOpen/CANN算子: 40-50%
通信库NCCLHCCL: 50-60%
推理优化TensorRTMindSpore Lite: 40%
开发工具Nsight, nvprof各家自研: 30%
上层框架适配PyTorch/TF原生支持需要额外适配层
开发者社区500万+开发者华为: ~50万

Xe Iaso在最近的文章中提到一个被很多人忽视的事实:大多数"AI GPU"实际上是计算卡,它们甚至没有视频输出接口。 这意味着这些卡的全部价值都来自于软件生态——而CUDA就是这个生态的基石。

15年的护城河

CUDA从2006年发布至今已有20年历史。15年以上的持续投入意味着:

  • 数百万行经过优化的底层库代码
  • 全球顶尖AI研究都基于CUDA开发
  • 每一篇顶会论文的代码复现都默认CUDA环境
  • 开发者的肌肉记忆和思维惯性

这不是一个可以用"投更多钱"就能快速追平的差距。

华为昇腾的进展与差距

硬件层面

华为昇腾910B/910C在算力指标上已经接近NVIDIA A100/H100的水平。从纯粹的FLOPS角度,差距并不大。真正的鸿沟在软件层面。

CANN框架的挑战

CANN(Compute Architecture for Neural Networks)是华为对标CUDA的计算框架。它面临的核心挑战:

  1. 算子覆盖率:PyTorch中有2000+个算子,CANN目前覆盖了约70%。但剩下的30%往往是最复杂、最关键的——比如FlashAttention、各种自定义注意力变体
  2. 性能优化深度:即使功能上实现了等价算子,性能调优需要数年的积累。NVIDIA的cuDNN每个版本都有针对特定GPU架构的微调,这种级别的优化不可能快速复制
  3. 生态兼容层:让现有PyTorch代码"无缝"运行在昇腾上,需要一个完善的兼容层。目前这个层仍然需要手动干预的地方太多

DeepSeek V4的适配难点

对于DeepSeek V4这种万亿参数的模型,适配挑战主要集中在:

  • MoE(混合专家)路由:DeepSeek架构的核心创新之一是其MoE设计,这些自定义算子需要在CANN上从头实现
  • 超长上下文(百万token):需要高效的分布式注意力实现,NCCL→HCCL的通信效率差距在这里被放大
  • 多模态处理:视觉、语言、代码多模态融合的算子组合爆炸

去CUDA化的三条路线

全球范围内,去CUDA化正在沿三条路线展开:

路线一:完全自主(华为路线)

  • 自研芯片+自研框架(昇腾+CANN+MindSpore)
  • 优点:不受供应链制约,长期安全
  • 缺点:短期性能差距大,开发者迁移成本高
  • 前景:需要5-8年才能达到CUDA的成熟度

路线二:开放标准(AMD/Intel路线)

  • ROCm/oneAPI试图建立CUDA的开放替代
  • 优点:理论上更开放,多厂商支持
  • 缺点:社区分散,缺乏统一推动力
  • 前景:可能在特定场景(推理、边缘)取得突破

路线三:抽象层方案(编译器路线)

  • Triton(OpenAI)、MLIR(Google)等项目试图在CUDA之上建立硬件无关的抽象层
  • 优点:理论上一次编写,多硬件运行
  • 缺点:抽象必然损失性能,难以充分利用硬件特性
  • 前景:最有希望的长期方向,但当前性能开销在15-30%

对全球AI格局的影响

短期(2026-2027)

  • DeepSeek V4将以"双版本"形式发布——CUDA版本先行,昇腾版本随后
  • 中国AI企业将不得不维护两套代码路径,增加15-25%的工程成本
  • 性能差距将限制中国在超大规模训练上的能力,但推理场景的差距较小

中期(2027-2029)

  • 华为CANN的算子覆盖率将追赶到90%以上
  • 关键突破点:如果MindSpore或国产PyTorch适配层能做到"一行代码不改就能运行”,去CUDA化将加速
  • NVIDIA可能通过限制CUDA的开放性来加固护城河,反而推动替代方案发展

长期(2029+)

  • AI芯片市场可能形成CUDA/昇腾/开放标准三足鼎立
  • 编译器层面的硬件抽象将成为主流,CUDA的直接编程将像汇编语言一样——仍然存在,但只在极端性能场景使用

开发者应该怎么做

  1. 不要现在就all-in去CUDA化——CUDA仍然是性能最优解,除非你有明确的合规或供应链需求
  2. 关注Triton和JAX——这些框架提供了相对硬件无关的编程模型,是对冲风险的最佳选择
  3. 推理与训练分开考虑——推理场景的硬件适配难度远低于训练,可以优先在推理侧尝试非CUDA方案
  4. 跟踪DeepSeek V4的昇腾版本性能数据——这将是评估去CUDA化实际可行性的最重要基准测试

我的预判

  1. DeepSeek V4将在2026年Q2末发布CUDA版本,昇腾版本延迟2-3个月
  2. 2027年底,昇腾在推理场景将达到CUDA 85-90%的性能,训练场景70-75%
  3. “去CUDA化"不会消灭CUDA,而会创造一个多极化的AI计算生态
  4. 真正的赢家是编译器层项目——谁能做到"写一次,高效运行在所有硬件上”,谁就拿到了下一代计算生态的入场券
  5. NVIDIA的最大风险不是技术被追平,而是开源社区的反垄断力量——当Triton、MLIR等开放标准成熟到够用的程度时,开发者会用脚投票

DeepSeek V4的延期不是一个坏消息——它是中国AI产业为长期自主可控付出的必要代价。 关键问题是:这个代价能否在合理的时间窗口内转化为真正的竞争力。

参考链接