V4为什么迟迟不来
2026年已经过去近四个月,DeepSeek V4的发布窗口一再推迟。这款预计参数规模达万亿级、支持百万token上下文的多模态开源模型,已成为AI社区最受期待的发布之一。
但延期的原因不是模型架构的问题,也不是训练数据的瓶颈。核心原因是:DeepSeek正在全力适配华为昇腾芯片,通过CANN框架完成核心算子的重写和优化。
Sebastian Raschka在其最新文章中直言:“我原本计划写DeepSeek V4的分析,但它还没发布。“这个事实本身就是一个重要信号——技术社区已经在等待,但硬件适配的工程量超出了所有人的预期。
我的判断:DeepSeek V4的延期不是一个产品发布的问题,而是中国AI产业在CUDA生态和自主生态之间做出战略抉择的标志性事件。
CUDA的统治力有多深
要理解"去CUDA化"的难度,首先要理解CUDA的统治力有多深。
CUDA不仅仅是一个编程框架
CUDA(Compute Unified Device Architecture)表面上是NVIDIA的GPU编程接口,但实际上它是一个完整的生态系统:
| 层级 | CUDA生态组件 | 替代方案成熟度 |
|---|---|---|
| 底层驱动 | CUDA Driver API | 华为CANN: 60-70% |
| 编程模型 | CUDA Runtime API | ROCm/CANN: 50-60% |
| 数学库 | cuBLAS, cuDNN | MIOpen/CANN算子: 40-50% |
| 通信库 | NCCL | HCCL: 50-60% |
| 推理优化 | TensorRT | MindSpore Lite: 40% |
| 开发工具 | Nsight, nvprof | 各家自研: 30% |
| 上层框架适配 | PyTorch/TF原生支持 | 需要额外适配层 |
| 开发者社区 | 500万+开发者 | 华为: ~50万 |
Xe Iaso在最近的文章中提到一个被很多人忽视的事实:大多数"AI GPU"实际上是计算卡,它们甚至没有视频输出接口。 这意味着这些卡的全部价值都来自于软件生态——而CUDA就是这个生态的基石。
15年的护城河
CUDA从2006年发布至今已有20年历史。15年以上的持续投入意味着:
- 数百万行经过优化的底层库代码
- 全球顶尖AI研究都基于CUDA开发
- 每一篇顶会论文的代码复现都默认CUDA环境
- 开发者的肌肉记忆和思维惯性
这不是一个可以用"投更多钱"就能快速追平的差距。
华为昇腾的进展与差距
硬件层面
华为昇腾910B/910C在算力指标上已经接近NVIDIA A100/H100的水平。从纯粹的FLOPS角度,差距并不大。真正的鸿沟在软件层面。
CANN框架的挑战
CANN(Compute Architecture for Neural Networks)是华为对标CUDA的计算框架。它面临的核心挑战:
- 算子覆盖率:PyTorch中有2000+个算子,CANN目前覆盖了约70%。但剩下的30%往往是最复杂、最关键的——比如FlashAttention、各种自定义注意力变体
- 性能优化深度:即使功能上实现了等价算子,性能调优需要数年的积累。NVIDIA的cuDNN每个版本都有针对特定GPU架构的微调,这种级别的优化不可能快速复制
- 生态兼容层:让现有PyTorch代码"无缝"运行在昇腾上,需要一个完善的兼容层。目前这个层仍然需要手动干预的地方太多
DeepSeek V4的适配难点
对于DeepSeek V4这种万亿参数的模型,适配挑战主要集中在:
- MoE(混合专家)路由:DeepSeek架构的核心创新之一是其MoE设计,这些自定义算子需要在CANN上从头实现
- 超长上下文(百万token):需要高效的分布式注意力实现,NCCL→HCCL的通信效率差距在这里被放大
- 多模态处理:视觉、语言、代码多模态融合的算子组合爆炸
去CUDA化的三条路线
全球范围内,去CUDA化正在沿三条路线展开:
路线一:完全自主(华为路线)
- 自研芯片+自研框架(昇腾+CANN+MindSpore)
- 优点:不受供应链制约,长期安全
- 缺点:短期性能差距大,开发者迁移成本高
- 前景:需要5-8年才能达到CUDA的成熟度
路线二:开放标准(AMD/Intel路线)
- ROCm/oneAPI试图建立CUDA的开放替代
- 优点:理论上更开放,多厂商支持
- 缺点:社区分散,缺乏统一推动力
- 前景:可能在特定场景(推理、边缘)取得突破
路线三:抽象层方案(编译器路线)
- Triton(OpenAI)、MLIR(Google)等项目试图在CUDA之上建立硬件无关的抽象层
- 优点:理论上一次编写,多硬件运行
- 缺点:抽象必然损失性能,难以充分利用硬件特性
- 前景:最有希望的长期方向,但当前性能开销在15-30%
对全球AI格局的影响
短期(2026-2027)
- DeepSeek V4将以"双版本"形式发布——CUDA版本先行,昇腾版本随后
- 中国AI企业将不得不维护两套代码路径,增加15-25%的工程成本
- 性能差距将限制中国在超大规模训练上的能力,但推理场景的差距较小
中期(2027-2029)
- 华为CANN的算子覆盖率将追赶到90%以上
- 关键突破点:如果MindSpore或国产PyTorch适配层能做到"一行代码不改就能运行”,去CUDA化将加速
- NVIDIA可能通过限制CUDA的开放性来加固护城河,反而推动替代方案发展
长期(2029+)
- AI芯片市场可能形成CUDA/昇腾/开放标准三足鼎立
- 编译器层面的硬件抽象将成为主流,CUDA的直接编程将像汇编语言一样——仍然存在,但只在极端性能场景使用
开发者应该怎么做
- 不要现在就all-in去CUDA化——CUDA仍然是性能最优解,除非你有明确的合规或供应链需求
- 关注Triton和JAX——这些框架提供了相对硬件无关的编程模型,是对冲风险的最佳选择
- 推理与训练分开考虑——推理场景的硬件适配难度远低于训练,可以优先在推理侧尝试非CUDA方案
- 跟踪DeepSeek V4的昇腾版本性能数据——这将是评估去CUDA化实际可行性的最重要基准测试
我的预判
- DeepSeek V4将在2026年Q2末发布CUDA版本,昇腾版本延迟2-3个月
- 2027年底,昇腾在推理场景将达到CUDA 85-90%的性能,训练场景70-75%
- “去CUDA化"不会消灭CUDA,而会创造一个多极化的AI计算生态
- 真正的赢家是编译器层项目——谁能做到"写一次,高效运行在所有硬件上”,谁就拿到了下一代计算生态的入场券
- NVIDIA的最大风险不是技术被追平,而是开源社区的反垄断力量——当Triton、MLIR等开放标准成熟到够用的程度时,开发者会用脚投票
DeepSeek V4的延期不是一个坏消息——它是中国AI产业为长期自主可控付出的必要代价。 关键问题是:这个代价能否在合理的时间窗口内转化为真正的竞争力。
参考链接
- 钛媒体 - 自主还是兼容:DeepSeek V4延期背后的中国AI生态选择题
- Sebastian Raschka - A Visual Guide to Attention Variants in Modern LLMs
- Sebastian Raschka - A Dream of Spring for Open-Weight LLMs
- Xe Iaso - Small note about AI ‘GPUs’
- Sebastian Raschka - From DeepSeek V3 to V3.2: Architecture Updates
- Sebastian Raschka - The Big LLM Architecture Comparison