一、等待终于结束:DeepSeek V4的战略意义
自2024年12月V3发布、2025年1月R1推理模型问世以来,DeepSeek沉寂了超过一年。在这段"静默期"里,Moonshot的Kimi K2.6牢牢占据了中国开源模型的领先位置。现在,DeepSeek V4的发布不仅是一次模型迭代——它是一次对整个开源AI生态的格局重塑。
核心判断:DeepSeek V4标志着开源大模型正式进入"前沿级"时代,闭源模型的护城河正在以季度为单位被侵蚀。
二、架构拆解:Pro与Flash的差异化设计
DeepSeek V4采用了双版本策略,精准覆盖不同算力场景:
| 维度 | V4 Pro | V4 Flash | GPT-5.5 | Claude Opus 4.7 | Kimi K2.6 |
|---|---|---|---|---|---|
| 总参数 | 1.6T | 284B | 未公开 | 未公开 | ~400B |
| 激活参数 | 49B | 13B | 未公开 | 未公开 | ~40B |
| 上下文窗口 | 1M tokens | 1M tokens | 1M tokens | 200K | 1M tokens |
| 架构 | MoE | MoE | Dense+MoE | Dense | MoE |
| 开源 | ✅ MIT | ✅ MIT | ❌ | ❌ | ✅ |
| 综合水平 | ≈GPT-5.4/Opus 4.6 | 接近Pro | 最强 | 次强 | 接近Pro |
几个关键架构洞察:
1. MoE的极致效率比。 V4 Pro的1.6T总参数中仅激活49B(3%),Flash更是只激活13B(4.6%)。这意味着Flash可以在消费级GPU集群上推理,而Pro的推理成本远低于同等能力的Dense模型。
2. 百万Token上下文成为标配。 V4全系标配1M上下文窗口,这不再是噱头——Hugging Face的评测显示V4的长上下文理解质量是"agents can actually use"的水平。对比GPT-5.5同样1M但API价格高出数倍,DeepSeek的性价比优势极其突出。
3. 推理能力的跃升。 从V3到V4,DeepSeek将R1中验证过的强化学习推理技术深度整合进了基座模型。这不是简单的"加个思考链",而是从预训练阶段就融入了推理导向的训练策略。
三、华为昇腾适配:技术决策还是地缘政治?
V4技术报告中最引人注目的细节之一:模型可以在华为昇腾芯片上运行。
这个技术选择的含义远超表面。在美国对中国芯片出口管制持续收紧的背景下,DeepSeek主动适配昇腾意味着:
- 供应链韧性:即使NVIDIA对华供应进一步受限,DeepSeek的模型依然可以在国产算力上部署
- 市场拓展:中国大量政企客户的算力基础设施正在向昇腾迁移,V4的适配直接打开了这个市场
- 生态绑定:华为和DeepSeek形成了事实上的"芯片-模型"联盟,对抗NVIDIA+闭源模型的组合
我的判断:昇腾适配不是"顺便做做",而是DeepSeek的核心战略支柱之一。 它确保了DeepSeek在最坏的地缘政治场景下依然能够持续迭代。
四、人才流失:被忽视的风险信号
V4的58页技术报告列出了近300人的作者名单,其中10人标注为已离职。据国内媒体报道,至少5名核心研发人员自2025年下半年以来已经离开,涉及基座模型、推理、OCR、多模态等关键方向。
这个数据值得深入分析:
- 人才竞争白热化:中国AI行业的人才争夺已经进入"挖角大战"阶段,腾讯混元、阿里通义、字节豆包都在大力招揽
- 创业分流:部分核心人才可能选择创业,DeepSeek作为量化基金附属机构的组织形态可能限制了股权激励的灵活性
- 知识传承风险:10/300的流失率看起来不高(~3.3%),但如果集中在核心架构组,对下一代模型的研发影响可能被低估
风险预判:如果V4之后的半年内再有核心架构人员流失,DeepSeek V5的时间表可能会显著推迟。 幻方量化需要认真思考如何在非典型科技公司的框架下留住顶级AI人才。
五、定价战争:2.5折的背后逻辑
V4-Pro API宣布2.5折优惠延长至5月底,这个定价策略非常值得玩味:
- 抢占市场窗口:趁GPT-5.5和Opus 4.7刚发布的混乱期,用价格锁定开发者
- Flash作为引流产品:13B激活参数的Flash版本推理成本极低,已被OpenClaw设为默认模型,HONOR集成到YOYO助手——这是以硬件级的边际成本换取生态覆盖
- 数据飞轮:更多用户 → 更多真实对话数据 → 更好的下一代模型。DeepSeek可能在有意识地牺牲短期收入来积累训练数据
Simon Willison的评价精准概括了V4的市场定位:“almost on the frontier, a fraction of the price”(几乎在前沿,价格只是零头)。
六、结论与预判
DeepSeek V4的发布确认了三个趋势:
开源模型与闭源的差距已缩小到一代以内。 V4达到了GPT-5.4/Opus 4.6水平,而GPT-5.5/Opus 4.7仅领先半步。按照当前追赶速度,2026年底可能实现实质平价。
MoE架构正在成为大模型的主流选择。 从DeepSeek V4到Kimi K2.6到腾讯混元Hy3,中国头部实验室不约而同选择了MoE。Dense架构在超大规模模型上的效率劣势已经无法忽视。
中国AI产业正在形成独立于美国技术栈的完整生态。 昇腾芯片 + DeepSeek模型 + OpenClaw框架,这条链路已经可以在完全脱钩的场景下运转。
大胆预测:2026年Q4,DeepSeek V5将首次在综合基准上超越同期的GPT和Claude最新版本。 开源模型的"追赶期"即将结束,“领先期"正在到来。
参考来源
- Latent Space AINews:DeepSeek V4 Pro (1.6T-A49B) and Flash (284B-A13B)发布分析
- Sebastian Raschka:From DeepSeek V3 to V3.2架构演进分析
- Simon Willison:DeepSeek V4 - almost on the frontier, a fraction of the price
- Hugging Face Blog:DeepSeek-V4: a million-token context that agents can actually use
- TechNode:DeepSeek V4 report shows multiple R&D staff departures
- TechNode:DeepSeek V4 becomes default model for OpenClaw
- 极客公园:DeepSeek正式发布V4 API
- Pandaily:HONOR Integrates DeepSeek-V4 into YOYO Assistant