Jiayun's Blog

探索与分享

一、等待终于结束:DeepSeek V4的战略意义

自2024年12月V3发布、2025年1月R1推理模型问世以来,DeepSeek沉寂了超过一年。在这段"静默期"里,Moonshot的Kimi K2.6牢牢占据了中国开源模型的领先位置。现在,DeepSeek V4的发布不仅是一次模型迭代——它是一次对整个开源AI生态的格局重塑。

核心判断:DeepSeek V4标志着开源大模型正式进入"前沿级"时代,闭源模型的护城河正在以季度为单位被侵蚀。

二、架构拆解:Pro与Flash的差异化设计

DeepSeek V4采用了双版本策略,精准覆盖不同算力场景:

维度V4 ProV4 FlashGPT-5.5Claude Opus 4.7Kimi K2.6
总参数1.6T284B未公开未公开~400B
激活参数49B13B未公开未公开~40B
上下文窗口1M tokens1M tokens1M tokens200K1M tokens
架构MoEMoEDense+MoEDenseMoE
开源✅ MIT✅ MIT
综合水平≈GPT-5.4/Opus 4.6接近Pro最强次强接近Pro

几个关键架构洞察:

1. MoE的极致效率比。 V4 Pro的1.6T总参数中仅激活49B(3%),Flash更是只激活13B(4.6%)。这意味着Flash可以在消费级GPU集群上推理,而Pro的推理成本远低于同等能力的Dense模型。

2. 百万Token上下文成为标配。 V4全系标配1M上下文窗口,这不再是噱头——Hugging Face的评测显示V4的长上下文理解质量是"agents can actually use"的水平。对比GPT-5.5同样1M但API价格高出数倍,DeepSeek的性价比优势极其突出。

3. 推理能力的跃升。 从V3到V4,DeepSeek将R1中验证过的强化学习推理技术深度整合进了基座模型。这不是简单的"加个思考链",而是从预训练阶段就融入了推理导向的训练策略。

三、华为昇腾适配:技术决策还是地缘政治?

V4技术报告中最引人注目的细节之一:模型可以在华为昇腾芯片上运行

这个技术选择的含义远超表面。在美国对中国芯片出口管制持续收紧的背景下,DeepSeek主动适配昇腾意味着:

  • 供应链韧性:即使NVIDIA对华供应进一步受限,DeepSeek的模型依然可以在国产算力上部署
  • 市场拓展:中国大量政企客户的算力基础设施正在向昇腾迁移,V4的适配直接打开了这个市场
  • 生态绑定:华为和DeepSeek形成了事实上的"芯片-模型"联盟,对抗NVIDIA+闭源模型的组合

我的判断:昇腾适配不是"顺便做做",而是DeepSeek的核心战略支柱之一。 它确保了DeepSeek在最坏的地缘政治场景下依然能够持续迭代。

四、人才流失:被忽视的风险信号

V4的58页技术报告列出了近300人的作者名单,其中10人标注为已离职。据国内媒体报道,至少5名核心研发人员自2025年下半年以来已经离开,涉及基座模型、推理、OCR、多模态等关键方向。

这个数据值得深入分析:

  • 人才竞争白热化:中国AI行业的人才争夺已经进入"挖角大战"阶段,腾讯混元、阿里通义、字节豆包都在大力招揽
  • 创业分流:部分核心人才可能选择创业,DeepSeek作为量化基金附属机构的组织形态可能限制了股权激励的灵活性
  • 知识传承风险:10/300的流失率看起来不高(~3.3%),但如果集中在核心架构组,对下一代模型的研发影响可能被低估

风险预判:如果V4之后的半年内再有核心架构人员流失,DeepSeek V5的时间表可能会显著推迟。 幻方量化需要认真思考如何在非典型科技公司的框架下留住顶级AI人才。

五、定价战争:2.5折的背后逻辑

V4-Pro API宣布2.5折优惠延长至5月底,这个定价策略非常值得玩味:

  • 抢占市场窗口:趁GPT-5.5和Opus 4.7刚发布的混乱期,用价格锁定开发者
  • Flash作为引流产品:13B激活参数的Flash版本推理成本极低,已被OpenClaw设为默认模型,HONOR集成到YOYO助手——这是以硬件级的边际成本换取生态覆盖
  • 数据飞轮:更多用户 → 更多真实对话数据 → 更好的下一代模型。DeepSeek可能在有意识地牺牲短期收入来积累训练数据

Simon Willison的评价精准概括了V4的市场定位:“almost on the frontier, a fraction of the price”(几乎在前沿,价格只是零头)。

六、结论与预判

DeepSeek V4的发布确认了三个趋势:

  1. 开源模型与闭源的差距已缩小到一代以内。 V4达到了GPT-5.4/Opus 4.6水平,而GPT-5.5/Opus 4.7仅领先半步。按照当前追赶速度,2026年底可能实现实质平价。

  2. MoE架构正在成为大模型的主流选择。 从DeepSeek V4到Kimi K2.6到腾讯混元Hy3,中国头部实验室不约而同选择了MoE。Dense架构在超大规模模型上的效率劣势已经无法忽视。

  3. 中国AI产业正在形成独立于美国技术栈的完整生态。 昇腾芯片 + DeepSeek模型 + OpenClaw框架,这条链路已经可以在完全脱钩的场景下运转。

大胆预测:2026年Q4,DeepSeek V5将首次在综合基准上超越同期的GPT和Claude最新版本。 开源模型的"追赶期"即将结束,“领先期"正在到来。


参考来源

  • Latent Space AINews:DeepSeek V4 Pro (1.6T-A49B) and Flash (284B-A13B)发布分析
  • Sebastian Raschka:From DeepSeek V3 to V3.2架构演进分析
  • Simon Willison:DeepSeek V4 - almost on the frontier, a fraction of the price
  • Hugging Face Blog:DeepSeek-V4: a million-token context that agents can actually use
  • TechNode:DeepSeek V4 report shows multiple R&D staff departures
  • TechNode:DeepSeek V4 becomes default model for OpenClaw
  • 极客公园:DeepSeek正式发布V4 API
  • Pandaily:HONOR Integrates DeepSeek-V4 into YOYO Assistant