Jiayun's Blog

探索与分享

一周内,四个范式同时移动

2026年4月的第三周可能是AI历史上最密集的一周:Google发布了Gemma 4(开源模型的新标杆)、Anthropic推出Claude Opus 4.7(闭源模型的稳步迭代)、OpenAI发布GPT-Rosalind(垂直领域的新物种)、Meta的Muse Spark首次亮相(全新架构栈的第一个产品)。

与此同时,OpenClaw——“史上增长最快的开源项目”——正经历一场安全危机。

这不只是产品发布的堆叠,它们反映的是前沿AI竞争的四条截然不同的路径

Claude Opus 4.7:对数级进步的冷酷现实

Latent Space的标题一针见血:“literally one step better than 4.6 in every dimension”。关键图表显示:

  • Opus 4.7-low 严格优于 Opus 4.6-medium
  • Opus 4.7-medium 严格优于 Opus 4.6-high

这种"阶梯式超越"意味着每个新版本都在所有维度上统一提升,而非在某些任务上进步、另一些上退步。这在工程上极难实现,说明Anthropic的训练流程已经高度成熟。

但冷酷的现实是:进步是对数级的。从GPT-3到GPT-4的跨越让人震撼,但从Opus 4.6到4.7的提升需要仔细看图表才能感知。用户体验的边际改善在递减。

Gemma 4:开源模型的"足够好"时刻

Google DeepMind发布的Gemma 4被定位为"byte for byte最强开源模型",专为推理和Agent工作流设计。在发布后数周内即突破200万次下载。

这标志着开源模型到达了一个关键门槛——对大多数应用场景"足够好"

指标Gemma 4 (开源)Opus 4.7 (闭源)差距
通用推理85-90%基线100%10-15%
代码生成80-85%基线100%15-20%
Agent工具调用90%+基线100%<10%
部署成本自托管,边际成本低API定价10x+ 差距
数据隐私完全本地云端处理质的区别

对于不需要最后那10-15%能力的场景——也就是绝大多数商业应用——Gemma 4已经是经济理性的选择。

GPT-Rosalind:垂直AI模型是新前沿

OpenAI的GPT-Rosalind标志着一个战略转向:从"一个模型统治一切"走向垂直领域的专精模型

Rosalind专为生命科学设计——药物发现、基因组分析、蛋白质推理、科学研究工作流。这不是简单的prompt调优或微调,而是在预训练阶段就融入了生物学领域知识的原生推理模型

同期,OpenAI还发布了新版Codex——加入了Computer Use(计算机操作)、浏览器集成、图像生成、记忆和插件系统。如果说Rosalind代表垂直深度,新Codex代表开发者工具的全栈整合

这揭示了OpenAI的双轨战略:

  • 横向:通过Codex成为开发者的操作系统
  • 纵向:通过Rosalind等垂直模型切入高价值行业

OpenClaw的安全危机:开源的阿喀琉斯之踵

OpenClaw的故事是2026年最具戏剧性的科技叙事之一。在TED舞台上,它被讲述为一个鼓舞人心的开源奇迹;在AI Engineer大会上,真实的画面要灰暗得多:

  • 安全报告是curl的60倍(curl是互联网基础设施级项目)
  • 至少20%的skill贡献是恶意的
  • 维护规模远超任何历史上的开源项目

这与arXiv上"Subliminal Transfer of Unsafe Behaviors"的研究形成呼应——恶意行为可以通过看似无害的贡献隐性注入到AI系统中。当开源AI项目的规模增长到OpenClaw这个级别,传统的代码审查机制完全无法应对。

LLM推理的本质:不在Chain of Thought中

在模型层面,两篇新论文动摇了我们对LLM推理的基本理解:

“LLM Reasoning Is Latent, Not the Chain of Thought” 主张:LLM的真正推理发生在隐状态轨迹中,而非我们看到的Chain of Thought输出。CoT更像是推理的"副产品"而非推理本身。这对可解释性和对齐研究有深远影响。

“Hallucination as Trajectory Commitment” 则发现:幻觉是一种早期轨迹承诺,由Transformer生成过程中的不对称吸引子动力学驱动。在同一prompt的反复采样中,44.3%的prompt会分岔出事实和幻觉两条轨迹。

这两篇论文合在一起的含义是:我们既不理解模型为什么推理正确,也不理解它为什么推理错误。 这对"通过提升模型能力来解决幻觉"的路线图提出了根本质疑。

Meta Muse Spark:全新架构栈的第一步

Meta Superintelligence Labs的Muse Spark虽然初始数据有限,但其意义在于:这是Meta在完全全新的架构栈上构建的第一个前沿模型。这意味着Meta放弃了在LLaMA架构上继续迭代的路线,从底层重新设计。

这是一个高风险的赌注,但如果成功,可能打破当前所有模型都基于类似Transformer变体的同质化格局。

我的预判

  1. 2026下半年:Gemma 4级别的开源模型将满足80%+的商业AI应用需求,闭源API的增长开始放缓
  2. 垂直模型爆发:GPT-Rosalind之后,2026年底将出现至少5个领域专精模型(法律、金融、材料科学等)
  3. OpenClaw的分岔点:要么发展出AI驱动的安全审查体系,要么因安全事故导致信任崩溃
  4. 最大的未知:如果Meta的全新架构真的带来了质的突破,2027年的模型格局可能完全重洗

最尖锐的观点: 前沿模型的"通用能力竞赛"正在走入收益递减。真正的价值不再是"谁的benchmark分数高0.5%",而是谁能更快地将AI能力转化为特定领域的商业价值。GPT-Rosalind比Opus 4.7对行业的实际影响可能更大——因为它不是做所有事好一点,而是做一件事好很多。


参考链接