Jiayun's Blog

探索与分享

Sebastian Raschka在2026年4月更新了他的标志性文章《The Big LLM Architecture Comparison》,加入了Gemma 4的分析。这篇文章已经覆盖了从GPT-2到最新模型的23种架构。与此同时,Simon Willison发现Qwen3.6-35B-A3B在他的笔记本上画的鹈鹕竟然比Claude Opus 4.7还好。

这两件事放在一起,传递了一个清晰的信号:开放权重模型不仅在追赶闭源模型,在某些维度上已经开始超越。

七年架构演进的关键跃迁

从2019年的GPT-2到2026年的Gemma 4,LLM架构经历了几次质的飞跃。让我用一张表来呈现这个演进脉络:

时代代表模型关键创新参数规模开放程度
2019-2020GPT-2, GPT-3自回归预训练 + 规模涌现1.5B-175BGPT-2开放/GPT-3闭源
2021-2022LLaMA, Chinchilla计算最优缩放 + 开放权重7B-65B开放权重先河
2023Llama 2, MistralGQA + 滑动窗口注意力7B-70B宽松许可证
2024Llama 3, DeepSeek V2MoE + MLA8B-671B完全开放
2025Qwen3, DeepSeek V3混合思考模式 + 稀疏注意力0.6B-671BApache 2.0
2026Gemma 4, gpt-oss, DeepSeek V3.2多模态原生 + Agent能力3B-120BApache 2.0

2026年的三大架构突破

1. 稀疏注意力的成熟:DeepSeek的贡献

Raschka对DeepSeek V3到V3.2的架构分析揭示了一个重要趋势:稀疏注意力从实验性特征变成了生产级必需品。

DeepSeek V3的Multi-head Latent Attention (MLA)将KV Cache压缩了数十倍,而V3.2进一步引入了稀疏注意力模式,让模型在处理超长上下文时的计算成本从O(n^2)趋近于O(n)。这不仅是效率的提升,更是让128K+上下文窗口在消费级硬件上成为可能。

Raschka在《A Visual Guide to Attention Variants in Modern LLMs》中系统梳理了从标准Multi-Head Attention到GQA、MQA、MLA的演进,结论很明确:注意力机制的创新是2024-2026年LLM性能提升的最大驱动力。

2. 混合推理模式:Qwen3的思考与回答

Qwen3引入的"思考模式"(thinking mode)是另一个影响深远的架构创新。模型可以在快速响应和深度推理之间动态切换,用户可以控制模型在回答前"思考"多久。

Raschka在《Understanding and Implementing Qwen3 From Scratch》中拆解了这个机制:本质上是在模型中内置了两种推理路径——一个轻量快速的"System 1"和一个慢速深度的"System 2"。这与Kahneman的双系统理论完美呼应。

更令人意外的是Qwen3.6-35B-A3B——一个在笔记本上就能运行的小模型。Simon Willison的测试显示它在某些创意任务上超越了Claude Opus 4.7。这说明MoE架构让小型激活参数模型达到了大型密集模型的质量,A3B意味着只有3B的激活参数,却拥有35B的总参数知识。

3. 多模态原生+Agent能力:Gemma 4的野心

Google的Gemma 4是第一个在Apache 2.0许可证下发布的、同时具备多模态理解和Agent能力的开放权重模型。InfoQ的报道强调了两个关键特性:

  • 多模态原生:不是在语言模型上"接"一个视觉编码器,而是从架构层面统一了文本和视觉的表征
  • Agentic能力内置:模型原生支持函数调用、工具使用和多步推理

NVIDIA迅速跟进,发布了在RTX GPU上加速Gemma 4的本地推理方案,让开发者可以在自己的硬件上运行具备Agent能力的模型。

OpenAI的开放转向:gpt-oss意味着什么

Raschka在《From GPT-2 to gpt-oss: Analyzing the Architectural Advances》中分析了OpenAI发布的gpt-oss-120b和gpt-oss-20b。这是OpenAI时隔多年后首次发布开放权重模型,其架构选择透露了重要信息:

  1. 采用了MoE架构,承认了社区在这个方向上的正确判断
  2. 保留了独有的推理增强技术,与开源版本形成差异化
  3. 选择了相对宽松的许可证,但仍不如Apache 2.0开放

这说明即使是最坚定的闭源倡导者也认识到:开放权重模型的生态效应太强大了,不参与就会被边缘化。

差距正在缩小,但方向不同

能力维度最强闭源模型最强开放权重模型差距评估
通用推理Claude Opus 4.7Qwen3-235B差距10-15%
代码生成Claude Opus 4.7DeepSeek Coder V3差距5-10%
多模态理解GPT-5Gemma 4差距15-20%
长上下文Claude (1M+)DeepSeek V3.2 (128K)差距明显
Agent能力Claude + ToolsGemma 4 + Tools差距20-25%
小模型效率Qwen3.6-35B-A3B开放模型领先

关键观察:闭源模型在绝对性能上仍然领先,但开放权重模型在效率和可定制性上建立了独特优势。 一个在笔记本上运行的3B激活参数模型能画出比旗舰闭源模型更好的鹈鹕——这本身就说明了问题。

我的判断

开放权重模型不需要在每个基准测试上超越闭源模型就能"赢"。 它们需要做到的是:

  1. 在足够多的实际使用场景中达到"够好"的水平
  2. 提供闭源模型不可能提供的定制化和隐私保护
  3. 让推理成本低到可以大规模部署

2026年的现实是,这三个条件正在同时被满足。DeepSeek V3.2的稀疏注意力让推理成本大幅下降,Qwen3的混合推理模式让小模型做到了大模型的效果,Gemma 4的Apache 2.0许可证消除了法律障碍。

我的预测:到2026年底,超过60%的生产级AI应用将运行在开放权重模型上。 不是因为它们更强,而是因为它们足够强、足够便宜、足够灵活。

对于开发者和企业来说,现在是认真评估开放权重模型的最佳时机。不是作为闭源模型的廉价替代品,而是作为一种根本不同的AI部署范式。


参考链接