Sebastian Raschka在2026年4月更新了他的标志性文章《The Big LLM Architecture Comparison》,加入了Gemma 4的分析。这篇文章已经覆盖了从GPT-2到最新模型的23种架构。与此同时,Simon Willison发现Qwen3.6-35B-A3B在他的笔记本上画的鹈鹕竟然比Claude Opus 4.7还好。
这两件事放在一起,传递了一个清晰的信号:开放权重模型不仅在追赶闭源模型,在某些维度上已经开始超越。
七年架构演进的关键跃迁
从2019年的GPT-2到2026年的Gemma 4,LLM架构经历了几次质的飞跃。让我用一张表来呈现这个演进脉络:
| 时代 | 代表模型 | 关键创新 | 参数规模 | 开放程度 |
|---|---|---|---|---|
| 2019-2020 | GPT-2, GPT-3 | 自回归预训练 + 规模涌现 | 1.5B-175B | GPT-2开放/GPT-3闭源 |
| 2021-2022 | LLaMA, Chinchilla | 计算最优缩放 + 开放权重 | 7B-65B | 开放权重先河 |
| 2023 | Llama 2, Mistral | GQA + 滑动窗口注意力 | 7B-70B | 宽松许可证 |
| 2024 | Llama 3, DeepSeek V2 | MoE + MLA | 8B-671B | 完全开放 |
| 2025 | Qwen3, DeepSeek V3 | 混合思考模式 + 稀疏注意力 | 0.6B-671B | Apache 2.0 |
| 2026 | Gemma 4, gpt-oss, DeepSeek V3.2 | 多模态原生 + Agent能力 | 3B-120B | Apache 2.0 |
2026年的三大架构突破
1. 稀疏注意力的成熟:DeepSeek的贡献
Raschka对DeepSeek V3到V3.2的架构分析揭示了一个重要趋势:稀疏注意力从实验性特征变成了生产级必需品。
DeepSeek V3的Multi-head Latent Attention (MLA)将KV Cache压缩了数十倍,而V3.2进一步引入了稀疏注意力模式,让模型在处理超长上下文时的计算成本从O(n^2)趋近于O(n)。这不仅是效率的提升,更是让128K+上下文窗口在消费级硬件上成为可能。
Raschka在《A Visual Guide to Attention Variants in Modern LLMs》中系统梳理了从标准Multi-Head Attention到GQA、MQA、MLA的演进,结论很明确:注意力机制的创新是2024-2026年LLM性能提升的最大驱动力。
2. 混合推理模式:Qwen3的思考与回答
Qwen3引入的"思考模式"(thinking mode)是另一个影响深远的架构创新。模型可以在快速响应和深度推理之间动态切换,用户可以控制模型在回答前"思考"多久。
Raschka在《Understanding and Implementing Qwen3 From Scratch》中拆解了这个机制:本质上是在模型中内置了两种推理路径——一个轻量快速的"System 1"和一个慢速深度的"System 2"。这与Kahneman的双系统理论完美呼应。
更令人意外的是Qwen3.6-35B-A3B——一个在笔记本上就能运行的小模型。Simon Willison的测试显示它在某些创意任务上超越了Claude Opus 4.7。这说明MoE架构让小型激活参数模型达到了大型密集模型的质量,A3B意味着只有3B的激活参数,却拥有35B的总参数知识。
3. 多模态原生+Agent能力:Gemma 4的野心
Google的Gemma 4是第一个在Apache 2.0许可证下发布的、同时具备多模态理解和Agent能力的开放权重模型。InfoQ的报道强调了两个关键特性:
- 多模态原生:不是在语言模型上"接"一个视觉编码器,而是从架构层面统一了文本和视觉的表征
- Agentic能力内置:模型原生支持函数调用、工具使用和多步推理
NVIDIA迅速跟进,发布了在RTX GPU上加速Gemma 4的本地推理方案,让开发者可以在自己的硬件上运行具备Agent能力的模型。
OpenAI的开放转向:gpt-oss意味着什么
Raschka在《From GPT-2 to gpt-oss: Analyzing the Architectural Advances》中分析了OpenAI发布的gpt-oss-120b和gpt-oss-20b。这是OpenAI时隔多年后首次发布开放权重模型,其架构选择透露了重要信息:
- 采用了MoE架构,承认了社区在这个方向上的正确判断
- 保留了独有的推理增强技术,与开源版本形成差异化
- 选择了相对宽松的许可证,但仍不如Apache 2.0开放
这说明即使是最坚定的闭源倡导者也认识到:开放权重模型的生态效应太强大了,不参与就会被边缘化。
差距正在缩小,但方向不同
| 能力维度 | 最强闭源模型 | 最强开放权重模型 | 差距评估 |
|---|---|---|---|
| 通用推理 | Claude Opus 4.7 | Qwen3-235B | 差距10-15% |
| 代码生成 | Claude Opus 4.7 | DeepSeek Coder V3 | 差距5-10% |
| 多模态理解 | GPT-5 | Gemma 4 | 差距15-20% |
| 长上下文 | Claude (1M+) | DeepSeek V3.2 (128K) | 差距明显 |
| Agent能力 | Claude + Tools | Gemma 4 + Tools | 差距20-25% |
| 小模型效率 | — | Qwen3.6-35B-A3B | 开放模型领先 |
关键观察:闭源模型在绝对性能上仍然领先,但开放权重模型在效率和可定制性上建立了独特优势。 一个在笔记本上运行的3B激活参数模型能画出比旗舰闭源模型更好的鹈鹕——这本身就说明了问题。
我的判断
开放权重模型不需要在每个基准测试上超越闭源模型就能"赢"。 它们需要做到的是:
- 在足够多的实际使用场景中达到"够好"的水平
- 提供闭源模型不可能提供的定制化和隐私保护
- 让推理成本低到可以大规模部署
2026年的现实是,这三个条件正在同时被满足。DeepSeek V3.2的稀疏注意力让推理成本大幅下降,Qwen3的混合推理模式让小模型做到了大模型的效果,Gemma 4的Apache 2.0许可证消除了法律障碍。
我的预测:到2026年底,超过60%的生产级AI应用将运行在开放权重模型上。 不是因为它们更强,而是因为它们足够强、足够便宜、足够灵活。
对于开发者和企业来说,现在是认真评估开放权重模型的最佳时机。不是作为闭源模型的廉价替代品,而是作为一种根本不同的AI部署范式。
参考链接
- Sebastian Raschka: The Big LLM Architecture Comparison (Apr 2026)
- Sebastian Raschka: A Dream of Spring for Open-Weight LLMs
- Sebastian Raschka: From GPT-2 to gpt-oss
- Sebastian Raschka: Understanding and Implementing Qwen3 From Scratch
- Sebastian Raschka: From DeepSeek V3 to V3.2
- Sebastian Raschka: A Visual Guide to Attention Variants
- InfoQ: Google Opens Gemma 4 Under Apache 2.0
- NVIDIA: Accelerates Gemma 4 for Local Agentic AI
- Simon Willison: Qwen3.6-35B-A3B drew better pelican than Claude Opus 4.7