开放权重LLM架构演进全景：从GPT-2到Gemma 4的七年革命

Sebastian Raschka在2026年4月更新了他的标志性文章《The Big LLM Architecture Comparison》，加入了Gemma 4的分析。这篇文章已经覆盖了从GPT-2到最新模型的23种架构。与此同时，Simon Willison发现Qwen3.6-35B-A3B在他的笔记本上画的鹈鹕竟然比Claude Opus 4.7还好。

这两件事放在一起，传递了一个清晰的信号：开放权重模型不仅在追赶闭源模型，在某些维度上已经开始超越。

七年架构演进的关键跃迁

从2019年的GPT-2到2026年的Gemma 4，LLM架构经历了几次质的飞跃。让我用一张表来呈现这个演进脉络：

时代	代表模型	关键创新	参数规模	开放程度
2019-2020	GPT-2, GPT-3	自回归预训练 + 规模涌现	1.5B-175B	GPT-2开放/GPT-3闭源
2021-2022	LLaMA, Chinchilla	计算最优缩放 + 开放权重	7B-65B	开放权重先河
2023	Llama 2, Mistral	GQA + 滑动窗口注意力	7B-70B	宽松许可证
2024	Llama 3, DeepSeek V2	MoE + MLA	8B-671B	完全开放
2025	Qwen3, DeepSeek V3	混合思考模式 + 稀疏注意力	0.6B-671B	Apache 2.0
2026	Gemma 4, gpt-oss, DeepSeek V3.2	多模态原生 + Agent能力	3B-120B	Apache 2.0

2026年的三大架构突破

1. 稀疏注意力的成熟：DeepSeek的贡献

Raschka对DeepSeek V3到V3.2的架构分析揭示了一个重要趋势：稀疏注意力从实验性特征变成了生产级必需品。

DeepSeek V3的Multi-head Latent Attention (MLA)将KV Cache压缩了数十倍，而V3.2进一步引入了稀疏注意力模式，让模型在处理超长上下文时的计算成本从O(n^2)趋近于O(n)。这不仅是效率的提升，更是让128K+上下文窗口在消费级硬件上成为可能。

Raschka在《A Visual Guide to Attention Variants in Modern LLMs》中系统梳理了从标准Multi-Head Attention到GQA、MQA、MLA的演进，结论很明确：注意力机制的创新是2024-2026年LLM性能提升的最大驱动力。

2. 混合推理模式：Qwen3的思考与回答

Qwen3引入的"思考模式"（thinking mode）是另一个影响深远的架构创新。模型可以在快速响应和深度推理之间动态切换，用户可以控制模型在回答前"思考"多久。

Raschka在《Understanding and Implementing Qwen3 From Scratch》中拆解了这个机制：本质上是在模型中内置了两种推理路径——一个轻量快速的"System 1"和一个慢速深度的"System 2"。这与Kahneman的双系统理论完美呼应。

更令人意外的是Qwen3.6-35B-A3B——一个在笔记本上就能运行的小模型。Simon Willison的测试显示它在某些创意任务上超越了Claude Opus 4.7。这说明MoE架构让小型激活参数模型达到了大型密集模型的质量，A3B意味着只有3B的激活参数，却拥有35B的总参数知识。

3. 多模态原生+Agent能力：Gemma 4的野心

Google的Gemma 4是第一个在Apache 2.0许可证下发布的、同时具备多模态理解和Agent能力的开放权重模型。InfoQ的报道强调了两个关键特性：

多模态原生：不是在语言模型上"接"一个视觉编码器，而是从架构层面统一了文本和视觉的表征
Agentic能力内置：模型原生支持函数调用、工具使用和多步推理

NVIDIA迅速跟进，发布了在RTX GPU上加速Gemma 4的本地推理方案，让开发者可以在自己的硬件上运行具备Agent能力的模型。

OpenAI的开放转向：gpt-oss意味着什么

Raschka在《From GPT-2 to gpt-oss: Analyzing the Architectural Advances》中分析了OpenAI发布的gpt-oss-120b和gpt-oss-20b。这是OpenAI时隔多年后首次发布开放权重模型，其架构选择透露了重要信息：

采用了MoE架构，承认了社区在这个方向上的正确判断
保留了独有的推理增强技术，与开源版本形成差异化
选择了相对宽松的许可证，但仍不如Apache 2.0开放

这说明即使是最坚定的闭源倡导者也认识到：开放权重模型的生态效应太强大了，不参与就会被边缘化。

差距正在缩小，但方向不同

能力维度	最强闭源模型	最强开放权重模型	差距评估
通用推理	Claude Opus 4.7	Qwen3-235B	差距10-15%
代码生成	Claude Opus 4.7	DeepSeek Coder V3	差距5-10%
多模态理解	GPT-5	Gemma 4	差距15-20%
长上下文	Claude (1M+)	DeepSeek V3.2 (128K)	差距明显
Agent能力	Claude + Tools	Gemma 4 + Tools	差距20-25%
小模型效率	—	Qwen3.6-35B-A3B	开放模型领先

关键观察：闭源模型在绝对性能上仍然领先，但开放权重模型在效率和可定制性上建立了独特优势。 一个在笔记本上运行的3B激活参数模型能画出比旗舰闭源模型更好的鹈鹕——这本身就说明了问题。

我的判断

开放权重模型不需要在每个基准测试上超越闭源模型就能"赢"。 它们需要做到的是：

在足够多的实际使用场景中达到"够好"的水平
提供闭源模型不可能提供的定制化和隐私保护
让推理成本低到可以大规模部署

2026年的现实是，这三个条件正在同时被满足。DeepSeek V3.2的稀疏注意力让推理成本大幅下降，Qwen3的混合推理模式让小模型做到了大模型的效果，Gemma 4的Apache 2.0许可证消除了法律障碍。

我的预测：到2026年底，超过60%的生产级AI应用将运行在开放权重模型上。 不是因为它们更强，而是因为它们足够强、足够便宜、足够灵活。

对于开发者和企业来说，现在是认真评估开放权重模型的最佳时机。不是作为闭源模型的廉价替代品，而是作为一种根本不同的AI部署范式。

Jiayun's Blog