七年之变:从GPT到gpt-oss
2018年,OpenAI发布了初代GPT。七年后的2026年,他们发布了gpt-oss-120b和gpt-oss-20b——自GPT-2以来的首个开源权重模型。
这七年间,大模型架构经历了什么?Sebastian Raschka在其持续更新的"The Big LLM Architecture Comparison"(最新更新于2026年4月2日,加入Gemma 4)中给出了一个全景式的回答。
乍看之下,变化不大——核心仍然是Transformer。但深入细节,你会发现一场静默的革命正在架构内部发生:注意力机制的变体爆炸、稀疏激活成为主流、推理时计算(inference-time compute)取代参数规模成为新的扩展维度。
本文将从三个层面拆解这场演进:注意力机制、模型整体架构、推理时扩展策略。
第一层:注意力机制的寒武纪大爆发
从MHA到百花齐放
Raschka在"A Visual Guide to Attention Variants in Modern LLMs"中系统梳理了现代LLM使用的注意力变体。这个领域的复杂度已经远超大多数工程师的认知。
标准多头注意力(MHA):原始Transformer的设计。每个注意力头都有独立的Query、Key、Value投影。简单优雅,但计算和内存成本随序列长度二次方增长。
多查询注意力(MQA):Google在PaLM中引入。所有注意力头共享一组Key和Value。大幅降低KV Cache内存占用,但牺牲了部分表达能力。
分组查询注意力(GQA):Llama 2引入的折中方案。将注意力头分成若干组,组内共享KV。在MHA和MQA之间找到了性能-效率平衡点。2025-2026年的事实标准。
多头潜在注意力(MLA):DeepSeek V2首创。将KV压缩到低维潜在空间,通过上投影恢复。在极端压缩比下保持了惊人的性能。
原生稀疏注意力(NSA):DeepSeek V3引入。通过学习的稀疏模式,只在最相关的位置计算注意力,而非全序列。
滑动窗口注意力(SWA):Mistral引入,Gemma系列广泛采用。不同层使用不同的窗口大小,底层捕获局部模式,顶层处理全局依赖。
一张对比表
| 注意力变体 | KV Cache大小 | 长上下文能力 | 代表模型 | 主要优势 |
|---|---|---|---|---|
| MHA | 最大 | 受限 | GPT-3, BERT | 表达能力强 |
| MQA | 最小 | 中等 | PaLM | 推理速度快 |
| GQA | 中等 | 好 | Llama 3, Qwen3 | 平衡 |
| MLA | 极小 | 优秀 | DeepSeek V2/V3 | 极致压缩 |
| NSA | 动态 | 优秀 | DeepSeek V3 | 长序列高效 |
| SWA | 小(分层) | 好 | Gemma 2/4, Mistral | 分层灵活 |
为什么这很重要?
注意力机制的选择直接决定了三个关键业务指标:
推理成本:KV Cache是LLM推理的主要内存瓶颈。MLA和NSA可以将KV Cache压缩10-20倍,意味着同样的GPU可以服务更多用户。
上下文长度:随着Agent和RAG应用的爆发,100K+的上下文窗口成为硬需求。传统MHA在超长序列上的二次方复杂度使其不可行。
首token延迟(TTFT):用户体验的关键指标。稀疏注意力和滑动窗口可以显著降低预填充阶段的计算量。
第二层:模型整体架构的趋势
MoE成为新常态
2026年最明显的架构趋势是Mixture of Experts(MoE,混合专家)的全面普及。
核心思想:不是让所有参数参与每次推理,而是用路由机制选择性激活一小部分"专家"子网络。这使得模型可以拥有巨大的总参数量(表达能力),但每次推理只消耗一小部分计算(效率)。
2026年的主要MoE模型:
- DeepSeek V3/V3.2:256个专家,每次激活8个。总参数约670B,活跃参数约37B
- Qwen3:128个专家的MoE版本,在开源社区广受欢迎
- gpt-oss-120b:OpenAI首个开源MoE模型,120B总参数
- Muse Spark:Meta超级智能实验室的首个前沿模型,基于全新MoE架构
Raschka在"10 Architectures from Jan-Feb 2026"中指出,这10个新架构中有7个采用了某种形式的MoE。密集模型(Dense)正在成为少数派。
gpt-oss:OpenAI的战略转向
gpt-oss的发布是2026年最具战略意义的事件之一。Raschka在"From GPT-2 to gpt-oss"中详细分析了架构演进:
从GPT-2到gpt-oss的核心变化:
- 注意力机制:从标准MHA到GQA
- 模型结构:从密集到MoE
- 位置编码:从学习式绝对位置编码到RoPE
- 归一化:从Post-Norm到Pre-Norm (RMSNorm)
- 激活函数:从GELU到SwiGLU
这些变化看起来"跟随"了开源社区(尤其是Llama系列)的技术路线,但OpenAI的独特贡献在于训练数据规模和RLHF/RLAIF后训练流程。
我的判断:gpt-oss的开源不是慈善行为。它是OpenAI应对Anthropic企业市场攻势(参见Stratechery对OpenAI内部备忘录的分析)和Meta/DeepSeek开源压力的战略回应。当你在企业API市场的增长面临挑战时,通过开源建立生态锁定是经典策略。
Gemma 4:Google的开源王牌
Raschka在4月2日更新的架构对比中加入了Gemma 4。这是Google DeepMind迄今最强的开源模型,首次在多个基准上超越了同规模的Llama和Qwen。
Gemma 4的架构亮点:
- 混合注意力策略:不同层使用不同的注意力变体(低层SWA + 高层GQA)
- 深度可扩展MoE:专家数量可以在微调阶段灵活调整
- 原生工具调用:架构层面内置了函数调用能力,而非后训练补丁
Machine Learning Mastery的"How to Implement Tool Calling with Gemma 4"详细展示了这一特性如何让开发者更容易构建Agent应用。
第三层:推理时扩展——新的scaling law
参数扩展遇到天花板
过去七年,大模型的进步主要靠"把模型做大"——从1.5B(GPT-2)到175B(GPT-3)到超过1T(据传的GPT-4)。但这条路正在撞墙:
- 能源约束:数据中心电力供应不足(Ars Technica报道了美国数据中心建设的大面积延迟)
- 内存瓶颈:全球DRAM供应紧张(The Verge报道RAM短缺可能持续到2027年)
- 收益递减:参数增加的边际收益在下降
推理时扩展的崛起
Raschka在"Categories of Inference-Time Scaling"中系统梳理了推理时扩展的四大类别:
类别一:Chain-of-Thought(思维链) 让模型"逐步思考"。从简单的"Let’s think step by step"到复杂的结构化推理模板。几乎零额外计算成本(只是更多输出token),但可以显著提升推理准确率。
类别二:Self-Consistency(自一致性) 对同一问题生成多个答案,通过投票选择最一致的结果。计算成本线性增长,但在数学和逻辑推理任务上效果显著。
类别三:Tree Search(树搜索) 将推理过程建模为搜索树,在关键决策点探索多个分支。这是O1/O3等"思考模型"的核心技术。计算成本可控(通过剪枝),性能提升最大。
类别四:Verifier-Guided(验证器引导) 训练专门的验证模型来评估推理步骤的正确性,引导主模型选择更好的推理路径。这是最前沿的方向,也是最计算密集的。
Lilian Weng(OpenAI)在"Why We Think"中从认知科学角度阐述了推理时计算的理论基础,将其与人类的System 2思维相类比——慢思考不是浪费,而是在困难问题上的必要投资。
推理时扩展的工程挑战
Machine Learning Mastery的"Inference Caching in LLMs"指出了一个实际问题:推理时扩展生成大量中间结果,这些结果的缓存和复用是降低成本的关键。
主流的缓存策略包括:
- 前缀缓存:相同前缀的请求共享KV Cache计算
- 语义缓存:相似问题复用之前的推理结果
- 分层缓存:高频推理模式缓存到内存,低频模式存储到SSD
Stratechery在"Mythos, Muse, and the Opportunity Cost of Compute"中提出了一个更宏观的问题:当推理时计算成为新的资源争夺战场,计算资源应该如何在训练和推理之间分配? 这不仅是技术问题,更是商业决策——更多推理计算意味着更高的单次查询成本,但也意味着更好的输出质量。
2026年的前沿模型图谱
Latent Space报道了几个关键的前沿模型动态:
Anthropic Claude Opus 4.7:“literally one step better than 4.6 in every dimension”。Anthropic采取了稳步迭代策略,每个版本在所有维度上均匀提升,而非追求单项突破。
Anthropic “Mythos”:Stratechery报道称Anthropic宣布其新模型"太危险而不能发布"。无论这是真实的安全考量还是营销策略,它标志着AI安全讨论进入了新阶段。
Meta Muse Spark:Meta超级智能实验室的首个前沿模型,基于全新的架构在他们自研的基础设施上训练。早期数字表明它具有竞争力。
OpenAI Frontier:Stratechery分析了OpenAI的企业战略,指出OpenAI正在构建一套完整的企业AI基础设施,不仅仅是API。
我的五个预判
预判一:2026年下半年将出现"混合注意力"架构。不再是全模型统一使用一种注意力机制,而是根据每一层的功能需求动态选择最优的注意力变体。Gemma 4的混合策略是先声。
预判二:MoE将分化为"细粒度专家"和"粗粒度专家"两个流派。DeepSeek路线(256个小专家)vs 传统路线(8-16个大专家),两者的性能-效率权衡曲线不同,适用场景也将不同。
预判三:推理时扩展将催生"推理即服务"(Reasoning-as-a-Service)的新商业模式。用户不再为模型参数付费,而是为推理深度付费。简单问题用浅推理(便宜),复杂问题用深推理(昂贵)。
预判四:开源模型与闭源模型的差距将缩小到"最后10%"。在80-90%的使用场景中,gpt-oss、Gemma 4、Qwen3等开源模型已经够用。闭源模型的护城河将收缩到最复杂的推理和多模态任务。
预判五:架构创新将从学术界转向工业界。过去一年最重要的架构创新(MLA、NSA、结构化输出原生支持)都来自企业研究团队。学术界缺乏训练大规模模型的资源,正在失去架构设计的话语权。
结语
七年前,Transformer论文的标题是"Attention Is All You Need"。七年后,我们发现注意力确实是我们所需要的——但我们需要的注意力远比当初想象的复杂和多样。
大模型架构的演进不是革命,而是精密的工程优化。每一个变体、每一个技术选择背后,都是性能、效率、成本的三角博弈。理解这些选择,是理解AI行业真正走向的关键。
参考来源
- Sebastian Raschka: The Big LLM Architecture Comparison (updated Apr 2, 2026)
- Sebastian Raschka: A Dream of Spring for Open-Weight LLMs: 10 Architectures
- Sebastian Raschka: From GPT-2 to gpt-oss
- Sebastian Raschka: A Visual Guide to Attention Variants
- Sebastian Raschka: Categories of Inference-Time Scaling
- Lilian Weng (OpenAI): Why We Think
- Latent Space: Anthropic Claude Opus 4.7
- Latent Space: Meta Muse Spark
- Stratechery: Anthropic’s New Model, The Mythos Wolf
- Stratechery: Mythos, Muse, and the Opportunity Cost of Compute
- Machine Learning Mastery: Inference Caching in LLMs
- Machine Learning Mastery: Tool Calling with Gemma 4