Jiayun's Blog

探索与分享

七年之变:从GPT到gpt-oss

2018年,OpenAI发布了初代GPT。七年后的2026年,他们发布了gpt-oss-120b和gpt-oss-20b——自GPT-2以来的首个开源权重模型。

这七年间,大模型架构经历了什么?Sebastian Raschka在其持续更新的"The Big LLM Architecture Comparison"(最新更新于2026年4月2日,加入Gemma 4)中给出了一个全景式的回答。

乍看之下,变化不大——核心仍然是Transformer。但深入细节,你会发现一场静默的革命正在架构内部发生:注意力机制的变体爆炸、稀疏激活成为主流、推理时计算(inference-time compute)取代参数规模成为新的扩展维度。

本文将从三个层面拆解这场演进:注意力机制、模型整体架构、推理时扩展策略。

第一层:注意力机制的寒武纪大爆发

从MHA到百花齐放

Raschka在"A Visual Guide to Attention Variants in Modern LLMs"中系统梳理了现代LLM使用的注意力变体。这个领域的复杂度已经远超大多数工程师的认知。

标准多头注意力(MHA):原始Transformer的设计。每个注意力头都有独立的Query、Key、Value投影。简单优雅,但计算和内存成本随序列长度二次方增长。

多查询注意力(MQA):Google在PaLM中引入。所有注意力头共享一组Key和Value。大幅降低KV Cache内存占用,但牺牲了部分表达能力。

分组查询注意力(GQA):Llama 2引入的折中方案。将注意力头分成若干组,组内共享KV。在MHA和MQA之间找到了性能-效率平衡点。2025-2026年的事实标准。

多头潜在注意力(MLA):DeepSeek V2首创。将KV压缩到低维潜在空间,通过上投影恢复。在极端压缩比下保持了惊人的性能。

原生稀疏注意力(NSA):DeepSeek V3引入。通过学习的稀疏模式,只在最相关的位置计算注意力,而非全序列。

滑动窗口注意力(SWA):Mistral引入,Gemma系列广泛采用。不同层使用不同的窗口大小,底层捕获局部模式,顶层处理全局依赖。

一张对比表

注意力变体KV Cache大小长上下文能力代表模型主要优势
MHA最大受限GPT-3, BERT表达能力强
MQA最小中等PaLM推理速度快
GQA中等Llama 3, Qwen3平衡
MLA极小优秀DeepSeek V2/V3极致压缩
NSA动态优秀DeepSeek V3长序列高效
SWA小(分层)Gemma 2/4, Mistral分层灵活

为什么这很重要?

注意力机制的选择直接决定了三个关键业务指标:

  1. 推理成本:KV Cache是LLM推理的主要内存瓶颈。MLA和NSA可以将KV Cache压缩10-20倍,意味着同样的GPU可以服务更多用户。

  2. 上下文长度:随着Agent和RAG应用的爆发,100K+的上下文窗口成为硬需求。传统MHA在超长序列上的二次方复杂度使其不可行。

  3. 首token延迟(TTFT):用户体验的关键指标。稀疏注意力和滑动窗口可以显著降低预填充阶段的计算量。

第二层:模型整体架构的趋势

MoE成为新常态

2026年最明显的架构趋势是Mixture of Experts(MoE,混合专家)的全面普及。

核心思想:不是让所有参数参与每次推理,而是用路由机制选择性激活一小部分"专家"子网络。这使得模型可以拥有巨大的总参数量(表达能力),但每次推理只消耗一小部分计算(效率)。

2026年的主要MoE模型:

  • DeepSeek V3/V3.2:256个专家,每次激活8个。总参数约670B,活跃参数约37B
  • Qwen3:128个专家的MoE版本,在开源社区广受欢迎
  • gpt-oss-120b:OpenAI首个开源MoE模型,120B总参数
  • Muse Spark:Meta超级智能实验室的首个前沿模型,基于全新MoE架构

Raschka在"10 Architectures from Jan-Feb 2026"中指出,这10个新架构中有7个采用了某种形式的MoE。密集模型(Dense)正在成为少数派。

gpt-oss:OpenAI的战略转向

gpt-oss的发布是2026年最具战略意义的事件之一。Raschka在"From GPT-2 to gpt-oss"中详细分析了架构演进:

从GPT-2到gpt-oss的核心变化:

  1. 注意力机制:从标准MHA到GQA
  2. 模型结构:从密集到MoE
  3. 位置编码:从学习式绝对位置编码到RoPE
  4. 归一化:从Post-Norm到Pre-Norm (RMSNorm)
  5. 激活函数:从GELU到SwiGLU

这些变化看起来"跟随"了开源社区(尤其是Llama系列)的技术路线,但OpenAI的独特贡献在于训练数据规模和RLHF/RLAIF后训练流程。

我的判断:gpt-oss的开源不是慈善行为。它是OpenAI应对Anthropic企业市场攻势(参见Stratechery对OpenAI内部备忘录的分析)和Meta/DeepSeek开源压力的战略回应。当你在企业API市场的增长面临挑战时,通过开源建立生态锁定是经典策略。

Gemma 4:Google的开源王牌

Raschka在4月2日更新的架构对比中加入了Gemma 4。这是Google DeepMind迄今最强的开源模型,首次在多个基准上超越了同规模的Llama和Qwen。

Gemma 4的架构亮点:

  • 混合注意力策略:不同层使用不同的注意力变体(低层SWA + 高层GQA)
  • 深度可扩展MoE:专家数量可以在微调阶段灵活调整
  • 原生工具调用:架构层面内置了函数调用能力,而非后训练补丁

Machine Learning Mastery的"How to Implement Tool Calling with Gemma 4"详细展示了这一特性如何让开发者更容易构建Agent应用。

第三层:推理时扩展——新的scaling law

参数扩展遇到天花板

过去七年,大模型的进步主要靠"把模型做大"——从1.5B(GPT-2)到175B(GPT-3)到超过1T(据传的GPT-4)。但这条路正在撞墙:

  • 能源约束:数据中心电力供应不足(Ars Technica报道了美国数据中心建设的大面积延迟)
  • 内存瓶颈:全球DRAM供应紧张(The Verge报道RAM短缺可能持续到2027年)
  • 收益递减:参数增加的边际收益在下降

推理时扩展的崛起

Raschka在"Categories of Inference-Time Scaling"中系统梳理了推理时扩展的四大类别:

类别一:Chain-of-Thought(思维链) 让模型"逐步思考"。从简单的"Let’s think step by step"到复杂的结构化推理模板。几乎零额外计算成本(只是更多输出token),但可以显著提升推理准确率。

类别二:Self-Consistency(自一致性) 对同一问题生成多个答案,通过投票选择最一致的结果。计算成本线性增长,但在数学和逻辑推理任务上效果显著。

类别三:Tree Search(树搜索) 将推理过程建模为搜索树,在关键决策点探索多个分支。这是O1/O3等"思考模型"的核心技术。计算成本可控(通过剪枝),性能提升最大。

类别四:Verifier-Guided(验证器引导) 训练专门的验证模型来评估推理步骤的正确性,引导主模型选择更好的推理路径。这是最前沿的方向,也是最计算密集的。

Lilian Weng(OpenAI)在"Why We Think"中从认知科学角度阐述了推理时计算的理论基础,将其与人类的System 2思维相类比——慢思考不是浪费,而是在困难问题上的必要投资

推理时扩展的工程挑战

Machine Learning Mastery的"Inference Caching in LLMs"指出了一个实际问题:推理时扩展生成大量中间结果,这些结果的缓存和复用是降低成本的关键。

主流的缓存策略包括:

  1. 前缀缓存:相同前缀的请求共享KV Cache计算
  2. 语义缓存:相似问题复用之前的推理结果
  3. 分层缓存:高频推理模式缓存到内存,低频模式存储到SSD

Stratechery在"Mythos, Muse, and the Opportunity Cost of Compute"中提出了一个更宏观的问题:当推理时计算成为新的资源争夺战场,计算资源应该如何在训练和推理之间分配? 这不仅是技术问题,更是商业决策——更多推理计算意味着更高的单次查询成本,但也意味着更好的输出质量。

2026年的前沿模型图谱

Latent Space报道了几个关键的前沿模型动态:

Anthropic Claude Opus 4.7:“literally one step better than 4.6 in every dimension”。Anthropic采取了稳步迭代策略,每个版本在所有维度上均匀提升,而非追求单项突破。

Anthropic “Mythos”:Stratechery报道称Anthropic宣布其新模型"太危险而不能发布"。无论这是真实的安全考量还是营销策略,它标志着AI安全讨论进入了新阶段。

Meta Muse Spark:Meta超级智能实验室的首个前沿模型,基于全新的架构在他们自研的基础设施上训练。早期数字表明它具有竞争力。

OpenAI Frontier:Stratechery分析了OpenAI的企业战略,指出OpenAI正在构建一套完整的企业AI基础设施,不仅仅是API。

我的五个预判

预判一:2026年下半年将出现"混合注意力"架构。不再是全模型统一使用一种注意力机制,而是根据每一层的功能需求动态选择最优的注意力变体。Gemma 4的混合策略是先声。

预判二:MoE将分化为"细粒度专家"和"粗粒度专家"两个流派。DeepSeek路线(256个小专家)vs 传统路线(8-16个大专家),两者的性能-效率权衡曲线不同,适用场景也将不同。

预判三:推理时扩展将催生"推理即服务"(Reasoning-as-a-Service)的新商业模式。用户不再为模型参数付费,而是为推理深度付费。简单问题用浅推理(便宜),复杂问题用深推理(昂贵)。

预判四:开源模型与闭源模型的差距将缩小到"最后10%"。在80-90%的使用场景中,gpt-oss、Gemma 4、Qwen3等开源模型已经够用。闭源模型的护城河将收缩到最复杂的推理和多模态任务。

预判五:架构创新将从学术界转向工业界。过去一年最重要的架构创新(MLA、NSA、结构化输出原生支持)都来自企业研究团队。学术界缺乏训练大规模模型的资源,正在失去架构设计的话语权。

结语

七年前,Transformer论文的标题是"Attention Is All You Need"。七年后,我们发现注意力确实是我们所需要的——但我们需要的注意力远比当初想象的复杂和多样。

大模型架构的演进不是革命,而是精密的工程优化。每一个变体、每一个技术选择背后,都是性能、效率、成本的三角博弈。理解这些选择,是理解AI行业真正走向的关键。


参考来源