Jiayun's Blog

探索与分享

2026 LLM架构演进全景:从注意力变体爆发到推理时扩展的新范式

七年过去,Transformer架构走向何方?从MoE到GQA,从gpt-oss到Gemma 4,深度解析大模型架构的技术演进与趋势判断

开放权重LLM架构演进全景:从GPT-2到Gemma 4的七年革命

深度梳理开放权重大模型的架构创新脉络,从稀疏注意力到混合推理模式,开源正在缩小与闭源模型的差距