Jiayun's Blog

探索与分享

【好文共赏】Needle：把 Gemini 3.1 蒸馏成 26M 参数的工具调用专家，并顺手把 Transformer 里的 FFN 全砍掉

Cactus Compute 用 200B token 训练了一个 26M 参数、无 FFN、encoder-decoder 的 Simple Attention Network，在手机上跑出 1200 tok/s 的工具调用速度，并把 Gemini 3.1 Flash-Lite 的能力压进一个能本地微调的小盒子里。

Posted by Jiayun's Blog on Thursday, May 14, 2026 00:00 UTC

2026 LLM架构演进全景：从注意力变体爆发到推理时扩展的新范式

七年过去，Transformer架构走向何方？从MoE到GQA，从gpt-oss到Gemma 4，深度解析大模型架构的技术演进与趋势判断

Posted by Jiayun's Blog on Sunday, April 19, 2026 00:00 UTC

开放权重LLM架构演进全景：从GPT-2到Gemma 4的七年革命

深度梳理开放权重大模型的架构创新脉络，从稀疏注意力到混合推理模式，开源正在缩小与闭源模型的差距

Posted by Jiayun's Blog on Sunday, April 19, 2026 00:00 UTC