<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Transformer on Jiayun's Blog</title><link>https://xiejiayun.github.io/tags/transformer/</link><description>Recent content in Transformer on Jiayun's Blog</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Mon, 18 May 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://xiejiayun.github.io/tags/transformer/index.xml" rel="self" type="application/rss+xml"/><item><title>【论文导读】RoPE 在长上下文里既不能区分位置、也不能区分 token：UIUC + Amazon AGI 给现代 LLM 写的一份『出生缺陷诊断书』</title><link>https://xiejiayun.github.io/post/paper-2605.15514/</link><pubDate>Mon, 18 May 2026 00:00:00 +0000</pubDate><guid>https://xiejiayun.github.io/post/paper-2605.15514/</guid><description>&lt;blockquote>
&lt;p>📌 &lt;strong>好文共赏 · 论文导读 | Paper Pick&lt;/strong>&lt;/p>
&lt;p>📄 论文：&lt;a href="https://arxiv.org/abs/2605.15514">RoPE Distinguishes Neither Positions Nor Tokens in Long Contexts, Provably&lt;/a> · arXiv &lt;strong>2605.15514&lt;/strong>
👥 作者：Yufeng Du, Phillip Harris, Minyang Tian, Eliu A. Huerta, Srikanth Ronanki, Subendhu Rongali, Aram Galstyan, Hao Peng（UIUC × Bonn × Argonne × Amazon AGI）
📅 发布：2026-05-15 | 多模评分：综合 &lt;strong>8.67 / 10&lt;/strong>（Opus 9.0 · Sonnet-equiv 8.5 · Gemini-equiv 8.5）
✍️ 一句话：把 RoPE 的注意力分数建模为正态随机变量后，证明出 4 个失败模式的失败概率都趋近 0.5；这是一份&lt;strong>给 Llama / Qwen / DeepSeek / Kimi / gpt-oss 全部 RoPE-based 长上下文模型写的诊断书&lt;/strong>——『128K 上下文』作为广告词的可信度，正在被这篇论文从理论侧拆穿。&lt;/p></description></item><item><title>【好文共赏】Needle：把 Gemini 3.1 蒸馏成 26M 参数的工具调用专家，并顺手把 Transformer 里的 FFN 全砍掉</title><link>https://xiejiayun.github.io/post/good-read-needle-simple-attention-networks/</link><pubDate>Thu, 14 May 2026 00:00:00 +0000</pubDate><guid>https://xiejiayun.github.io/post/good-read-needle-simple-attention-networks/</guid><description>&lt;blockquote>
&lt;p>📌 &lt;strong>好文共赏 | Editor&amp;rsquo;s Pick&lt;/strong>
原文：&lt;a href="https://github.com/cactus-compute/needle/blob/main/docs/simple_attention_networks.md">Needle / Simple Attention Networks&lt;/a> | 作者：Henry Ndubuaku 等（Cactus Compute）| 发布：2026-05-12 | 阅读时长：约 25 分钟（含代码）
多模评分：Opus 9.3 / Sonnet 9.0 / Gemini 9.1 — 综合 &lt;strong>9.1 / 10&lt;/strong>
一句话推荐：当一家初创公司花 27 小时 TPU 时间训练出一个能跑赢 FunctionGemma-270M、Qwen-0.6B 的 26M 模型，并顺手证明&amp;quot;Transformer 里那 2/3 的 FFN 参数对外部知识任务可能是浪费的&amp;quot;，整个 on-device AI 路线图都需要重新画一遍。&lt;/p></description></item><item><title>2026 LLM架构演进全景：从注意力变体爆发到推理时扩展的新范式</title><link>https://xiejiayun.github.io/post/llm-architecture-evolution-2026/</link><pubDate>Sun, 19 Apr 2026 00:00:00 +0000</pubDate><guid>https://xiejiayun.github.io/post/llm-architecture-evolution-2026/</guid><description>&lt;h2 id="七年之变从gpt到gpt-oss">七年之变：从GPT到gpt-oss&lt;/h2>
&lt;p>2018年，OpenAI发布了初代GPT。七年后的2026年，他们发布了gpt-oss-120b和gpt-oss-20b——自GPT-2以来的首个开源权重模型。&lt;/p></description></item></channel></rss>