<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>长上下文 on Jiayun's Blog</title><link>https://xiejiayun.github.io/tags/%E9%95%BF%E4%B8%8A%E4%B8%8B%E6%96%87/</link><description>Recent content in 长上下文 on Jiayun's Blog</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Mon, 18 May 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://xiejiayun.github.io/tags/%E9%95%BF%E4%B8%8A%E4%B8%8B%E6%96%87/index.xml" rel="self" type="application/rss+xml"/><item><title>【论文导读】RoPE 在长上下文里既不能区分位置、也不能区分 token：UIUC + Amazon AGI 给现代 LLM 写的一份『出生缺陷诊断书』</title><link>https://xiejiayun.github.io/post/paper-2605.15514/</link><pubDate>Mon, 18 May 2026 00:00:00 +0000</pubDate><guid>https://xiejiayun.github.io/post/paper-2605.15514/</guid><description>&lt;blockquote>
&lt;p>📌 &lt;strong>好文共赏 · 论文导读 | Paper Pick&lt;/strong>&lt;/p>
&lt;p>📄 论文：&lt;a href="https://arxiv.org/abs/2605.15514">RoPE Distinguishes Neither Positions Nor Tokens in Long Contexts, Provably&lt;/a> · arXiv &lt;strong>2605.15514&lt;/strong>
👥 作者：Yufeng Du, Phillip Harris, Minyang Tian, Eliu A. Huerta, Srikanth Ronanki, Subendhu Rongali, Aram Galstyan, Hao Peng（UIUC × Bonn × Argonne × Amazon AGI）
📅 发布：2026-05-15 | 多模评分：综合 &lt;strong>8.67 / 10&lt;/strong>（Opus 9.0 · Sonnet-equiv 8.5 · Gemini-equiv 8.5）
✍️ 一句话：把 RoPE 的注意力分数建模为正态随机变量后，证明出 4 个失败模式的失败概率都趋近 0.5；这是一份&lt;strong>给 Llama / Qwen / DeepSeek / Kimi / gpt-oss 全部 RoPE-based 长上下文模型写的诊断书&lt;/strong>——『128K 上下文』作为广告词的可信度，正在被这篇论文从理论侧拆穿。&lt;/p></description></item><item><title>【论文导读】证明思维链的价值：一份关于「为什么 O(log n) 推理能顶 Ω(n) 上下文」的硬核数学</title><link>https://xiejiayun.github.io/post/paper-2605.13687/</link><pubDate>Mon, 18 May 2026 00:00:00 +0000</pubDate><guid>https://xiejiayun.github.io/post/paper-2605.13687/</guid><description>&lt;blockquote>
&lt;p>📌 &lt;strong>好文共赏 · 论文导读 | Paper Pick&lt;/strong>&lt;/p>
&lt;p>📄 论文：&lt;a href="https://arxiv.org/abs/2605.13687">A Hierarchical Language Model with Predictable Scaling Laws and Provable Benefits of Reasoning&lt;/a> · arXiv &lt;strong>2605.13687&lt;/strong>&lt;br>
👥 作者：Jason Gaitonde (Duke) · Frederic Koehler (UChicago) · Elchanan Mossel (MIT) · Joonhyung Shin (UChicago) · Allan Sly (Princeton)&lt;br>
📅 发布：2026-05-14 | 多模评分：&lt;strong>Opus 8.88 · Sonnet-equiv 8.75 · Gemini-equiv 9.00 → 综合 8.88 / 10&lt;/strong>&lt;br>
✍️ 一句话：用 d-叉树上的广播过程把&amp;quot;语言&amp;quot;做成可解析的概率分布，第一次&lt;strong>定量地&lt;/strong>证明了一条社区抱了三年的口号——&amp;ldquo;链式思考确实换得过来上下文&amp;rdquo;——而且证给的不是 Turing 完备，是 &lt;strong>Ω(n) vs Θ(log n) 的指数级缺口&lt;/strong>，最后还把所有理论曲线在 nanochat 训练的 Transformer 上对齐了。&lt;/p></description></item></channel></rss>