长上下文 on Jiayun's Blog

【论文导读】RoPE 在长上下文里既不能区分位置、也不能区分 token：UIUC + Amazon AGI 给现代 LLM 写的一份『出生缺陷诊断书』

Mon, 18 May 2026 00:00:00 +0000

📌 好文共赏 · 论文导读 | Paper Pick

📄 论文：RoPE Distinguishes Neither Positions Nor Tokens in Long Contexts, Provably · arXiv 2605.15514 👥 作者：Yufeng Du, Phillip Harris, Minyang Tian, Eliu A. Huerta, Srikanth Ronanki, Subendhu Rongali, Aram Galstyan, Hao Peng（UIUC × Bonn × Argonne × Amazon AGI） 📅 发布：2026-05-15 | 多模评分：综合 8.67 / 10（Opus 9.0 · Sonnet-equiv 8.5 · Gemini-equiv 8.5） ✍️ 一句话：把 RoPE 的注意力分数建模为正态随机变量后，证明出 4 个失败模式的失败概率都趋近 0.5；这是一份给 Llama / Qwen / DeepSeek / Kimi / gpt-oss 全部 RoPE-based 长上下文模型写的诊断书——『128K 上下文』作为广告词的可信度，正在被这篇论文从理论侧拆穿。

【论文导读】证明思维链的价值：一份关于「为什么 O(log n) 推理能顶 Ω(n) 上下文」的硬核数学

Mon, 18 May 2026 00:00:00 +0000

📌 好文共赏 · 论文导读 | Paper Pick

📄 论文：A Hierarchical Language Model with Predictable Scaling Laws and Provable Benefits of Reasoning · arXiv 2605.13687
👥 作者：Jason Gaitonde (Duke) · Frederic Koehler (UChicago) · Elchanan Mossel (MIT) · Joonhyung Shin (UChicago) · Allan Sly (Princeton)
📅 发布：2026-05-14 | 多模评分：Opus 8.88 · Sonnet-equiv 8.75 · Gemini-equiv 9.00 → 综合 8.88 / 10
✍️ 一句话：用 d-叉树上的广播过程把"语言"做成可解析的概率分布，第一次定量地证明了一条社区抱了三年的口号——“链式思考确实换得过来上下文”——而且证给的不是 Turing 完备，是 Ω(n) vs Θ(log n) 的指数级缺口，最后还把所有理论曲线在 nanochat 训练的 Transformer 上对齐了。