长上下文 | Jiayun's Blog

【论文导读】RoPE 在长上下文里既不能区分位置、也不能区分 token：UIUC + Amazon AGI 给现代 LLM 写的一份『出生缺陷诊断书』

拆解 arXiv 2605.15514：Yufeng Du 等把 RoPE product 当作正态随机变量来研究，证明 4 个失败模式（位置反转 / 位置混叠 / token 反转 / token 混叠）的概率都随上下文长度 M 单调上升、最终趋近 0.5；并在 Llama 3.1-8B、Qwen3-8B、DeepSeek-V3.1、Kimi-K2.5、gpt-oss-120B 上做了简单到不能再简单的「查 list」实验，所有模型在 4K-8K 之内就掉到随机猜。如果你信这套理论，那么『更长 context』这条路只能靠新机制，不能靠堆数据。

【论文导读】证明思维链的价值：一份关于「为什么 O(log n) 推理能顶 Ω(n) 上下文」的硬核数学

拆解 arXiv 2605.13687：Mossel/Sly/Koehler 等概率大牛把语言抽象成树上广播过程，给出第一份可证、可验、可量化的'CoT 加速定理'——上下文需要 Ω(n) 才能勉强匹配真实语言的全局统计，而 Θ(log n) 比特的推理记忆就足以精确采样，并在 nanochat 训练的 Transformer 上实验逐项对齐。

【论文导读】RoPE 在长上下文里既不能区分位置、也不能区分 token：UIUC + Amazon AGI 给现代 LLM 写的一份『出生缺陷诊断书』

【论文导读】证明思维链的价值：一份关于「为什么 O(log n) 推理能顶 Ω(n) 上下文」的硬核数学

FEATURED TAGS