注意力机制 | Jiayun's Blog

【论文导读】RoPE 在长上下文里既不能区分位置、也不能区分 token：UIUC + Amazon AGI 给现代 LLM 写的一份『出生缺陷诊断书』

拆解 arXiv 2605.15514：Yufeng Du 等把 RoPE product 当作正态随机变量来研究，证明 4 个失败模式（位置反转 / 位置混叠 / token 反转 / token 混叠）的概率都随上下文长度 M 单调上升、最终趋近 0.5；并在 Llama 3.1-8B、Qwen3-8B、DeepSeek-V3.1、Kimi-K2.5、gpt-oss-120B 上做了简单到不能再简单的「查 list」实验，所有模型在 4K-8K 之内就掉到随机猜。如果你信这套理论，那么『更长 context』这条路只能靠新机制，不能靠堆数据。