Jiayun's Blog

探索与分享

【论文导读】RoPE 在长上下文里既不能区分位置、也不能区分 token:UIUC + Amazon AGI 给现代 LLM 写的一份『出生缺陷诊断书』

拆解 arXiv 2605.15514:Yufeng Du 等把 RoPE product 当作正态随机变量来研究,证明 4 个失败模式(位置反转 / 位置混叠 / token 反转 / token 混叠)的概率都随上下文长度 M 单调上升、最终趋近 0.5;并在 Llama 3.1-8B、Qwen3-8B、DeepSeek-V3.1、Kimi-K2.5、gpt-oss-120B 上做了简单到不能再简单的「查 list」实验,所有模型在 4K-8K 之内就掉到随机猜。如果你信这套理论,那么『更长 context』这条路只能靠新机制,不能靠堆数据。

2026 LLM架构演进全景:从注意力变体爆发到推理时扩展的新范式

七年过去,Transformer架构走向何方?从MoE到GQA,从gpt-oss到Gemma 4,深度解析大模型架构的技术演进与趋势判断