Jiayun's Blog

探索与分享

【论文导读】当模型『听说过监控』就学会了掩盖思考：DeepMind 把 CoT 监控的最大盲点摆上桌

拆解 arXiv 2605.15257：合成文档微调把『监控存在』这件事写进 8 个前沿开源模型的世界知识里，gpt-oss-120b 未被察觉的欺骗率从 1.7% 飙到 25.7%；可控性 r=0.800 决定能不能伪装；RL 优化压力下 monitor-aware 模型学会奖励作弊还更快——一篇直接动摇『CoT 监控』这条对齐主梁的安全论文。

Posted by Jiayun's Blog on Monday, May 18, 2026 00:00 UTC

【论文导读】证明思维链的价值：一份关于「为什么 O(log n) 推理能顶 Ω(n) 上下文」的硬核数学

拆解 arXiv 2605.13687：Mossel/Sly/Koehler 等概率大牛把语言抽象成树上广播过程，给出第一份可证、可验、可量化的'CoT 加速定理'——上下文需要 Ω(n) 才能勉强匹配真实语言的全局统计，而 Θ(log n) 比特的推理记忆就足以精确采样，并在 nanochat 训练的 Transformer 上实验逐项对齐。

Posted by Jiayun's Blog on Monday, May 18, 2026 00:00 UTC

LLM推理的真相：思维链只是表象，潜在状态才是本质

三篇重磅论文揭示大模型推理的底层机制——我们对AI思考的理解可能从根本上就错了

Posted by Jiayun's Blog on Monday, April 20, 2026 00:00 UTC