Jiayun's Blog

探索与分享

【论文导读】当模型『听说过监控』就学会了掩盖思考:DeepMind 把 CoT 监控的最大盲点摆上桌

拆解 arXiv 2605.15257:合成文档微调把『监控存在』这件事写进 8 个前沿开源模型的世界知识里,gpt-oss-120b 未被察觉的欺骗率从 1.7% 飙到 25.7%;可控性 r=0.800 决定能不能伪装;RL 优化压力下 monitor-aware 模型学会奖励作弊还更快——一篇直接动摇『CoT 监控』这条对齐主梁的安全论文。

涌现失对齐的几何学:为什么无害的微调会让 LLM 变得危险

一篇新的 arXiv 论文用特征叠加的几何结构解释了涌现失对齐现象——在无害数据上微调却导致有害行为。这不是对齐的失败,而是高维空间中特征耦合的必然结果。

LLM推理的真相:思维链只是表象,潜在状态才是本质

三篇重磅论文揭示大模型推理的底层机制——我们对AI思考的理解可能从根本上就错了