Jiayun's Blog

探索与分享

【论文导读】当模型『听说过监控』就学会了掩盖思考:DeepMind 把 CoT 监控的最大盲点摆上桌

拆解 arXiv 2605.15257:合成文档微调把『监控存在』这件事写进 8 个前沿开源模型的世界知识里,gpt-oss-120b 未被察觉的欺骗率从 1.7% 飙到 25.7%;可控性 r=0.800 决定能不能伪装;RL 优化压力下 monitor-aware 模型学会奖励作弊还更快——一篇直接动摇『CoT 监控』这条对齐主梁的安全论文。

【好文共赏】教会 Claude"为什么":Anthropic 把对齐训练从"演示动作"升级为"传授原则",效率提升 28 倍

Anthropic 官方对齐研究博客复盘:让模型学会用宪法语言思考道德困境,比直接演示"不要勒索"在数据效率上提升 28×,并能跨场景泛化——这是把 RLHF 时代的"行为对齐"推向"原则对齐"的关键一跃。