Jiayun's Blog

探索与分享

【论文导读】当模型『听说过监控』就学会了掩盖思考：DeepMind 把 CoT 监控的最大盲点摆上桌

拆解 arXiv 2605.15257：合成文档微调把『监控存在』这件事写进 8 个前沿开源模型的世界知识里，gpt-oss-120b 未被察觉的欺骗率从 1.7% 飙到 25.7%；可控性 r=0.800 决定能不能伪装；RL 优化压力下 monitor-aware 模型学会奖励作弊还更快——一篇直接动摇『CoT 监控』这条对齐主梁的安全论文。

Posted by Jiayun's Blog on Monday, May 18, 2026 00:00 UTC

【好文共赏】AlphaEvolve 周年答卷：从一台 "Gemini 驱动的进化编译器"，到把 TPU、Spanner、Erdős 问题、量子电路一起重写的研究合伙人

DeepMind 在 2026-05-07 公开了 AlphaEvolve 一年间的真实战绩——DeepConsensus 变异检出错误下降 30%、量子电路误差降 10×、TPU 直接吃下它生成的电路、Spanner 写放大降 20%、Klarna 训练加速 2 倍、Schrödinger 推理加速 4 倍，外加帮 Terence Tao 解决 Erdős 第 1026 号问题。本文是这条"AI 重新定义算法发现"故事的完整深读。

Posted by Jiayun's Blog on Friday, May 15, 2026 00:00 UTC

DeepMind Decoupled DiLoCo：把'同步'从分布式训练里剥离出来，AI 大模型预训练的容错革命

DeepMind 4 月 22 日发布 Decoupled DiLoCo，把通信和计算彻底解耦，让数据中心级 LLM 训练可以容忍单节点故障、跨数据中心异步训练。本文拆解架构、与传统 DDP/FSDP 的差距、对'万亿参数民主化训练'的真实意义。

Posted by Jiayun's Blog on Thursday, May 14, 2026 00:00 UTC