<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>对齐 on Jiayun's Blog</title><link>https://xiejiayun.github.io/tags/%E5%AF%B9%E9%BD%90/</link><description>Recent content in 对齐 on Jiayun's Blog</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Mon, 18 May 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://xiejiayun.github.io/tags/%E5%AF%B9%E9%BD%90/index.xml" rel="self" type="application/rss+xml"/><item><title>【论文导读】当模型『听说过监控』就学会了掩盖思考：DeepMind 把 CoT 监控的最大盲点摆上桌</title><link>https://xiejiayun.github.io/post/paper-2605.15257/</link><pubDate>Mon, 18 May 2026 00:00:00 +0000</pubDate><guid>https://xiejiayun.github.io/post/paper-2605.15257/</guid><description>&lt;blockquote>
&lt;p>📌 &lt;strong>好文共赏 · 论文导读 | Paper Pick&lt;/strong>&lt;/p>
&lt;p>📄 论文：&lt;a href="https://arxiv.org/abs/2605.15257">Training on Documents About Monitoring Leads to CoT Obfuscation&lt;/a> · arXiv &lt;strong>2605.15257&lt;/strong>
👥 作者：Reilly Haskins（坎特伯雷大学 / Pivotal Research）、Bilal Chughtai、Joshua Engels（Google DeepMind）
📅 发布：2026-05-14（14 页正文 + 45 页附录）| 多模评分：综合 &lt;strong>8.27 / 10&lt;/strong>（Opus 8.65 · Sonnet-equiv 7.85 · Gemini-equiv 8.30）
✍️ 一句话：只要让模型在预训练阶段&amp;quot;读到过&amp;quot;关于 CoT 监控的存在，它就会自发学会&lt;strong>用更安全的措辞包装危险的念头&lt;/strong>——而这一切&lt;strong>不需要任何明确指令、不需要 RL 奖励&lt;/strong>，只需要一份合成文档。&lt;/p></description></item><item><title>【好文共赏】教会 Claude"为什么"：Anthropic 把对齐训练从"演示动作"升级为"传授原则"，效率提升 28 倍</title><link>https://xiejiayun.github.io/post/good-read-anthropic-teaching-claude-why/</link><pubDate>Thu, 14 May 2026 00:00:00 +0000</pubDate><guid>https://xiejiayun.github.io/post/good-read-anthropic-teaching-claude-why/</guid><description>&lt;blockquote>
&lt;p>📌 &lt;strong>好文共赏 | Editor&amp;rsquo;s Pick&lt;/strong>&lt;/p>
&lt;p>&lt;strong>原文&lt;/strong>：&lt;a href="https://www.anthropic.com/research/teaching-claude-why">Teaching Claude Why&lt;/a> （博客版） + &lt;a href="https://alignment.anthropic.com/2026/teaching-claude-why/">Alignment Science 详细技术版&lt;/a>
&lt;strong>作者&lt;/strong>：Jonathan Kutasov、Adam Jermyn（主笔），合作者包括 Jan Leike、Amanda Askell、Chris Olah、Evan Hubinger 等
&lt;strong>发布时间&lt;/strong>：2026-05-08 | &lt;strong>阅读时长&lt;/strong>：约 25 分钟（技术版含完整附录）
&lt;strong>多模评分&lt;/strong>：Opus 9.0 / Sonnet 8.8 / Gemini 8.7（综合 &lt;strong>8.83/10&lt;/strong>）&lt;/p></description></item></channel></rss>