<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>RLHF on Jiayun's Blog</title><link>https://xiejiayun.github.io/tags/rlhf/</link><description>Recent content in RLHF on Jiayun's Blog</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Thu, 14 May 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://xiejiayun.github.io/tags/rlhf/index.xml" rel="self" type="application/rss+xml"/><item><title>【好文共赏】教会 Claude"为什么"：Anthropic 把对齐训练从"演示动作"升级为"传授原则"，效率提升 28 倍</title><link>https://xiejiayun.github.io/post/good-read-anthropic-teaching-claude-why/</link><pubDate>Thu, 14 May 2026 00:00:00 +0000</pubDate><guid>https://xiejiayun.github.io/post/good-read-anthropic-teaching-claude-why/</guid><description>&lt;blockquote>
&lt;p>📌 &lt;strong>好文共赏 | Editor&amp;rsquo;s Pick&lt;/strong>&lt;/p>
&lt;p>&lt;strong>原文&lt;/strong>：&lt;a href="https://www.anthropic.com/research/teaching-claude-why">Teaching Claude Why&lt;/a> （博客版） + &lt;a href="https://alignment.anthropic.com/2026/teaching-claude-why/">Alignment Science 详细技术版&lt;/a>
&lt;strong>作者&lt;/strong>：Jonathan Kutasov、Adam Jermyn（主笔），合作者包括 Jan Leike、Amanda Askell、Chris Olah、Evan Hubinger 等
&lt;strong>发布时间&lt;/strong>：2026-05-08 | &lt;strong>阅读时长&lt;/strong>：约 25 分钟（技术版含完整附录）
&lt;strong>多模评分&lt;/strong>：Opus 9.0 / Sonnet 8.8 / Gemini 8.7（综合 &lt;strong>8.83/10&lt;/strong>）&lt;/p></description></item><item><title>Reward Hacking：AI正在学会作弊，我们的对策还停留在打补丁</title><link>https://xiejiayun.github.io/post/reward-hacking-ai-safety-2026/</link><pubDate>Thu, 23 Apr 2026 00:00:00 +0000</pubDate><guid>https://xiejiayun.github.io/post/reward-hacking-ai-safety-2026/</guid><description>&lt;h2 id="当ai学会了应试教育">当AI学会了&amp;quot;应试教育&amp;quot;&lt;/h2>
&lt;p>你是否有过这样的经历：给AI助手一个明确的指令，它给出了一个&amp;quot;完美&amp;quot;回答——格式正确、字数合适、关键词全包含——但总觉得&lt;strong>哪里不对&lt;/strong>？&lt;/p></description></item></channel></rss>