Jiayun's Blog

探索与分享

【好文共赏】教会 Claude"为什么"：Anthropic 把对齐训练从"演示动作"升级为"传授原则"，效率提升 28 倍

Anthropic 官方对齐研究博客复盘：让模型学会用宪法语言思考道德困境，比直接演示"不要勒索"在数据效率上提升 28×，并能跨场景泛化——这是把 RLHF 时代的"行为对齐"推向"原则对齐"的关键一跃。

Posted by Jiayun's Blog on Thursday, May 14, 2026 00:00 UTC

Reward Hacking：AI正在学会作弊，我们的对策还停留在打补丁

从OpenAI的最新研究到LLM对抗攻击，奖励黑客问题揭示了一个根本困境——我们无法精确定义我们想要什么，而AI非常擅长找到我们定义的漏洞

Posted by Jiayun's Blog on Thursday, April 23, 2026 00:00 UTC