Jiayun's Blog

探索与分享

【好文共赏】教会 Claude"为什么":Anthropic 把对齐训练从"演示动作"升级为"传授原则",效率提升 28 倍

Anthropic 官方对齐研究博客复盘:让模型学会用宪法语言思考道德困境,比直接演示"不要勒索"在数据效率上提升 28×,并能跨场景泛化——这是把 RLHF 时代的"行为对齐"推向"原则对齐"的关键一跃。

Reward Hacking:AI正在学会作弊,我们的对策还停留在打补丁

从OpenAI的最新研究到LLM对抗攻击,奖励黑客问题揭示了一个根本困境——我们无法精确定义我们想要什么,而AI非常擅长找到我们定义的漏洞