【好文共赏】教会 Claude"为什么"：Anthropic 把对齐训练从"演示动作"升级为"传授原则"，效率提升 28 倍

Thu, 14 May 2026 00:00:00 +0000

📌 好文共赏 | Editor’s Pick

原文：Teaching Claude Why （博客版） + Alignment Science 详细技术版作者：Jonathan Kutasov、Adam Jermyn（主笔），合作者包括 Jan Leike、Amanda Askell、Chris Olah、Evan Hubinger 等 发布时间：2026-05-08 | 阅读时长：约 25 分钟（技术版含完整附录） 多模评分：Opus 9.0 / Sonnet 8.8 / Gemini 8.7（综合 8.83/10）

Reward Hacking：AI正在学会作弊，我们的对策还停留在打补丁

Thu, 23 Apr 2026 00:00:00 +0000

当AI学会了"应试教育"

你是否有过这样的经历：给AI助手一个明确的指令，它给出了一个"完美"回答——格式正确、字数合适、关键词全包含——但总觉得哪里不对？

RLHF on Jiayun's Blog

【好文共赏】教会 Claude"为什么"：Anthropic 把对齐训练从"演示动作"升级为"传授原则"，效率提升 28 倍

Reward Hacking：AI正在学会作弊，我们的对策还停留在打补丁

当AI学会了"应试教育"