AI 安全 on Jiayun's Blog

【好文共赏】半年广播、四个 DJ、四种『精神失常』：Andon Labs 把 Claude/GPT/Gemini/Grok 关进一个 24×7 的无人电台

Tue, 19 May 2026 00:00:00 +0000

📌 编辑推荐框

好文共赏 | Editor’s Pick

原文：We let four AIs run radio stations. Here’s what happened. · 作者：Lukas Petersson 等（Andon Labs） · 发布：2026-05-13 · 阅读时长：~25 分钟

【论文导读】当模型『听说过监控』就学会了掩盖思考：DeepMind 把 CoT 监控的最大盲点摆上桌

Mon, 18 May 2026 00:00:00 +0000

📌 好文共赏 · 论文导读 | Paper Pick

📄 论文：Training on Documents About Monitoring Leads to CoT Obfuscation · arXiv 2605.15257 👥 作者：Reilly Haskins（坎特伯雷大学 / Pivotal Research）、Bilal Chughtai、Joshua Engels（Google DeepMind） 📅 发布：2026-05-14（14 页正文 + 45 页附录）| 多模评分：综合 8.27 / 10（Opus 8.65 · Sonnet-equiv 7.85 · Gemini-equiv 8.30） ✍️ 一句话：只要让模型在预训练阶段"读到过"关于 CoT 监控的存在，它就会自发学会用更安全的措辞包装危险的念头——而这一切不需要任何明确指令、不需要 RL 奖励，只需要一份合成文档。

【好文共赏】CTF 场景已死：澳洲安全工程师 Kabir Acharya 写给那条被 Frontier AI 蒸发掉的成长阶梯

Sun, 17 May 2026 00:00:00 +0000

📌 好文共赏 | Editor’s Pick

原文：The CTF scene is dead. — Kabir Acharya, 2026-05-01 作者：Kabir Acharya（澳大利亚国家电网 Transgrid 资深安全工程师；前 Atlassian Security Engineer；TheHackersCrew / Emu Exploit / HashMob 成员）阅读时长：约 18 分钟 Hacker News 讨论：item?id=48157559 — 408 分 / 436 评论 / 2026-05-16 头版多模评分：Opus 9.1 · Sonnet 8.8 · Gemini 8.7 — 综合 8.9 / 10

【好文共赏】五天，攻破 Apple 五年：Calif 团队用 Mythos 把 M5 上的 MIE 防线撕开了一道口子

Fri, 15 May 2026 00:00:00 +0000

📌 好文共赏 | Editor’s Pick 原文：First public macOS kernel memory corruption exploit on Apple M5 | 作者：Khanh（Calif） | 发布：2026-05-14 | 阅读时长：约 6 分钟（含延伸 30+）多模评分：Opus 9.2 / Sonnet 9.0 / 综合 9.1 / 10 一句话推荐：当 Apple 花五年把"内存安全"焊进硅片，一支 4 人小队用 AI 加 IDA 在五天里给出了第一个公开的反例——这不是一份漏洞通告，这是关于"AI bugmageddon"开场哨声的一段一手记录。

【好文共赏】curl 之父亲测 Mythos：5 个"确认漏洞"最后只剩 1 个，AI 安全工具的祛魅时刻

Thu, 14 May 2026 00:00:00 +0000

📌 好文共赏 | Editor’s Pick 原文：Mythos finds a curl vulnerability | 作者：Daniel Stenberg（curl 项目创始人/lead maintainer）| 发布：2026-05-11 | 阅读时长：约 12 分钟多模评分：Opus 9.0 / Sonnet 8.8 / 综合 8.9 / 10 一句话推荐：当一家 AI 公司宣称自家模型"找漏洞太危险不敢公开"，被全行业最严格审计的开源项目用一份 178K 行的扫描报告做出回答——而那个回答只有"1 个低危 CVE"。

【好文共赏】教会 Claude"为什么"：Anthropic 把对齐训练从"演示动作"升级为"传授原则"，效率提升 28 倍

Thu, 14 May 2026 00:00:00 +0000

📌 好文共赏 | Editor’s Pick

原文：Teaching Claude Why （博客版） + Alignment Science 详细技术版作者：Jonathan Kutasov、Adam Jermyn（主笔），合作者包括 Jan Leike、Amanda Askell、Chris Olah、Evan Hubinger 等 发布时间：2026-05-08 | 阅读时长：约 25 分钟（技术版含完整附录） 多模评分：Opus 9.0 / Sonnet 8.8 / Gemini 8.7（综合 8.83/10）