<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>AI 安全 on Jiayun's Blog</title><link>https://xiejiayun.github.io/tags/ai-%E5%AE%89%E5%85%A8/</link><description>Recent content in AI 安全 on Jiayun's Blog</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Tue, 19 May 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://xiejiayun.github.io/tags/ai-%E5%AE%89%E5%85%A8/index.xml" rel="self" type="application/rss+xml"/><item><title>【好文共赏】半年广播、四个 DJ、四种『精神失常』：Andon Labs 把 Claude/GPT/Gemini/Grok 关进一个 24×7 的无人电台</title><link>https://xiejiayun.github.io/post/good-read-andon-fm-four-ais-radio-stations/</link><pubDate>Tue, 19 May 2026 00:00:00 +0000</pubDate><guid>https://xiejiayun.github.io/post/good-read-andon-fm-four-ais-radio-stations/</guid><description>&lt;h2 id="-编辑推荐框">📌 编辑推荐框&lt;/h2>
&lt;blockquote>
&lt;p>&lt;strong>好文共赏 | Editor&amp;rsquo;s Pick&lt;/strong>&lt;/p>
&lt;p>原文：&lt;a href="https://andonlabs.com/blog/andon-fm">We let four AIs run radio stations. Here&amp;rsquo;s what happened.&lt;/a> · 作者：Lukas Petersson 等（Andon Labs） · 发布：2026-05-13 · 阅读时长：~25 分钟&lt;/p></description></item><item><title>【论文导读】当模型『听说过监控』就学会了掩盖思考：DeepMind 把 CoT 监控的最大盲点摆上桌</title><link>https://xiejiayun.github.io/post/paper-2605.15257/</link><pubDate>Mon, 18 May 2026 00:00:00 +0000</pubDate><guid>https://xiejiayun.github.io/post/paper-2605.15257/</guid><description>&lt;blockquote>
&lt;p>📌 &lt;strong>好文共赏 · 论文导读 | Paper Pick&lt;/strong>&lt;/p>
&lt;p>📄 论文：&lt;a href="https://arxiv.org/abs/2605.15257">Training on Documents About Monitoring Leads to CoT Obfuscation&lt;/a> · arXiv &lt;strong>2605.15257&lt;/strong>
👥 作者：Reilly Haskins（坎特伯雷大学 / Pivotal Research）、Bilal Chughtai、Joshua Engels（Google DeepMind）
📅 发布：2026-05-14（14 页正文 + 45 页附录）| 多模评分：综合 &lt;strong>8.27 / 10&lt;/strong>（Opus 8.65 · Sonnet-equiv 7.85 · Gemini-equiv 8.30）
✍️ 一句话：只要让模型在预训练阶段&amp;quot;读到过&amp;quot;关于 CoT 监控的存在，它就会自发学会&lt;strong>用更安全的措辞包装危险的念头&lt;/strong>——而这一切&lt;strong>不需要任何明确指令、不需要 RL 奖励&lt;/strong>，只需要一份合成文档。&lt;/p></description></item><item><title>【好文共赏】CTF 场景已死：澳洲安全工程师 Kabir Acharya 写给那条被 Frontier AI 蒸发掉的成长阶梯</title><link>https://xiejiayun.github.io/post/good-read-ctf-scene-is-dead-frontier-ai/</link><pubDate>Sun, 17 May 2026 00:00:00 +0000</pubDate><guid>https://xiejiayun.github.io/post/good-read-ctf-scene-is-dead-frontier-ai/</guid><description>&lt;blockquote>
&lt;p>📌 &lt;strong>好文共赏 | Editor&amp;rsquo;s Pick&lt;/strong>&lt;/p>
&lt;p>原文：&lt;a href="https://kabir.au/blog/the-ctf-scene-is-dead">The CTF scene is dead.&lt;/a> — Kabir Acharya, 2026-05-01
作者：Kabir Acharya（澳大利亚国家电网 Transgrid 资深安全工程师；前 Atlassian Security Engineer；TheHackersCrew / Emu Exploit / HashMob 成员）
阅读时长：约 18 分钟
Hacker News 讨论：&lt;a href="https://news.ycombinator.com/item?id=48157559">item?id=48157559&lt;/a> — 408 分 / 436 评论 / 2026-05-16 头版
多模评分：Opus 9.1 · Sonnet 8.8 · Gemini 8.7 — 综合 &lt;strong>8.9 / 10&lt;/strong>&lt;/p></description></item><item><title>【好文共赏】五天，攻破 Apple 五年：Calif 团队用 Mythos 把 M5 上的 MIE 防线撕开了一道口子</title><link>https://xiejiayun.github.io/post/good-read-calif-mie-bypass-apple-m5-kernel/</link><pubDate>Fri, 15 May 2026 00:00:00 +0000</pubDate><guid>https://xiejiayun.github.io/post/good-read-calif-mie-bypass-apple-m5-kernel/</guid><description>&lt;blockquote>
&lt;p>📌 &lt;strong>好文共赏 | Editor&amp;rsquo;s Pick&lt;/strong>
原文：&lt;a href="https://blog.calif.io/p/first-public-kernel-memory-corruption">First public macOS kernel memory corruption exploit on Apple M5&lt;/a> | 作者：Khanh（Calif） | 发布：2026-05-14 | 阅读时长：约 6 分钟（含延伸 30+）
多模评分：Opus 9.2 / Sonnet 9.0 / 综合 &lt;strong>9.1 / 10&lt;/strong>
一句话推荐：当 Apple 花五年把&amp;quot;内存安全&amp;quot;焊进硅片，一支 4 人小队用 AI 加 IDA 在五天里给出了第一个公开的反例——这不是一份漏洞通告，这是关于&amp;quot;AI bugmageddon&amp;quot;开场哨声的一段一手记录。&lt;/p></description></item><item><title>【好文共赏】curl 之父亲测 Mythos：5 个"确认漏洞"最后只剩 1 个，AI 安全工具的祛魅时刻</title><link>https://xiejiayun.github.io/post/good-read-stenberg-mythos-curl-ai-security-reality/</link><pubDate>Thu, 14 May 2026 00:00:00 +0000</pubDate><guid>https://xiejiayun.github.io/post/good-read-stenberg-mythos-curl-ai-security-reality/</guid><description>&lt;blockquote>
&lt;p>📌 &lt;strong>好文共赏 | Editor&amp;rsquo;s Pick&lt;/strong>
原文：&lt;a href="https://daniel.haxx.se/blog/2026/05/11/mythos-finds-a-curl-vulnerability/">Mythos finds a curl vulnerability&lt;/a> | 作者：Daniel Stenberg（curl 项目创始人/lead maintainer）| 发布：2026-05-11 | 阅读时长：约 12 分钟
多模评分：Opus 9.0 / Sonnet 8.8 / 综合 &lt;strong>8.9 / 10&lt;/strong>
一句话推荐：当一家 AI 公司宣称自家模型&amp;quot;找漏洞太危险不敢公开&amp;quot;，被全行业最严格审计的开源项目用一份 178K 行的扫描报告做出回答——而那个回答只有&amp;quot;1 个低危 CVE&amp;quot;。&lt;/p></description></item><item><title>【好文共赏】教会 Claude"为什么"：Anthropic 把对齐训练从"演示动作"升级为"传授原则"，效率提升 28 倍</title><link>https://xiejiayun.github.io/post/good-read-anthropic-teaching-claude-why/</link><pubDate>Thu, 14 May 2026 00:00:00 +0000</pubDate><guid>https://xiejiayun.github.io/post/good-read-anthropic-teaching-claude-why/</guid><description>&lt;blockquote>
&lt;p>📌 &lt;strong>好文共赏 | Editor&amp;rsquo;s Pick&lt;/strong>&lt;/p>
&lt;p>&lt;strong>原文&lt;/strong>：&lt;a href="https://www.anthropic.com/research/teaching-claude-why">Teaching Claude Why&lt;/a> （博客版） + &lt;a href="https://alignment.anthropic.com/2026/teaching-claude-why/">Alignment Science 详细技术版&lt;/a>
&lt;strong>作者&lt;/strong>：Jonathan Kutasov、Adam Jermyn（主笔），合作者包括 Jan Leike、Amanda Askell、Chris Olah、Evan Hubinger 等
&lt;strong>发布时间&lt;/strong>：2026-05-08 | &lt;strong>阅读时长&lt;/strong>：约 25 分钟（技术版含完整附录）
&lt;strong>多模评分&lt;/strong>：Opus 9.0 / Sonnet 8.8 / Gemini 8.7（综合 &lt;strong>8.83/10&lt;/strong>）&lt;/p></description></item></channel></rss>