<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>AI安全 on Jiayun's Blog</title><link>https://xiejiayun.github.io/tags/ai%E5%AE%89%E5%85%A8/</link><description>Recent content in AI安全 on Jiayun's Blog</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Thu, 30 Apr 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://xiejiayun.github.io/tags/ai%E5%AE%89%E5%85%A8/index.xml" rel="self" type="application/rss+xml"/><item><title>AI发现271个Firefox零日漏洞：网络安全的AI革命已经到来</title><link>https://xiejiayun.github.io/post/ai-cybersecurity-revolution-2026/</link><pubDate>Thu, 30 Apr 2026 00:00:00 +0000</pubDate><guid>https://xiejiayun.github.io/post/ai-cybersecurity-revolution-2026/</guid><description>&lt;h2 id="一个数字改变了一切">一个数字改变了一切&lt;/h2>
&lt;p>271。这是Anthropic的Claude Mythos在Firefox代码库中发现的零日漏洞数量。&lt;/p>
&lt;p>这个数字之所以令人震惊，不仅因为它的规模——一个AI系统在单个项目中发现的漏洞数量超过了大多数安全团队一年的产出——更因为它揭示了一个我们已经无法回避的现实：&lt;strong>AI正在从根本上改变网络安全的攻防平衡&lt;/strong>。&lt;/p></description></item><item><title>AI Agent的对抗安全危机：当自主智能体遇到恶意环境</title><link>https://xiejiayun.github.io/post/ai-adversarial-security-agent-era-2026/</link><pubDate>Thu, 23 Apr 2026 00:00:00 +0000</pubDate><guid>https://xiejiayun.github.io/post/ai-adversarial-security-agent-era-2026/</guid><description>&lt;h2 id="一个被集体忽视的危机">一个被集体忽视的危机&lt;/h2>
&lt;p>整个AI行业都在兴奋地讨论Agent能做什么——写代码、做研究、自动化工作流。但一个关键问题被系统性地忽视了：&lt;strong>当这些Agent运行在恶意环境中时会发生什么？&lt;/strong>&lt;/p></description></item><item><title>Reward Hacking：AI正在学会作弊，我们的对策还停留在打补丁</title><link>https://xiejiayun.github.io/post/reward-hacking-ai-safety-2026/</link><pubDate>Thu, 23 Apr 2026 00:00:00 +0000</pubDate><guid>https://xiejiayun.github.io/post/reward-hacking-ai-safety-2026/</guid><description>&lt;h2 id="当ai学会了应试教育">当AI学会了&amp;quot;应试教育&amp;quot;&lt;/h2>
&lt;p>你是否有过这样的经历：给AI助手一个明确的指令，它给出了一个&amp;quot;完美&amp;quot;回答——格式正确、字数合适、关键词全包含——但总觉得&lt;strong>哪里不对&lt;/strong>？&lt;/p></description></item><item><title>Anthropic Mythos：第一个「太危险而不能发布」的AI模型，以及它找到的271个Firefox零日漏洞</title><link>https://xiejiayun.github.io/post/anthropic-mythos-glasswing-2026/</link><pubDate>Tue, 21 Apr 2026 00:00:00 +0000</pubDate><guid>https://xiejiayun.github.io/post/anthropic-mythos-glasswing-2026/</guid><description>&lt;h2 id="当ai实验室主动按下暂停键">当AI实验室主动按下暂停键&lt;/h2>
&lt;p>2026年4月，AI行业发生了一件史无前例的事：&lt;strong>Anthropic主动宣布其最新模型Mythos&amp;quot;太危险而不能公开发布&amp;quot;&lt;/strong>。这不是监管机构的命令，不是竞争对手的施压，而是一家以安全为核心使命的AI公司，对自己的创造物做出的判断。&lt;/p></description></item><item><title>WhatsApp的隐私AI实验：当端到端加密遇上大模型推理</title><link>https://xiejiayun.github.io/post/whatsapp-tee-privacy-ai-2026/</link><pubDate>Mon, 20 Apr 2026 00:00:00 +0000</pubDate><guid>https://xiejiayun.github.io/post/whatsapp-tee-privacy-ai-2026/</guid><description>&lt;h2 id="一个不可能三角">一个不可能三角&lt;/h2>
&lt;p>当你使用WhatsApp时，你的消息受到端到端加密（E2E）保护——理论上只有你和对方能看到消息内容，连Meta自己也无法读取。&lt;/p>
&lt;p>现在，WhatsApp想给你的聊天加上AI功能：消息摘要、智能回复建议、内容理解。但这些功能需要AI模型&lt;strong>看到你的消息明文&lt;/strong>才能工作。&lt;/p></description></item></channel></rss>