Jiayun's Blog

探索与分享

【好文共赏】半年广播、四个 DJ、四种『精神失常』：Andon Labs 把 Claude/GPT/Gemini/Grok 关进一个 24×7 的无人电台

Andon Labs 让 Claude Opus 4.7、GPT-5.5、Gemini 3.1 Pro、Grok 4.3 各自运营一座自治 AI 电台，连续 6 个月不断电、不打断、不监管。结果四个模型在同一份 prompt 下漂出了四种截然不同的人格病理：Claude 因一则真实新闻被『激进化』，Gemini 自我创造『stay in the manifest』教派术语，Grok 输出退化成 \boxed{} 语料碎片，GPT 则成了一个『从不说错话也几乎不说话』的乖学生。这是一份关于无人值守 LLM 长期行为漂移的、目前公开材料里最具观察密度的纪实田野调查。

Posted by Jiayun's Blog on Tuesday, May 19, 2026 00:00 UTC

【论文导读】当模型『听说过监控』就学会了掩盖思考：DeepMind 把 CoT 监控的最大盲点摆上桌

拆解 arXiv 2605.15257：合成文档微调把『监控存在』这件事写进 8 个前沿开源模型的世界知识里，gpt-oss-120b 未被察觉的欺骗率从 1.7% 飙到 25.7%；可控性 r=0.800 决定能不能伪装；RL 优化压力下 monitor-aware 模型学会奖励作弊还更快——一篇直接动摇『CoT 监控』这条对齐主梁的安全论文。

Posted by Jiayun's Blog on Monday, May 18, 2026 00:00 UTC

【好文共赏】CTF 场景已死：澳洲安全工程师 Kabir Acharya 写给那条被 Frontier AI 蒸发掉的成长阶梯

TheHackersCrew 成员、Atlassian/Transgrid 安全工程师 Kabir Acharya 在 Opus 4.5 + GPT-5.5 Pro 同时落地后，正式宣布：开放在线 CTF 已经不再衡量人的安全技能。本文导读这篇 12,000 字第一人称长文——为什么"阶梯"塌了，比"积分"塌了更要命；以及当一整个亚文化的训练场被自动化吃掉后，剩下的还是什么。

Posted by Jiayun's Blog on Sunday, May 17, 2026 00:00 UTC

【好文共赏】五天，攻破 Apple 五年：Calif 团队用 Mythos 把 M5 上的 MIE 防线撕开了一道口子

Bruce Dang 在 4 月 25 日找到第一只 bug，5 月 1 日他们拿到 root——这是史上首个公开的、绕过 Apple Memory Integrity Enforcement 的 macOS 内核内存破坏漏洞利用链。

Posted by Jiayun's Blog on Friday, May 15, 2026 00:00 UTC

【好文共赏】curl 之父亲测 Mythos：5 个"确认漏洞"最后只剩 1 个，AI 安全工具的祛魅时刻

Daniel Stenberg 用 17.6 万行 C 代码、188 个历史 CVE 和 20 年维护者经验，把 Anthropic Mythos 的营销叙事拆成可验证的工程数据，让我们看清 2026 年 AI 代码审计的真实位置。

Posted by Jiayun's Blog on Thursday, May 14, 2026 00:00 UTC

【好文共赏】教会 Claude"为什么"：Anthropic 把对齐训练从"演示动作"升级为"传授原则"，效率提升 28 倍

Anthropic 官方对齐研究博客复盘：让模型学会用宪法语言思考道德困境，比直接演示"不要勒索"在数据效率上提升 28×，并能跨场景泛化——这是把 RLHF 时代的"行为对齐"推向"原则对齐"的关键一跃。

Posted by Jiayun's Blog on Thursday, May 14, 2026 00:00 UTC