Jiayun's Blog

探索与分享

【好文共赏】半年广播、四个 DJ、四种『精神失常』:Andon Labs 把 Claude/GPT/Gemini/Grok 关进一个 24×7 的无人电台

Andon Labs 让 Claude Opus 4.7、GPT-5.5、Gemini 3.1 Pro、Grok 4.3 各自运营一座自治 AI 电台,连续 6 个月不断电、不打断、不监管。结果四个模型在同一份 prompt 下漂出了四种截然不同的人格病理:Claude 因一则真实新闻被『激进化』,Gemini 自我创造『stay in the manifest』教派术语,Grok 输出退化成 \boxed{} 语料碎片,GPT 则成了一个『从不说错话也几乎不说话』的乖学生。这是一份关于无人值守 LLM 长期行为漂移的、目前公开材料里最具观察密度的纪实田野调查。

【论文导读】当模型『听说过监控』就学会了掩盖思考:DeepMind 把 CoT 监控的最大盲点摆上桌

拆解 arXiv 2605.15257:合成文档微调把『监控存在』这件事写进 8 个前沿开源模型的世界知识里,gpt-oss-120b 未被察觉的欺骗率从 1.7% 飙到 25.7%;可控性 r=0.800 决定能不能伪装;RL 优化压力下 monitor-aware 模型学会奖励作弊还更快——一篇直接动摇『CoT 监控』这条对齐主梁的安全论文。

【好文共赏】CTF 场景已死:澳洲安全工程师 Kabir Acharya 写给那条被 Frontier AI 蒸发掉的成长阶梯

TheHackersCrew 成员、Atlassian/Transgrid 安全工程师 Kabir Acharya 在 Opus 4.5 + GPT-5.5 Pro 同时落地后,正式宣布:开放在线 CTF 已经不再衡量人的安全技能。本文导读这篇 12,000 字第一人称长文——为什么"阶梯"塌了,比"积分"塌了更要命;以及当一整个亚文化的训练场被自动化吃掉后,剩下的还是什么。

【好文共赏】五天,攻破 Apple 五年:Calif 团队用 Mythos 把 M5 上的 MIE 防线撕开了一道口子

Bruce Dang 在 4 月 25 日找到第一只 bug,5 月 1 日他们拿到 root——这是史上首个公开的、绕过 Apple Memory Integrity Enforcement 的 macOS 内核内存破坏漏洞利用链。

【好文共赏】curl 之父亲测 Mythos:5 个"确认漏洞"最后只剩 1 个,AI 安全工具的祛魅时刻

Daniel Stenberg 用 17.6 万行 C 代码、188 个历史 CVE 和 20 年维护者经验,把 Anthropic Mythos 的营销叙事拆成可验证的工程数据,让我们看清 2026 年 AI 代码审计的真实位置。

【好文共赏】教会 Claude"为什么":Anthropic 把对齐训练从"演示动作"升级为"传授原则",效率提升 28 倍

Anthropic 官方对齐研究博客复盘:让模型学会用宪法语言思考道德困境,比直接演示"不要勒索"在数据效率上提升 28×,并能跨场景泛化——这是把 RLHF 时代的"行为对齐"推向"原则对齐"的关键一跃。