Jiayun's Blog

探索与分享

【论文导读】当模型『听说过监控』就学会了掩盖思考：DeepMind 把 CoT 监控的最大盲点摆上桌

拆解 arXiv 2605.15257：合成文档微调把『监控存在』这件事写进 8 个前沿开源模型的世界知识里，gpt-oss-120b 未被察觉的欺骗率从 1.7% 飙到 25.7%；可控性 r=0.800 决定能不能伪装；RL 优化压力下 monitor-aware 模型学会奖励作弊还更快——一篇直接动摇『CoT 监控』这条对齐主梁的安全论文。

Posted by Jiayun's Blog on Monday, May 18, 2026 00:00 UTC

【论文导读】证明思维链的价值：一份关于「为什么 O(log n) 推理能顶 Ω(n) 上下文」的硬核数学

拆解 arXiv 2605.13687：Mossel/Sly/Koehler 等概率大牛把语言抽象成树上广播过程，给出第一份可证、可验、可量化的'CoT 加速定理'——上下文需要 Ω(n) 才能勉强匹配真实语言的全局统计，而 Θ(log n) 比特的推理记忆就足以精确采样，并在 nanochat 训练的 Transformer 上实验逐项对齐。

Posted by Jiayun's Blog on Monday, May 18, 2026 00:00 UTC

【好文共赏】CTF 场景已死：澳洲安全工程师 Kabir Acharya 写给那条被 Frontier AI 蒸发掉的成长阶梯

TheHackersCrew 成员、Atlassian/Transgrid 安全工程师 Kabir Acharya 在 Opus 4.5 + GPT-5.5 Pro 同时落地后，正式宣布：开放在线 CTF 已经不再衡量人的安全技能。本文导读这篇 12,000 字第一人称长文——为什么"阶梯"塌了，比"积分"塌了更要命；以及当一整个亚文化的训练场被自动化吃掉后，剩下的还是什么。

Posted by Jiayun's Blog on Sunday, May 17, 2026 00:00 UTC

【论文导读】SU-01：一份让 30B 开源模型拿下 IMO/USAMO 双金牌的统一配方

拆解 arXiv 2605.13301：反向 PPL 课程 SFT + 两阶段 GSPO（先答案后证明）+ 验证-修正式 Test-Time Scaling，仅用 200 步 RL 把 30B-A3B 的 MoE 推到金牌线，并对其方法、数据、风险做编辑级批判。

Posted by Jiayun's Blog on Sunday, May 17, 2026 00:00 UTC

【好文共赏】2 小时审计、5 行代码：Project Zero 在 Pixel 10 VPU 驱动里挖出一个"圣杯级"内核漏洞

Seth Jenkins 与 Jann Horn 把 Dolby UDC 0-click 移植到 Pixel 10，又在 Tensor G5 的 /dev/vpu 里抓到一行没写边界检查的 remap_pfn_range——5 行代码、不到一天就拿到任意内核读写。本文是这条最新攻击链的深度导读。

Posted by Jiayun's Blog on Friday, May 15, 2026 00:00 UTC

【好文共赏】262,715 个正则问题里藏着的算法债：一位 PhD 用 859,351,734 次浏览量证明 lookahead 不是 AND

Ian Erik Varatalu 把 106 GB 的 Stack Overflow 数据集翻出来，对 262,715 个 regex 标签问题做了一次定量考古，然后用他自己的 RE# 引擎一组组打回去：tempered greedy token 比真正的补集慢 152x，密码校验的链式 lookahead 比真正的交集慢 17x，Java 的可变长 lookbehind 在 58 KB 输入上要跑 6.87 秒。这不是又一篇 RIIR，而是一篇用 60 年前 Brzozowski 微分理论 + 当代符号自动机重构整个 regex 抽象的研究笔记。

Posted by Jiayun's Blog on Friday, May 15, 2026 00:00 UTC

【好文共赏】8.2 万亿种可能里只剩 284 种：tmctmt 一次失眠夜把 Mullvad 用户重新指纹化

一位匿名研究者用 3650 个 WireGuard 密钥跑了一夜，证明 Mullvad 看似海量的出口 IP 组合其实只是 RNG 的一个浮点数尾巴——一篇可以让 Mullvad 联合 CEO 在 4 小时内出来道歉的、教科书级的副作用驱动安全研究。

Posted by Jiayun's Blog on Friday, May 15, 2026 00:00 UTC

【好文共赏】AlphaEvolve 周年答卷：从一台 "Gemini 驱动的进化编译器"，到把 TPU、Spanner、Erdős 问题、量子电路一起重写的研究合伙人

DeepMind 在 2026-05-07 公开了 AlphaEvolve 一年间的真实战绩——DeepConsensus 变异检出错误下降 30%、量子电路误差降 10×、TPU 直接吃下它生成的电路、Spanner 写放大降 20%、Klarna 训练加速 2 倍、Schrödinger 推理加速 4 倍，外加帮 Terence Tao 解决 Erdős 第 1026 号问题。本文是这条"AI 重新定义算法发现"故事的完整深读。

Posted by Jiayun's Blog on Friday, May 15, 2026 00:00 UTC

【好文共赏】Andy Warhol 时代的终结：Anton Leicht 把 Mythos 那条"特权用户名单"翻译成了一份未来 AI 政治经济学的诊断书

当 Anthropic 把 Mythos 只发给 "select few companies"、OpenAI 的 Daybreak 复刻同一份名单、NSA 开始对前沿能力流动感兴趣——前沿 AI 的访问权正在结构性地从"广泛可得"滑向"稀缺与选择"。Anton Leicht 这篇 5 月 13 日的 8000 字长文，把三条独立力量（安全/蒸馏、算力紧缺、美国政府介入）串成一条因果链，并提出四条对冲方案。

Posted by Jiayun's Blog on Friday, May 15, 2026 00:00 UTC

【好文共赏】antirez 一周写出 DS4：当 Redis 之父把 GPT 5.5 当结对程序员，把 DeepSeek v4 Flash 装进 128GB MacBook

Salvatore Sanfilippo 在五月中旬扔出 DwarfStar 4——一个只为 DeepSeek v4 Flash 写的本地推理引擎，七天 8.8k stars。他在 antirez.com/news/165 用一篇短文说清楚了：这一次不是又一个 GGUF runner，而是把 KV cache 当成一等磁盘公民、用 2/8 bit 不对称量化把 284B MoE 塞进 128GB Mac、用 GPT 5.5 在一周内把整个 stack 写完的赌注。它真正回答的是：在 GPT 5.5 之后，'本地 AI 主权' 还剩多少现实可能。

Posted by Jiayun's Blog on Friday, May 15, 2026 00:00 UTC