Jiayun's Blog

探索与分享

【论文导读】当模型『听说过监控』就学会了掩盖思考:DeepMind 把 CoT 监控的最大盲点摆上桌

拆解 arXiv 2605.15257:合成文档微调把『监控存在』这件事写进 8 个前沿开源模型的世界知识里,gpt-oss-120b 未被察觉的欺骗率从 1.7% 飙到 25.7%;可控性 r=0.800 决定能不能伪装;RL 优化压力下 monitor-aware 模型学会奖励作弊还更快——一篇直接动摇『CoT 监控』这条对齐主梁的安全论文。

【论文导读】证明思维链的价值:一份关于「为什么 O(log n) 推理能顶 Ω(n) 上下文」的硬核数学

拆解 arXiv 2605.13687:Mossel/Sly/Koehler 等概率大牛把语言抽象成树上广播过程,给出第一份可证、可验、可量化的'CoT 加速定理'——上下文需要 Ω(n) 才能勉强匹配真实语言的全局统计,而 Θ(log n) 比特的推理记忆就足以精确采样,并在 nanochat 训练的 Transformer 上实验逐项对齐。

【好文共赏】CTF 场景已死:澳洲安全工程师 Kabir Acharya 写给那条被 Frontier AI 蒸发掉的成长阶梯

TheHackersCrew 成员、Atlassian/Transgrid 安全工程师 Kabir Acharya 在 Opus 4.5 + GPT-5.5 Pro 同时落地后,正式宣布:开放在线 CTF 已经不再衡量人的安全技能。本文导读这篇 12,000 字第一人称长文——为什么"阶梯"塌了,比"积分"塌了更要命;以及当一整个亚文化的训练场被自动化吃掉后,剩下的还是什么。

【论文导读】SU-01:一份让 30B 开源模型拿下 IMO/USAMO 双金牌的统一配方

拆解 arXiv 2605.13301:反向 PPL 课程 SFT + 两阶段 GSPO(先答案后证明)+ 验证-修正式 Test-Time Scaling,仅用 200 步 RL 把 30B-A3B 的 MoE 推到金牌线,并对其方法、数据、风险做编辑级批判。

【好文共赏】2 小时审计、5 行代码:Project Zero 在 Pixel 10 VPU 驱动里挖出一个"圣杯级"内核漏洞

Seth Jenkins 与 Jann Horn 把 Dolby UDC 0-click 移植到 Pixel 10,又在 Tensor G5 的 /dev/vpu 里抓到一行没写边界检查的 remap_pfn_range——5 行代码、不到一天就拿到任意内核读写。本文是这条最新攻击链的深度导读。

【好文共赏】262,715 个正则问题里藏着的算法债:一位 PhD 用 859,351,734 次浏览量证明 lookahead 不是 AND

Ian Erik Varatalu 把 106 GB 的 Stack Overflow 数据集翻出来,对 262,715 个 regex 标签问题做了一次定量考古,然后用他自己的 RE# 引擎一组组打回去:tempered greedy token 比真正的补集慢 152x,密码校验的链式 lookahead 比真正的交集慢 17x,Java 的可变长 lookbehind 在 58 KB 输入上要跑 6.87 秒。这不是又一篇 RIIR,而是一篇用 60 年前 Brzozowski 微分理论 + 当代符号自动机重构整个 regex 抽象的研究笔记。

【好文共赏】8.2 万亿种可能里只剩 284 种:tmctmt 一次失眠夜把 Mullvad 用户重新指纹化

一位匿名研究者用 3650 个 WireGuard 密钥跑了一夜,证明 Mullvad 看似海量的出口 IP 组合其实只是 RNG 的一个浮点数尾巴——一篇可以让 Mullvad 联合 CEO 在 4 小时内出来道歉的、教科书级的副作用驱动安全研究。

【好文共赏】AlphaEvolve 周年答卷:从一台 "Gemini 驱动的进化编译器",到把 TPU、Spanner、Erdős 问题、量子电路一起重写的研究合伙人

DeepMind 在 2026-05-07 公开了 AlphaEvolve 一年间的真实战绩——DeepConsensus 变异检出错误下降 30%、量子电路误差降 10×、TPU 直接吃下它生成的电路、Spanner 写放大降 20%、Klarna 训练加速 2 倍、Schrödinger 推理加速 4 倍,外加帮 Terence Tao 解决 Erdős 第 1026 号问题。本文是这条"AI 重新定义算法发现"故事的完整深读。

【好文共赏】Andy Warhol 时代的终结:Anton Leicht 把 Mythos 那条"特权用户名单"翻译成了一份未来 AI 政治经济学的诊断书

当 Anthropic 把 Mythos 只发给 "select few companies"、OpenAI 的 Daybreak 复刻同一份名单、NSA 开始对前沿能力流动感兴趣——前沿 AI 的访问权正在结构性地从"广泛可得"滑向"稀缺与选择"。Anton Leicht 这篇 5 月 13 日的 8000 字长文,把三条独立力量(安全/蒸馏、算力紧缺、美国政府介入)串成一条因果链,并提出四条对冲方案。

【好文共赏】antirez 一周写出 DS4:当 Redis 之父把 GPT 5.5 当结对程序员,把 DeepSeek v4 Flash 装进 128GB MacBook

Salvatore Sanfilippo 在五月中旬扔出 DwarfStar 4——一个只为 DeepSeek v4 Flash 写的本地推理引擎,七天 8.8k stars。他在 antirez.com/news/165 用一篇短文说清楚了:这一次不是又一个 GGUF runner,而是把 KV cache 当成一等磁盘公民、用 2/8 bit 不对称量化把 284B MoE 塞进 128GB Mac、用 GPT 5.5 在一周内把整个 stack 写完的赌注。它真正回答的是:在 GPT 5.5 之后,'本地 AI 主权' 还剩多少现实可能。