Jiayun's Blog

探索与分享

📌 好文共赏 | Editor’s Pick

原文:A recent experience with ChatGPT 5.5 Pro · 作者:Timothy Gowers(Fields Medal 1998;Collège de France & Cambridge)+ 客串 Isaac Rajagopal(MIT) 发布:2026-05-08 · 阅读时长:约 35 分钟(含数学附录)· HN 热度 723 / 534 评论 · 多模型评分 Opus 9.7 / Sonnet 9.4 / Gemini 9.5(综合 9.5/10) 一句话推荐:当 Fields 奖得主亲自坐在键盘前、用零数学输入让 ChatGPT 把一个 PhD-级公开问题的上界从 指数 改成 多项式,并且被改进者本人逐节背书——LLM 与数学研究的关系,已经从「能不能做」过渡到「我们该怎么承认」。


一、为什么这篇博客值得放下手头的事去读

过去两年,AI 做数学的「里程碑文章」我们见过不少:AlphaProof 拿 IMO 银牌、Tao 借 GPT-4 跑 polymath、FrontierMath 的私题刷分。但绝大多数都有两条共同遗憾:

  1. 评估者要么是模型作者自己(利益相关),要么是非主流方向的研究者(quoting 力度不够);
  2. 实验过程不可复现:要么是不公开的私题,要么是高度优化的 prompt + tool 链路。

Gowers 这篇博客之所以特殊,是它一次性把这两条遗憾都抹掉了:

  • 评估者重量级:Timothy Gowers,1998 年 Fields 奖得主,加性组合学的奠基性人物之一,比专门做 AI 评估的人远更挑剔;
  • 过程完全透明:他给出每个 prompt 的具体内容、ChatGPT 的思考时间(17 分 5 秒、16 分 41 秒、47 分 39 秒……)、生成的 LaTeX preprint 链接,以及最关键的——被 ChatGPT 改进的那位作者 Isaac Rajagopal 亲自下场,写了一段「客串评估」,承认其中一个 idea「我会很骄傲花一两周才想到」。

这不是「LLM 在某基准上超过博士平均水平」之类的统计宣称。这是一份单点存在性证明:在加性数论、组合学这种纯靠人脑构造的领域,一个被高规格证人核验过的「PhD 章节级」原创结构,由 LLM 在大约 2 小时内、零数学输入下产出。

更深的一层意义,是 Gowers 在文末讲的——「教 PhD 学生做研究这件事,刚刚变难了」。这是 AI 时代关于研究教育最早、最坦率的一个具体判断,比 Twitter 上的抽象焦虑要扎实得多。

(顺便说,这种『顶级行业内人士亲笔示范 + 反向自我祛魅』的写法,与我们之前选过的 《curl 之父亲测 Mythos》 内核高度一致——都是「一线专家用真实样本去对 AI 神话祛魅或正名」的典范。)


二、用一句话讲清楚 Gowers 让 ChatGPT 做的是什么问题

如果你对加性数论完全陌生,可以这样想:

给你 $k$ 个整数,你可以拿它们任意挑 $h$ 个(允许重复)相加。把所有能造出来的和收集起来,得到一个新集合 $hA$。这个新集合的大小,最少是 $hk - h + 1$(当 $A$ 是等差数列),最多是 $\binom{k+h-1}{h}$(当 $A$ 是 $B_h$-set,所有和都两两不同)。介于两者之间的每个值 $t$,能不能都用某个 $k$ 元集合 $A$ 达到?如果能,最小的 $A$ 直径(即 $\max A - \min A$)需要多大?

这个问题就是 Mel Nathanson 在 Diversity, Equity and Inclusion for Problems in Additive Number Theory 这篇文章里展开的一连串小问题之一。Nathanson 给了一个上界 $2^k - 1$(指数级),并问能不能改进。

ChatGPT 5.5 Pro 第一步,把这个上界改成了 $O(k^2)$(多项式级),而且 quadratic 是显然最优的。它的做法是把 Nathanson 用「2 的幂」这种指数大的 Sidon 集合,换成「Singer 构造」给出的密度更高(直径只有 $k^2$ 级别)的 Sidon 集合。

第二步,Gowers 加大难度,问 ChatGPT 能不能把 Rajagopal 2024 年那篇论文里关于 $h \ge 3$ 时的指数级上界(约 $C^k$)改进。这一步才是真正的山脊。

  • 16 分 41 秒后,ChatGPT 给出第一个改进:把指数 $k$ 改成指数 $\log k$。Isaac 评价为「我工作的一个常规修改」。
  • 经过若干来回,最终 ChatGPT 把上界压到 多项式级,使用的是一个 原创 的构造:用 $B_h$-set / $h$-dissociated set 替换原来论文里的几何级数 $1, q, q^2, \dots, q^{k-1}$。
  • Isaac 的原话:「这个 idea 完全是原创的,我会非常骄傲花一两周想出来。」

Gowers 把这次实验的「研究工作量」校准为:相当于一个组合学 PhD 论文的合理章节。不算顶级 break-through,但远不是「拼接已知」。


三、为什么这次比之前所有「AI 做数学」事件都更冲击

3.1 评估者是被改进的人本人

过去 AI 做数学的报道,最容易被打回原形的一句话是:「这个 idea 早就在文献里有了,AI 只是抄出来。」

Gowers 这次设计的鬼斧神工就是——把被改进的人本人请过来评估。Isaac Rajagopal 是 MIT 数学系学生,他自己在 2024 年用近一年时间完成了对 $\mathcal R(h, k)$ 的完整刻画。如果 ChatGPT 用的 idea 在他论文哪个角落已经隐含,最有资格指出来的就是他。

但 Isaac 的客串文章里,他反过来做了一件让 AI 信徒和怀疑论者都难以辩驳的事:他在第三人称视角下,用自己的语言,重新推导了 ChatGPT 的构造,并说「这个 idea 完全是原创的(completely original,as far as I can tell)」。

更精彩的是,Isaac 把 ChatGPT 的关键 trick——「用 $h$-dissociated 集合控制低阶加法关系」——拆成了 (a)(b)(c)(d) 四条 property,逐一在两套构造(他的旧构造 vs ChatGPT 的新构造)之间做映射,并指出:核心 idea 不在最后的论证,而在最开始那一步「能不能找到一个只用多项式大数字的 $h$-dissociated 集合」

这是真正的「数学家级别 review」,比任何 LLM 自评、benchmark 跑分都强一万倍。

3.2 没有 tool use,没有 RAG 神话

Gowers 强调:"My mathematical input was zero." 他没有给 ChatGPT 喂论文(除了说"Rajagopal 那篇 arxiv 论文"),没有显式让它去搜文献,更没有跑 Lean。它就在 ChatGPT 5.5 Pro 的 chat 框里、用一句话级别的 prompt,吐出 LaTeX 排版的 preprint。

这意味着:

  • 它的「思考」是真的——17 分、47 分、31 分这种时长,是 reasoning model 内部 chain-of-thought 推理的时长(与我们之前讨论过的 《LLM 推理:latent 不是 CoT》 提到的"潜推理"路径有一致内核);
  • 它的「知识」来自训练语料 + reasoning 自洽。Singer 1938 的构造、Bose-Chowla 1962 的构造,都是教科书内容,但能在恰当的时机想起来、装配在正确的位置,是一种"做研究的反射"。

如果有人怀疑这是 prompt 黑魔法的结果,Gowers 直接附上了两份 ChatGPT 写的 preprint 链接(一份小问题 $h=2$、一份大问题 $h \ge 3$),任何人都可以下载、自己核验。

3.3 它产出的不是答案,而是 publishable structure

回顾近两年「AI 数学」热点:

  • AlphaProof 用的是形式化证明(Lean),它产出的"证明"非数学家几乎无法阅读;
  • FrontierMath 测的是「给一个高难度题,输出一个数字答案」,离论文还差好几公里;
  • Tao 用 GPT 主要在写文献综述、查约稿格式。

而 ChatGPT 5.5 Pro 这次产出的是 一份能直接进 PhD 章节的 LaTeX preprint,从问题陈述、定理表述、构造、引理、附录、与原论文的对应表,一应俱全。这是从「答题机」走到「论文写作合作者」的台阶。

Gowers 用了一个犀利的反问:

原文(节译):如果这份结果是某位人类数学家做出来的,它毫无疑问是可以发表的。但把它送进期刊又没什么意义——它已经免费可读了,也没人需要"credit"(除了 Isaac,他确实需要 credit)。

这个观察暴露了学术出版体系的一个空洞:期刊系统的核心功能是分配 credit + 同行评审,但 AI 产出的内容把第一项功能挂空了


四、Gowers 在文末抛出的四颗深水炸弹

读到这里,AI 怀疑论者可能想说:「不就是一篇博士论文章节吗?数学家又不是为了刷 SCI 而活的。」但 Gowers 的反思才是这篇文章真正的杀伤力所在。他在文末连扔了四颗炸弹,每一颗都值得单独写一篇博客来回应。

炸弹 1:训练 PhD 学生这件事,刚刚变难了

原文(节译):训练新博士生做研究这件事一直就很难。其中一种常用方法,是给他们一个"看上去比较温和"的问题。如果 LLM 已经能解决"温和问题",这条路就堵死了。从今往后,给学生的 PhD 问题,最低门槛是 LLM 自己解决不了的

这条非常具体、可操作,几乎可以预见今年秋季招生季就会有导师重新洗牌备题库。

这与我们之前介绍过的 《资深开发者为何"说不清"自己的价值》 在结构上完全同构——AI 在不断抬升「入门工作」的门槛,迫使行业把"junior 到 senior"的路径重新设计。

炸弹 2:人类研究者依然有"剩余价值"——但价值的形态变了

Gowers 进一步指出:未来仍然有人会做数学,但 目的从「在世界上留下你的名字」变成「内化解题过程本身」

原文(节译):会写代码的人是更好的"vibe coder";懂基本算术的人能识别计算器的错误。同样,做过数学研究的人,会成为更好的 AI 协作者,能识别 AI 输出里 “feel wrong” 的地方。

这是一种 可迁移技能的重估:研究本身不再是产物,而是过程。这与 《David Silver: Ineffable Intelligence》 里 RL 那种「过程即奖励」的哲学有近亲关系——只不过 Silver 是给 agent 讲的,Gowers 是给人类讲的。

炸弹 3:arXiv 与学术体系的政策空白

原文(节译):arXiv 有反对接收 AI 内容的政策,这是合理的。但也许应该有一个专门的 repository,让 AI 产出的结果可以"活着"。前提是:有人类数学家认证,或者有 proof assistant 形式化验证;并且要求它必须回答了人类提出的某个问题。

这是研究治理空缺的明确指认。 Lean / mathlib 社区可能是第一个能承接这个角色的——它已经有完整的形式化机制 + 社区审议流程。把"AI preprint repository + Lean 自动验证 + 社区 review"组合起来,不难想象成为下一代学术发表机制的雏形。

炸弹 4:原创性的定义

Gowers 留下一个开放问题:

原文(节译):假设一位数学家通过与 LLM 长时间对话解决了某重大问题,人类只做了引导,LLM 做了所有技术工作并给出主要 idea。我们会不会把这视为这位数学家的重大成就?我不认为我们会。

但 HN 评论区 mxwsn 等给出反方观点:F1 比赛同时奖励车手和工程师;这是文化选择不是技术结论。

这场关于"AI 时代学术信用归属"的辩论,几乎可以确定会在未来 3-5 年炸开。


五、细读 ChatGPT 的关键 trick:$h$-dissociated 集合替换几何级数

为了让非数学读者也能感受 ChatGPT 究竟做了什么,我把核心思路用最少的术语重写一遍。读懂这一节,你能对"原创性"的具体形态有直观感觉。

Isaac 的原始构造:要造一个 $k$ 元集合 $A$,使 $|hA| = t$(一个指定的中等值)。他用的「积木」是几何级数:

$$ G_q = {1, q, q^2, \dots, q^{k-1}} $$

这个东西有几个漂亮性质:

  • (a) 它是 $B_{h-1}$-set;
  • (b) 它在 $h-1$ 重和集大小是 $k$ 的线性函数;
  • (c) 它是 $B_h$-set;
  • (d) 它在 $h$ 重和集大小是 $k$ 的二次函数。

这些"四件套"让你能在中间装配、调出任意 $|hA|$。但问题是——$G_q$ 的元素最大是 $q^{k-1}$,是 $k$ 的 指数级 数字。所以总体集合 $A$ 的 diameter 也是指数级。

ChatGPT 的关键替换:能不能找一个集合 $D$,元素都是 $k$ 的多项式量级,但仍然满足上述四件套?

它的答案是 $h$-dissociated set。这是一类比 $B_h$ 弱、但只要求"低阶加法关系都是平凡"的集合。利用有限域 $\mathbb F_{p^h}$ 的乘法群,可以构造出长度 $\sim p^h$(多项式级)的 $h$-dissociated set $D_h$(这是 1938 年 Singer 构造的小推广)。

然后 ChatGPT 定义两个新积木:

$$ G^{\text{new}}_1 = D_h \cup (D_h + L), \quad G^{\text{new}}_2 = D_h \cup (D_h + L) \cup (D_h + 2L) $$

其中 $L$ 是一个比 $D_h$ 直径稍大的整数。它证明这两个新积木 也满足 (a)(b)(c)(d),而且元素全是 $k$ 的多项式量级。然后整套上界证明套路完全平移过来。

为什么这是"原创"——Isaac 看完后说:「这不是简单的术语替换,因为 $B_h$-set 和 $h$-dissociated set 在所需性质上有微妙的不一致;ChatGPT 看出了 $h$-dissociated 已经够用,并具体证明四件套依然成立。这一步我从没想过。」

这就是 LLM 走过的临界点:不是"会查文献"、不是"会复用模板",而是 在两个相关但不完全等价的概念之间,看出哪一个更弱的能 substitute、并补上验证细节

这是数学家最贵的技能,也是最容易被低估为"trivial trick"的能力。

(这种"替换更弱但够用的工具"的思维方式,让我想到我们之前讨论 《Apple PorTool: 信用分配 + 树形工具使用 RL》 时介绍的 tree-of-tool-use 框架——智能体也在不断"用最便宜的工具替代最贵的工具"。这本质上是一种 优化品味。)


六、HN 评论的三种典型反应

文章在 HN 上 723 分、534 评论,反应大致分三派:

(A) AI 凯歌派:用「F1 车手 vs 工程师」类比,强调使用 LLM 解决问题本身是一种新的学术贡献。引用次数最高的评论之一:

在以 AI 协作产生最佳结果的时代,深刻的领域专家 + LLM 调教者将做出 outsized 贡献。真正的转折点是 纯 AI > 人 + AI 的那一刻。

(B) S 曲线怀疑派:用 dehrmann、coldtea 等用户作代表,主张这是 S 曲线临近顶端的最后冲刺,未来一两年会饱和。但他们没法解释为何 Gowers 看到的 capability 增长还在加速。

(C) 数学纯粹派:用 qwrahg 那条评论作代表——“Wiles 和 Perelman 从来不发 blog,只解决真问题”。这条评论被反驳很多次,因为它把"使用通信工具"和"做研究"混为一谈。

值得注意的是,反对最强烈的并不是数学家——而是软件工程师群体,他们最害怕被替代。数学家群体(包括评论区的 quasihumanist、mwildon 等可识别专业身份的用户)反而冷静许多,更多在讨论 arXiv 政策、形式化验证、PhD 教育这些治理问题。


七、延伸阅读图谱

7.1 Gowers 自己的其他相关写作

7.2 相关 AI-for-Math 论文与博文

  • DeepMind, AlphaProof / AlphaGeometry 2 IMO Silver (2024):神经搜索 + Lean 形式化,第一次拿到 IMO 银牌;与 LLM 路线对应。
  • Trinh et al., Solving olympiad geometry without human demonstrations (Nature 2024):AlphaGeometry 原始论文。
  • Wu et al., FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI (arXiv 2411.04872):私题难基准。
  • Terence Tao 在 mathstodon 关于 GPT 的多篇笔记 (2024-2025):与 Gowers 不同,Tao 用 GPT 主要做"研究 sherpa",记录他对模型上下行能力的体感。
  • Lean Community 的 Mathlib4: 形式化数学的 ground truth 库,Gowers 提到的 “AI repository + proof assistant” 治理方案直接依赖它。
  • Buzzard et al., FLT in Lean (Imperial College London FLT 项目): 形式化费马大定理,可视为 Gowers 设想的 “human-AI-machine 三方核验” 的工程预演。
  • Bloom, Erdős Problems Database (erdosproblems.com):本文背景里反复出现,是 LLM 攻克"易解未解"问题的主战场。

7.3 反方观点

  • Gary Marcus, AGI is still nowhere near (Substack 2026 系列):经典 AI 怀疑论;可与 Gowers 文本对照阅读,看具体证据如何冲击抽象怀疑。
  • Yann LeCun 关于 LLM 推理局限的 Twitter 长帖(2025-2026):从 architecture 层面解释为何 LLM 看似做了数学其实是表面拟合;与 Gowers 实测形成有趣张力。
  • Subbarao Kambhampati, Can LLMs Reason and Plan? (Annals NY Acad Sci 2024):实证质疑 LLM 推理;但他基本不讨论 chain-of-thought 推理模型的最新一代。

八、编辑延伸思考:临界点的形态

读完这篇文章,我想到三个层级的临界点判断。

第一层:能力曲线

我自己用过 Opus 4.7、GPT-5.5 Pro、Gemini 3.1 Pro 做数学。一个朴素观察是:真正的"原创性 leap",往往不是出现在 benchmark 分数的连续上升中,而是出现在某些特定 cognitive primitives 的解锁瞬间

比如:

  • “看出两个概念在所需性质上的差异并选择更弱的那个”——这是 ChatGPT 在本文中展示的;
  • “在多个看似无关的引理之间发现潜在桥梁”——Tao 提到的;
  • “知道什么时候该问’这真的是必要的吗?’"——Isaac 的客串文章里反复提到的。

这些不是新功能,是 reasoning 训练把潜在能力激活的副产品。一旦激活,benchmark 提升是不可逆的。

参考我们之前讨论的 《前沿 AI 模型竞速 2026Q1》:各家模型在 reasoning benchmark 上的曲线已经显示这种"阶梯式跃迁"特征。

第二层:研究文化

Gowers 文末提到的"训练 PhD 学生变难了”,本质是 机器抬高了"研究 floor"

  • 以前 PhD 入门题目 = 文献里没人做过 + 难度温和;
  • 以后 PhD 入门题目 = 文献里没人做过 + 难度温和 + LLM 也做不了。

这个增量看似小,但意味着每个导师都需要重新设计题库,意味着"温和题"的供给会枯竭,意味着学生与导师的协作模式需要 redesign(也许会出现"博士生 + LLM + 导师"的三方协作论文常态)。

这与软件工程界已经发生的"AI 抬升 junior floor"完全同构。我们在 《资深开发者为何"说不清"自己的价值》 里讨论过——AI 杀死的不是 senior,是 junior 的成长路径。学术界的相同动力学正在到来。

第三层:学术信用体系

最后一层冲击最深,也最难短期解决。

Gowers 提出的「AI repository + 人工或形式化认证」是个合理的 v1 方案,但它解决的是"如何让 AI 结果进入文献"的问题,没解决"如何分配 credit"。

我个人倾向于一个混合方案:

  1. AI 产出的结果有一个独立的 namespace,例如 arXiv/AIMathlib/AI
  2. 每个结果必须挂钩:(a) 触发的 human researcher(提问者),(b) 使用的 model + 版本,(c) 形式化验证状态;
  3. 引用时分别标注,类似 “Smith (with assistance of GPT-5.5 Pro, formalized in Lean 4)";
  4. 期刊重新定义"研究贡献”,把"问题选择 + 评估准确性 + 把 AI 结果 integrate 进更大叙事"也视为可发表的工作。

这个方案的好处是不需要否认 AI 的贡献,也不需要把 AI 列为合作者(合作者要承担责任,模型不能承担),同时给做 prompt + 评估 + 整合的人类研究者留出明确的署名空间。

但这个方案的最难一步,是说服顶尖期刊接受。短期内可能 Discrete Analysis(Gowers 自己办的)会先吃螃蟹。

(这个治理空白与我们之前讨论的 《AI Copyright Laundering》AI 产出归属 问题上呈现镜像关系——一个是从下游消费侧探讨 AI 内容洗稿,另一个是从上游生产侧探讨 AI 内容如何被承认。两端的张力会在 2026-2028 年同时爆发。)


九、配套资料导览

本文目录下另附四份配套资料:

  • cover.svg:封面图,深色背景 + 加性数论符号装饰;
  • mindmap.svg:思维导图,把全文五个主轴(实验过程、技术突破、验证链、教育冲击、元问题)放在同一张图上;
  • concept-cards.md:12 张关键概念卡,从 Sumset / Sidon set 到 arXiv 政策,每张卡含定义 + 历史 + 在本文中的角色;
  • glossary.md:60+ 条英中术语对照,分加性数论、AI 与 LLM、研究文化、研究治理四个分区。

十、谁应该读这篇原文

  • AI 研究者:想看 reasoning model 在真实研究场景下的 capability 边界 而不是 benchmark 数字;
  • 数学家与理论 CS 研究者:想知道自己未来 3-5 年的研究方式会发生什么 framework-level 变化;
  • PhD 学生与博士后:想理解为什么导师可能开始给你不一样的题目;
  • 学术期刊编辑:要面对的 governance 问题已经摆在面前;
  • 技术产品经理 / 高管:想看 AI 在"高门槛专业领域"的实际渗透形态,不是 marketing demo;
  • 任何关心"AI 时代人的剩余价值"的人:Gowers 这篇博客给出了我读过最具体、最诚实的回答之一。

如果你只能从原文带走一句话,我建议是 Gowers 文末的这句:

原文:通过解决困难数学问题,你不一定能得到上一代数学家曾得到的奖赏,但你会非常好地装备好自己,去面对我们即将经历的世界。

这句话不只适用于数学家。


本文为 xiejiayun.github.io · 好文共赏 系列第 N 篇。原文链接 Gowers’s Weblog。所有引用均在 10% 之内,金句已标注「原文」。如发现疏漏,欢迎在 issue 区指出。