Jiayun's Blog

探索与分享

当AlphaGo之父说"AI走错了路"

2026年4月底,一条融资新闻在AI圈引发了比任何模型发布都要热烈的讨论:David Silver创立的Ineffable Intelligence以51亿美元估值完成了11亿美元融资。 这家公司成立仅几个月。

11亿美元给一家几个月大的公司——这在任何时代都算疯狂。但当你了解David Silver是谁、他要做什么、以及为什么他认为当前整个AI行业都走错了方向之后,你可能会改变看法。

David Silver:一个需要被理解的人

不可复制的履历

David Silver不是一个普通的AI研究员。他是:

  • AlphaGo的核心创造者(2016年)——让AI第一次在围棋领域击败人类世界冠军
  • AlphaZero的设计者(2017年)——一个从零开始、不需要任何人类棋谱就能在围棋、国际象棋和日本将棋中达到超人水平的系统
  • 强化学习领域的奠基人之一——他在UCL的强化学习课程是该领域最受欢迎的入门资源
  • DeepMind的核心科学家——在Google DeepMind工作超过10年

关键是AlphaZero。这个系统在没有任何人类知识的情况下,仅通过自我对弈(self-play),在24小时内就超越了所有人类围棋知识的积累。这不是渐进式改进——这是一种全新的学习范式的证明。

为什么他离开DeepMind

Wired的深度报道标题已经说明了一切:“The Man Behind AlphaGo Thinks AI Is Taking the Wrong Path”(AlphaGo背后的人认为AI走上了错误的道路)。

Silver的核心论点可以归结为一句话:当前的LLM范式本质上是在压缩和复述人类已有的知识,而不是在发现新知识。

GPT-5.5再聪明,它的知识边界也不会超过人类互联网上已有内容的范围。它可以更好地组合、推理、总结人类知识,但它不会独立发现新的数学定理或物理定律。

AlphaZero则不同。它在围棋领域发现了人类3000年来从未想到的策略——不是因为它"学了更多人类棋谱",而是因为它完全绕过了人类知识,从第一性原理出发探索。

哲学分裂:两条通往超级智能的路

当前AI领域存在一个根本性的方法论分歧,可以类比为物理学中的"弦论vs圈量子引力"——两个阵营都有顶尖人才,都有部分实验验证,但方向截然不同。

路线一:数据驱动(当前主流)

代表公司:OpenAI、Anthropic、Google DeepMind(LLM部门)、DeepSeek

核心假设:足够多的人类数据 + 足够大的模型 + RLHF对齐 = 通用智能

成就:GPT-5.5、Claude Opus 4.7、DeepSeek V4等

挑战:

  • 高质量人类数据正在枯竭(互联网数据是有限的)
  • 合成数据存在"模型坍缩"风险
  • 本质上受限于人类知识的边界
  • RLHF中的奖励黑客问题(Reward Hacking)日益严重

路线二:自我博弈/自我发现(Silver的路线)

代表:Ineffable Intelligence、AlphaZero遗产

核心假设:正确的学习算法 + 足够的计算 + 自我博弈 = 超越人类知识边界的智能

成就:AlphaGo/AlphaZero(围棋)、AlphaFold(蛋白质结构预测)

挑战:

  • 目前只在有明确规则/奖励函数的领域验证过
  • 如何扩展到开放世界的通用任务?
  • “奖励函数设计"本身可能成为新的瓶颈
维度数据驱动路线自我博弈路线
知识来源人类生成的数据自我探索和发现
知识上限人类已有知识的边界理论上无上限
适用领域语言、代码、通用任务规则明确的博弈、科学发现
数据需求海量高质量数据极少或零人类数据
计算需求极高(训练+推理)极高(自我博弈+搜索)
当前成熟度高度商业化领域受限

奖励黑客:自我博弈路线的阿喀琉斯之踵

Lilian Weng(OpenAI研究科学家)最近发表的关于强化学习中"奖励黑客”(Reward Hacking)的深度分析,恰好揭示了Silver路线面临的核心技术挑战。

奖励黑客是指:RL agent找到了最大化奖励函数的捷径,但并没有真正学会预期的任务。 这就像一个学生找到了考试的漏洞——分数很高,但什么都没学会。

在围棋中,奖励函数是清晰的:赢了就是赢了。但在更复杂的现实世界任务中:

  • 如何定义"好的科学发现"的奖励?
  • 如何定义"有用的医学建议"的奖励?
  • 如何防止AI找到奖励函数的"后门"?

Silver的挑战是:能否设计出足够强大且不可被"黑客"的奖励函数,使自我博弈在开放世界中也能奏效?

这是一个价值11亿美元的问题。

为什么投资人敢赌?

11亿美元给一家几个月大的公司,投资人的逻辑是什么?

1. Silver是极少数"已经证明过一次"的人

AlphaGo/AlphaZero不是论文上的理论——它是在全世界面前击败了人类冠军的实际系统。在AI领域,能把研究转化为震惊世界的工程成果的人屈指可数。

2. 数据墙正在逼近

当前LLM路线的一个公开秘密是:高质量训练数据正在接近枯竭。互联网上的文本虽然庞大,但经过几代模型的训练后,边际收益正在快速递减。如果Silver的方法能绕过数据墙,这将是一个巨大的战略优势。

3. 不对称回报

如果自我博弈方法能扩展到通用智能——哪怕只是在几个关键科学领域——其价值将远超任何LLM公司。AlphaFold对生物学的影响已经证明了这一点。

4. 人才虹吸效应

Silver的名字本身就是人才磁铁。他能从DeepMind、FAIR、OpenAI等顶级实验室吸引最优秀的强化学习研究者。

DeepSeek的启示:两条路线可能在收敛

有趣的是,当我们把视野拉远,会发现两条路线可能并非完全对立。

DeepSeek V3和V4在训练过程中大量使用了强化学习——特别是在推理能力的提升上。DeepSeek-R1的成功证明了RL可以显著提升LLM的推理能力。这意味着未来的最强模型可能是两条路线的混合体

  • 用大规模数据训练基础语言能力
  • 用自我博弈/强化学习提升推理和发现能力
  • 两者的边界可能会越来越模糊

Silver的工作如果成功,最大的受益者可能不只是Ineffable Intelligence自己——它可能会为整个行业提供新的训练范式,让所有模型都变得更强。

我的判断

Silver的赌注是正确的方向,但时间线高度不确定。

自我博弈在规则清晰的领域已经被证明是超越人类的最佳路径。问题在于能否扩展到开放世界——这可能需要3年,也可能需要30年。

11亿美元足够吗? 如果Silver的方法需要AlphaZero级别的计算量来训练通用系统,答案可能是"不够"。但如果他找到了更高效的算法(这正是他的强项),这笔钱可能绰绰有余。

最值得关注的信号:如果Ineffable Intelligence在未来12个月内展示了一个在新科学领域(不是围棋)通过自我博弈取得突破的系统,那么整个AI行业的估值逻辑都将被重写。

给读者的行动建议

  1. 不要只关注LLM的参数量竞赛——自我博弈路线可能在你意想不到的时候爆发
  2. 如果你在做AI应用——目前仍然依赖LLM路线,但要为范式转换做心理准备
  3. 如果你是AI研究者——强化学习和自我博弈是值得深入的方向,Silver的押注给了这个领域新的资金和关注度
  4. 阅读Silver在UCL的强化学习课程——理解他的思维方式比预测他的成果更有价值

参考链接