一、AlphaFold 之后的真问题
2021 年 AlphaFold 2 让"给序列预测三维结构"从一个开放科学难题变成一个工程问题。但生物学界很快意识到:结构只是开始。一个蛋白质有结构不代表知道它的功能,更不代表能按需设计一个新蛋白质来执行特定任务。2024-2026 这三年,蛋白质 AI 的研究重心彻底转向了三件事:
- 功能预测:给定序列/结构,预测它催化什么反应、与谁结合、亲和力多少。
- 从头设计(de novo design):给定一个想要的功能,反向生成一段序列。
- 湿实验闭环:把预测/设计的结果在自动化实验室快速验证,形成数据飞轮。
这三件事中,第一件最难,第二件商业价值最大,第三件决定模型能不能持续进化。
二、模型代际:从 ESM 到 ESM-3 的范式转换
EvolutionaryScale 在 2024 年发布的 ESM-3 是这一代的标志性工作。它把蛋白质表示从单纯的"氨基酸序列"扩展为三模态联合:序列、结构(离散化为 structure tokens)、功能(SASA、二级结构、活性位点等注释)。
| 模型 | 年份 | 参数量 | 训练目标 | 主要能力 |
|---|---|---|---|---|
| ESM-2 | 2022 | 15B | 掩码序列建模 | 序列嵌入、结构预测 |
| AlphaFold 3 | 2024 | ~10B | 配对距离扩散 | 复合物结构(蛋白+核酸+小分子) |
| ESM-3 | 2024 | 98B | 多模态掩码 | 序列↔结构↔功能任意填空 |
| RFdiffusion | 2023 | 小 | 结构空间扩散 | 给定 motif 生成骨架 |
| Boltz-2 | 2025 | 开源 | AlphaFold3 复刻+优化 | 开源的高质量复合物预测 |
| Chai-1 | 2024 | 闭源 | AF3 路线 | 商业 API 与药物筛选 |
ESM-3 真正的突破在于"任意填空"范式:你可以给定一段序列+一个想要的活性位点几何,模型补全剩下的结构和未确定的氨基酸。这从原理上把"设计"问题统一到了"条件生成"框架里。
三、为什么功能预测仍然没解决
外行经常以为有了结构就能算功能。事实上,结构到功能的映射极度多对一且高度上下文依赖:
| |
具体困难在三处:
- 动态构象:很多酶的活性来自纳秒-微秒尺度的构象变化,单帧静态结构无法刻画。AlphaFold 给你的是中位结构,不是功能态。
- 环境依赖:同一个蛋白质在细胞质、膜上、复合物中行为完全不同。当前模型几乎全部假设孤立蛋白。
- 数据稀缺:UniProt 有 2.5 亿序列,但有实验功能注释的不到 1%;高质量动力学数据(kcat、Km)更少,常常只有 10^4 量级。这是典型的"模型饿死于数据"。
谁能解决数据问题,谁就能赢功能预测的下半场。这正是 Insitro、Recursion、Isomorphic Labs 这些公司大举建设自动化湿实验平台的原因——不是为了便宜,而是为了独占功能数据。
四、从头设计:David Baker 路线已经赢了
2024 年 David Baker 拿诺贝尔化学奖之后,“从头设计蛋白质"从科学幻想变成了工程现实。RFdiffusion + ProteinMPNN 这一套组合,已经能稳定设计出:
- 与指定 epitope 高亲和力结合的 binder(纳摩尔级 K_d)
- 含特定金属/底物结合口袋的人工酶(虽然 kcat 还远不及天然酶)
- 自组装的纳米笼、跨膜通道
- 光控、pH 控的开关蛋白
商业落地最快的是 binder 设计,因为它的目标函数最清晰:高亲和力、高特异性、低免疫原性。Generate Biomedicines、Xaira Therapeutics、EvolutionaryScale 旗下的应用部门都在做。预计 2027 年会有第一个完全 de novo 设计的治疗性蛋白进入临床 II 期,这将是医药史上的拐点。
但人工酶仍然落后。天然酶经过亿年进化,活性位点的精细几何与动力学是当前模型难以重现的。Baker 实验室 2025 年最好的人工 retro-aldolase 比天然版本慢 10^4 倍,差距巨大。
五、湿实验闭环:被低估的护城河
模型的能力上限取决于训练数据,蛋白质数据 99% 来自湿实验。这就是为什么 “AI + 自动化生物实验室” 是这个领域真正的护城河:
- Emerald Cloud Lab、Strateos、Arctoris 提供云端实验调用
- Insitro 自建 100,000 平米的全自动 BSL-2 设施
- Isomorphic 与 Eli Lilly、Novartis 的合作本质是借大药企的实验产能换药物管线分成
这些数据不会进 UniProt,会变成各家私有的功能-序列数据集,进而训练出公司专有的微调模型。学术界与商业界的能力差距会在 2026-2028 年被永久拉开——这点和 LLM 领域的 OpenAI vs 学术界惊人相似。
六、几个反主流的判断
- AlphaFold 3 不是终点,而是过渡品。下一代会是"分子动力学 + 扩散模型"的混合体,能输出构象集合而不是单一结构,预计 2027 出现。
- “通用蛋白质大模型"会被打散。功能预测、binder 设计、酶设计会各自有专家模型,统一模型在所有任务上都不会是 SOTA。
- 开源会赢学术,但输给商业。Boltz-2、ESM-2 这些开源模型已经让学术研究者跟得上前沿,但缺数据闭环让他们永远赶不上 Insitro/Isomorphic 的下一代。
七、结语
蛋白质 AI 已经从"能预测吗"进入"能设计吗、能上市吗"的阶段。这是一个真正的"AI for Science"成功案例——不是 demo、不是 PR,而是会在五年内改变一个万亿美元行业的真实变革。如果你只关注 LLM 的喧嚣而错过这条线,会错过过去十年最大的科学—产业耦合机会。
参考资料
- Hayes T. et al., “Simulating 500 million years of evolution with a language model” (ESM-3), Science 2025 — https://www.science.org/doi/10.1126/science.ads0018
- Abramson J. et al., “Accurate structure prediction of biomolecular interactions with AlphaFold 3”, Nature 2024 — https://www.nature.com/articles/s41586-024-07487-w
- Baker Lab, “RFdiffusion: De Novo Protein Design” — https://www.bakerlab.org/
- Boltz-2 Open Source Project — https://github.com/jwohlwend/boltz