从"聊天机器人"到"代理工厂":一场静悄悄的范式转移
2026年第一季度,AI行业悄然越过了一个临界点:企业AI支出的重心从模型训练转向了代理基础设施。Cloudflare在Agent Week期间宣布的一系列产品、NVIDIA将数据中心重新定义为"Token工厂"、以及OpenAI与Cloudflare的深度合作——这些看似独立的事件背后,是一场关于AI代理运行时基础设施的平台大战。
这不再是关于谁的模型更聪明的竞赛。这是关于谁拥有AI代理运行的管道。
Agent基础设施的技术栈:五层结构正在固化
Sebastian Raschka近期对编码代理架构的深度拆解,揭示了一个正在快速标准化的技术栈:
| 层级 | 功能 | 代表玩家 | 状态 |
|---|---|---|---|
| 模型层 | 推理与决策引擎 | Claude Opus 4.7, GPT-5.4, Gemma 4, Kimi K2.6 | 红海竞争 |
| 编排层 | 任务分解、工具调用、记忆管理 | LangChain, CrewAI, Cloudflare Agent SDK | 快速整合 |
| 运行时层 | 代理执行环境与沙箱 | Cloudflare Agent Cloud, Modal, AWS Lambda | 关键战场 |
| 数据层 | 向量存储、上下文管理、知识图谱 | Pinecone, Weaviate, Cloudflare D1 | 差异化竞争 |
| 基础设施层 | 计算资源、网络、安全 | NVIDIA AI Factories, AWS, Azure | 寡头格局 |
核心洞察:真正的竞争焦点不在模型层(已经商品化),而在运行时层和编排层。 Cloudflare正在赌的就是这一点。
Cloudflare的Agent Cloud:为什么值得严肃关注
Cloudflare在2026年Agent Week推出了三个值得关注的产品:
1. Agent Cloud运行时 与OpenAI合作,将GPT-5.4和Codex直接整合到Cloudflare的边缘网络中。这意味着AI代理不需要回到中心化的API服务器——它们可以在离用户最近的边缘节点上运行。对于需要低延迟响应的代理场景(如实时客服、交易决策),这是一个结构性优势。
2. Agent Readiness Score 这是一个被很多人忽略但意义深远的产品。Cloudflare开始为网站评估"代理友好度"——你的网站是否对AI代理可访问?结构化数据是否清晰?API是否Agent-ready?这实质上是在定义Web 4.0的标准——一个为AI代理而非人类浏览器优化的互联网。
3. AI Code Review at Scale Cloudflare透露,过去30天内其93%的研发组织使用了基于自身平台构建的AI编码工具。这不仅是"吃自己的狗粮"——这是在证明AI代理工作流可以在大型工程组织中规模化运行。
NVIDIA的Token工厂:重新定义AI经济学
NVIDIA提出了一个改变行业思维方式的框架:数据中心不再是存储和处理数据的地方,而是生产Token的工厂。
这个重新定义看似只是修辞,实则有深刻的经济学含义:
- 度量标准变革:从FLOPS、存储容量转向**每Token成本(Cost per Token)**作为AI基础设施的核心指标
- 产能规划:像制造业一样规划Token产能,而非传统的计算资源分配
- 供应链思维:Token的生产→分发→消费形成了一条完整的供应链
按NVIDIA的分析,当AI推理成为数据中心的主要工作负载时,整个TCO(总拥有成本)的优化逻辑都需要重写。传统数据中心优化的是单位计算成本,AI Token工厂优化的是单位智能产出成本。
Tokenmaxxing:当指标成为目标
在Agent基础设施繁荣的另一面,The Pragmatic Engineer揭露了一个令人不安的趋势:Tokenmaxxing。
在Meta、Microsoft、Salesforce等大型科技公司中,管理层设定了"AI使用率"作为工程师的KPI。结果呢?工程师开始刻意消耗Token——让AI重复生成无意义的代码、用AI完成可以一行命令解决的任务、甚至编写脚本自动向AI发送查询。
这是古德哈特定律(Goodhart’s Law)在AI时代的经典体现:当指标成为目标时,它就不再是好的指标。
这揭示了Agent基础设施面临的一个深层挑战:如何度量AI代理的实际价值产出,而非仅仅衡量Token消耗量?
当前业界尚无公认的"AI代理ROI"度量框架,这意味着大量企业的Agent投入可能是在烧钱——而且是有组织地、系统性地烧钱。
编码代理的架构解剖
Raschka的分析揭示了当前编码代理的核心组件:
记忆系统是关键瓶颈。Machine Learning Mastery将代理记忆分为三个层次:
- 工作记忆:当前任务上下文(受限于上下文窗口)
- 短期记忆:会话级别的交互历史
- 长期记忆:跨会话的知识积累与用户偏好
目前大多数代理在长期记忆上做得很粗糙——要么是简单的向量检索,要么是笨拙的全文搜索。真正的突破将来自具备结构化、可推理记忆的代理架构。
工具调用vs结构化输出是另一个技术分歧点。结构化输出(如JSON Schema约束)更可靠但灵活性受限;函数调用更灵活但可靠性取决于模型能力。随着Claude Opus 4.7和GPT-5.4的工具调用能力大幅提升,函数调用正在成为主流路径。
我的判断
1. Agent Cloud是新的云计算。 就像2010年代AWS定义了云计算基础设施一样,2026-2028年将决定谁定义AI代理的运行时标准。Cloudflare凭借全球边缘网络有结构性优势,但AWS和Azure的企业客户关系不容小觑。
2. 2026年底前,至少30%的企业AI支出将转向代理基础设施。 模型API调用费用已经商品化(Claude、GPT、Gemini的定价在趋同),真正的成本和价值将转移到编排、运行时和数据层。
3. Tokenmaxxing将触发一次行业清醒。 Q3财报季,当企业发现AI支出暴增但产出未见匹配增长时,将引发对Agent ROI的严肃审视。届时,能提供清晰ROI度量的平台将获得溢价。
4. 开源代理框架将洗牌。 当前LangChain、CrewAI等框架百花齐放,但随着Cloudflare和AWS提供端到端Agent解决方案,独立框架的空间将被压缩。存活的将是那些在特定垂直领域建立了深度壁垒的项目。
Agent基础设施的竞赛才刚刚开始,但赌注已经明确:这不是关于谁拥有最好的模型,而是关于谁拥有AI代理运行的管道和标准。
参考来源
- Cloudflare Blog - Building the agentic cloud: everything we launched during Agents Week 2026
- OpenAI Blog - Enterprises power agentic workflows in Cloudflare Agent Cloud
- Sebastian Raschka - Components of A Coding Agent
- NVIDIA Blog - Rethinking AI TCO: Why Cost per Token Is the Only Metric That Matters
- The Pragmatic Engineer - Tokenmaxxing as a weird new trend
- Machine Learning Mastery - AI Agent Memory Explained in 3 Levels
- Latent Space - Claude Opus 4.7 launch