被忽视的真正战争
过去一周,AI行业的头条被GPT-5.5和DeepSeek V4占据。但如果你把视线从模型竞赛上移开,会发现一场更深层的变革正在发生:支撑AI运行的整个基础设施正在被重新设计。
这不是渐进式的升级。这是一次底层重构——从芯片到网络协议,从云端到边缘设备。原因很简单:当AI从"回答问题"进化为"自主执行任务"时,它对基础设施的需求发生了根本性改变。
什么是Agentic AI?为什么它改变一切?
从对话到行动
传统AI(包括ChatGPT)的工作模式是:用户提问 → 模型回答 → 结束。 这是一个无状态的、单轮的交互。
Agentic AI的模式是:用户给出目标 → Agent规划步骤 → 调用工具 → 读取结果 → 调整策略 → 继续执行 → 直到任务完成。 这是一个有状态的、多轮的、与外部世界交互的过程。
这个区别看似简单,但对基础设施的影响是巨大的:
| 维度 | 传统AI | Agentic AI |
|---|---|---|
| 请求模式 | 单次请求-响应 | 多步骤、长时间运行 |
| 状态管理 | 无状态 | 需要持久状态 |
| 外部交互 | 无 | 调用API、浏览网页、操作文件 |
| 网络需求 | 简单HTTP | 复杂的工具调用链 |
| 安全模型 | 输入过滤 | 执行权限控制 |
| 计算模式 | 突发式GPU推理 | 持续的混合计算 |
一个Agent的一天
想象一个企业级Agent在帮你完成一个数据分析任务:
- 接收指令(1次API调用)
- 查询数据库获取数据(3次SQL查询)
- 调用Python运行分析脚本(启动计算容器)
- 浏览网页获取补充信息(5次HTTP请求)
- 生成可视化图表(GPU推理 + 渲染)
- 写报告并发送邮件(文件I/O + 邮件API)
- 等待反馈,根据反馈修改(持久连接)
这个流程涉及了数据库、计算、网络、存储、邮件等多种基础设施——而传统AI只需要一个GPU和一个API endpoint。
Cloudflare的Agent Week:网络层的重构
为什么CDN公司在做AI
2026年4月,Cloudflare举办了首次"Agents Week"——一个完全致力于Agentic AI的创新周。一家CDN/网络安全公司为什么要全力投入AI Agent?
答案在于一个惊人的数据:过去十年,网页平均体积每年增长6-9%。而AI Agent的出现正在加速这一趋势——因为Agent比人类更频繁地访问网页,且同时运行多个Agent成为常态。
Cloudflare在Agent Week中推出的关键技术:
1. Shared Dictionaries:一种新的压缩技术,专门优化Agent频繁重复访问同一网站时的带宽消耗。当数百个Agent同时抓取同一个API文档时,传统的HTTP压缩效率极低——Shared Dictionaries通过在服务器和客户端之间共享压缩字典,大幅减少重复传输。
2. Agentic Cloud架构:Cloudflare的CEO将其定位为"为Agent时代构建的云"——不是让人类浏览网页的CDN,而是让Agent高效调用工具的基础设施。
3. 安全模型重构:当Agent可以自主浏览网页和调用API时,传统的基于人类行为模式的安全检测完全失效。Cloudflare需要开发新的方法来区分"合法Agent"和"恶意爬虫"。
这告诉我们什么
互联网的流量模式正在被AI Agent重塑。 以前,流量主要来自人类的浏览器。现在,越来越多的流量来自Agent的API调用。这意味着:
- Web性能优化的重心从"首次加载速度"转向"API响应延迟"
- 安全防护从"防止人类恶意行为"转向"管理Agent权限"
- 带宽优化从"图片/视频压缩"转向"API响应压缩"
Google的双芯片战略:TPU 8t和8i
为什么需要两种TPU
Google在Cloud Next 2026上发布了第八代TPU的两个专业化版本:
- TPU 8t(Training):专为大规模模型训练优化
- TPU 8i(Inference):专为推理和Agent工作负载优化
这种分拆反映了一个行业共识:训练和推理是完全不同的计算问题,用同一种芯片解决两者正在变得不经济。
训练需要:极高的浮点算力、大规模并行、高带宽互联 推理需要:低延迟、高吞吐、能效比、灵活的batch大小
当AI从"偶尔训练一次大模型"转向"7×24小时运行Agent"时,推理的计算需求正在超过训练。TPU 8i就是为这个时代设计的。
Agentic Moment
Google Cloud CEO Thomas Kurian在Stratechery的采访中反复使用了一个词:“Agentic Moment”。他认为我们正处于AI从被动工具变为主动Agent的转折点,而这个转折需要全新的云基础设施。
Google的策略是:用TPU 8提供算力基座,用Gemma 4提供可在端侧运行的开源模型,用Gemini提供云端最强模型——构建一个从端到云的完整Agent运行环境。
Gemma 4和端侧Agent:AI的"最后一公里"
为什么端侧很重要
Gemma 4是Google发布的最新开源模型系列,被定位为"byte for byte最强的开源模型"。但它的真正价值不在于绝对性能——而在于它可以在本地设备上运行。
NVIDIA和Google联合优化了Gemma 4在RTX GPU上的运行效率。这意味着一个Agent可以在你的笔记本电脑上运行,不需要云端API。
这对Agentic AI的意义是巨大的:
- 隐私:Agent处理的可能是你的邮件、文件、浏览记录——这些数据不应该发送到云端
- 延迟:本地运行的Agent响应速度比云端快10-100倍
- 成本:云端API调用是按token计费的;本地运行的边际成本接近零
- 离线能力:本地Agent可以在没有网络的情况下工作
Gemini Robotics-ER 1.6:从数字Agent到物理Agent
Google DeepMind同时发布了Gemini Robotics-ER 1.6(Embodied Reasoning),专门为物理世界的机器人任务设计。这标志着Agent的概念正在从"操作软件"扩展到"操作物理世界"。
增强的空间推理和多视角理解能力使机器人可以:
- 理解复杂3D环境
- 从多个摄像头视角融合信息
- 执行需要精细操作的现实任务
数字Agent → 物理Agent,是Agentic AI的终极形态。
基础设施战争的格局
现在我们可以看到一张完整的战争地图:
| 层次 | 玩家 | 核心产品 |
|---|---|---|
| 芯片层 | NVIDIA, Google TPU, AMD | GB200, TPU 8, MI400 |
| 模型层 | OpenAI, Anthropic, DeepSeek, Google | GPT-5.5, Opus, V4, Gemini |
| 端侧模型 | Google (Gemma), Meta (Llama), Apple | Gemma 4, Llama 4 |
| 网络层 | Cloudflare, AWS, Fastly | Agent-optimized CDN |
| 平台层 | OpenAI (Codex), Google Cloud, AWS | Agent运行时环境 |
| 物理层 | Google (Robotics-ER), NVIDIA (Isaac) | 具身智能 |
没有任何一家公司能覆盖所有层次。 这意味着Agentic AI时代将由生态系统的竞争来决定——谁能构建最完整、最高效的Agent运行栈,谁就能赢得这场战争。
安全:被低估的挑战
当Agent可以自主调用工具和执行操作时,安全问题的性质发生了根本变化。
Anthropic最近发布的Claude Mythos Preview展示了一个令人不安的能力:它可以自主发现并利用软件漏洞,将其转化为可用的攻击工具。 IEEE Spectrum的分析指出,这种能力将对网络安全产生"重大影响"。
Trail of Bits的研究则从另一个角度揭示了Agent安全问题:传统的代码覆盖率测试在Agent场景下完全不够用——因为Agent的行为空间比传统软件大几个数量级。他们提出了"变异测试"(Mutation Testing)作为Agent时代的新安全测试方法。
GitHub的Secure Code Game也开始加入Agent安全的挑战——让安全研究者练习攻击和防御AI Agent。
Agentic AI的安全不是"加个防火墙"能解决的问题——它需要从架构层面重新设计。
我的判断
2026年是Agentic AI基础设施的"寒武纪爆发"。 就像移动互联网在2007-2010年催生了全新的基础设施生态一样,Agentic AI正在催生新的芯片、网络协议、安全模型和计算平台。
赢家不是做最好的Agent的公司——而是构建最好的Agent运行环境的公司。 正如AWS赢了云计算时代不是因为它做了最好的应用,而是因为它做了最好的基础设施。
最大的风险是安全。当数百万个Agent同时在互联网上自主行动时,一个被攻破的Agent可能造成连锁反应。行业需要在Agent大规模部署之前建立安全标准和最佳实践。
给读者的行动建议:
- 开发者:开始学习Agent开发框架(如OpenClaw、LangChain),但更要理解底层的基础设施需求
- 基础设施工程师:关注Agent workload的特殊需求——长连接、状态管理、工具调用权限
- 企业决策者:评估你的云架构是否"Agent-ready"——大多数传统云架构并不适合运行Agent
- 安全从业者:Agent安全将是未来3年最大的安全赛道,现在进入还不晚
参考链接
- Cloudflare Blog: Building the Agentic Cloud
- Cloudflare Blog: Shared Dictionaries for the Agentic Web
- Google Blog: TPU 8t and 8i for the Agentic Era
- DeepMind: Gemma 4 - Most Capable Open Models
- DeepMind: Gemini Robotics-ER 1.6
- NVIDIA Blog: Accelerating Gemma 4 for Local Agentic AI
- Stratechery: Interview with Google Cloud CEO Thomas Kurian
- IEEE Spectrum: What Anthropic’s Mythos Means for Cybersecurity
- Trail of Bits: Mutation Testing for the Agentic Era