Jiayun's Blog

探索与分享

被忽视的真正战争

过去一周,AI行业的头条被GPT-5.5和DeepSeek V4占据。但如果你把视线从模型竞赛上移开,会发现一场更深层的变革正在发生:支撑AI运行的整个基础设施正在被重新设计。

这不是渐进式的升级。这是一次底层重构——从芯片到网络协议,从云端到边缘设备。原因很简单:当AI从"回答问题"进化为"自主执行任务"时,它对基础设施的需求发生了根本性改变。

什么是Agentic AI?为什么它改变一切?

从对话到行动

传统AI(包括ChatGPT)的工作模式是:用户提问 → 模型回答 → 结束。 这是一个无状态的、单轮的交互。

Agentic AI的模式是:用户给出目标 → Agent规划步骤 → 调用工具 → 读取结果 → 调整策略 → 继续执行 → 直到任务完成。 这是一个有状态的、多轮的、与外部世界交互的过程。

这个区别看似简单,但对基础设施的影响是巨大的:

维度传统AIAgentic AI
请求模式单次请求-响应多步骤、长时间运行
状态管理无状态需要持久状态
外部交互调用API、浏览网页、操作文件
网络需求简单HTTP复杂的工具调用链
安全模型输入过滤执行权限控制
计算模式突发式GPU推理持续的混合计算

一个Agent的一天

想象一个企业级Agent在帮你完成一个数据分析任务:

  1. 接收指令(1次API调用)
  2. 查询数据库获取数据(3次SQL查询)
  3. 调用Python运行分析脚本(启动计算容器)
  4. 浏览网页获取补充信息(5次HTTP请求)
  5. 生成可视化图表(GPU推理 + 渲染)
  6. 写报告并发送邮件(文件I/O + 邮件API)
  7. 等待反馈,根据反馈修改(持久连接)

这个流程涉及了数据库、计算、网络、存储、邮件等多种基础设施——而传统AI只需要一个GPU和一个API endpoint。

Cloudflare的Agent Week:网络层的重构

为什么CDN公司在做AI

2026年4月,Cloudflare举办了首次"Agents Week"——一个完全致力于Agentic AI的创新周。一家CDN/网络安全公司为什么要全力投入AI Agent?

答案在于一个惊人的数据:过去十年,网页平均体积每年增长6-9%。而AI Agent的出现正在加速这一趋势——因为Agent比人类更频繁地访问网页,且同时运行多个Agent成为常态。

Cloudflare在Agent Week中推出的关键技术:

1. Shared Dictionaries:一种新的压缩技术,专门优化Agent频繁重复访问同一网站时的带宽消耗。当数百个Agent同时抓取同一个API文档时,传统的HTTP压缩效率极低——Shared Dictionaries通过在服务器和客户端之间共享压缩字典,大幅减少重复传输。

2. Agentic Cloud架构:Cloudflare的CEO将其定位为"为Agent时代构建的云"——不是让人类浏览网页的CDN,而是让Agent高效调用工具的基础设施。

3. 安全模型重构:当Agent可以自主浏览网页和调用API时,传统的基于人类行为模式的安全检测完全失效。Cloudflare需要开发新的方法来区分"合法Agent"和"恶意爬虫"。

这告诉我们什么

互联网的流量模式正在被AI Agent重塑。 以前,流量主要来自人类的浏览器。现在,越来越多的流量来自Agent的API调用。这意味着:

  • Web性能优化的重心从"首次加载速度"转向"API响应延迟"
  • 安全防护从"防止人类恶意行为"转向"管理Agent权限"
  • 带宽优化从"图片/视频压缩"转向"API响应压缩"

Google的双芯片战略:TPU 8t和8i

为什么需要两种TPU

Google在Cloud Next 2026上发布了第八代TPU的两个专业化版本:

  • TPU 8t(Training):专为大规模模型训练优化
  • TPU 8i(Inference):专为推理和Agent工作负载优化

这种分拆反映了一个行业共识:训练和推理是完全不同的计算问题,用同一种芯片解决两者正在变得不经济。

训练需要:极高的浮点算力、大规模并行、高带宽互联 推理需要:低延迟、高吞吐、能效比、灵活的batch大小

当AI从"偶尔训练一次大模型"转向"7×24小时运行Agent"时,推理的计算需求正在超过训练。TPU 8i就是为这个时代设计的。

Agentic Moment

Google Cloud CEO Thomas Kurian在Stratechery的采访中反复使用了一个词:“Agentic Moment”。他认为我们正处于AI从被动工具变为主动Agent的转折点,而这个转折需要全新的云基础设施。

Google的策略是:用TPU 8提供算力基座,用Gemma 4提供可在端侧运行的开源模型,用Gemini提供云端最强模型——构建一个从端到云的完整Agent运行环境。

Gemma 4和端侧Agent:AI的"最后一公里"

为什么端侧很重要

Gemma 4是Google发布的最新开源模型系列,被定位为"byte for byte最强的开源模型"。但它的真正价值不在于绝对性能——而在于它可以在本地设备上运行

NVIDIA和Google联合优化了Gemma 4在RTX GPU上的运行效率。这意味着一个Agent可以在你的笔记本电脑上运行,不需要云端API。

这对Agentic AI的意义是巨大的:

  1. 隐私:Agent处理的可能是你的邮件、文件、浏览记录——这些数据不应该发送到云端
  2. 延迟:本地运行的Agent响应速度比云端快10-100倍
  3. 成本:云端API调用是按token计费的;本地运行的边际成本接近零
  4. 离线能力:本地Agent可以在没有网络的情况下工作

Gemini Robotics-ER 1.6:从数字Agent到物理Agent

Google DeepMind同时发布了Gemini Robotics-ER 1.6(Embodied Reasoning),专门为物理世界的机器人任务设计。这标志着Agent的概念正在从"操作软件"扩展到"操作物理世界"。

增强的空间推理和多视角理解能力使机器人可以:

  • 理解复杂3D环境
  • 从多个摄像头视角融合信息
  • 执行需要精细操作的现实任务

数字Agent → 物理Agent,是Agentic AI的终极形态。

基础设施战争的格局

现在我们可以看到一张完整的战争地图:

层次玩家核心产品
芯片层NVIDIA, Google TPU, AMDGB200, TPU 8, MI400
模型层OpenAI, Anthropic, DeepSeek, GoogleGPT-5.5, Opus, V4, Gemini
端侧模型Google (Gemma), Meta (Llama), AppleGemma 4, Llama 4
网络层Cloudflare, AWS, FastlyAgent-optimized CDN
平台层OpenAI (Codex), Google Cloud, AWSAgent运行时环境
物理层Google (Robotics-ER), NVIDIA (Isaac)具身智能

没有任何一家公司能覆盖所有层次。 这意味着Agentic AI时代将由生态系统的竞争来决定——谁能构建最完整、最高效的Agent运行栈,谁就能赢得这场战争。

安全:被低估的挑战

当Agent可以自主调用工具和执行操作时,安全问题的性质发生了根本变化。

Anthropic最近发布的Claude Mythos Preview展示了一个令人不安的能力:它可以自主发现并利用软件漏洞,将其转化为可用的攻击工具。 IEEE Spectrum的分析指出,这种能力将对网络安全产生"重大影响"。

Trail of Bits的研究则从另一个角度揭示了Agent安全问题:传统的代码覆盖率测试在Agent场景下完全不够用——因为Agent的行为空间比传统软件大几个数量级。他们提出了"变异测试"(Mutation Testing)作为Agent时代的新安全测试方法。

GitHub的Secure Code Game也开始加入Agent安全的挑战——让安全研究者练习攻击和防御AI Agent。

Agentic AI的安全不是"加个防火墙"能解决的问题——它需要从架构层面重新设计。

我的判断

2026年是Agentic AI基础设施的"寒武纪爆发"。 就像移动互联网在2007-2010年催生了全新的基础设施生态一样,Agentic AI正在催生新的芯片、网络协议、安全模型和计算平台。

赢家不是做最好的Agent的公司——而是构建最好的Agent运行环境的公司。 正如AWS赢了云计算时代不是因为它做了最好的应用,而是因为它做了最好的基础设施。

最大的风险是安全。当数百万个Agent同时在互联网上自主行动时,一个被攻破的Agent可能造成连锁反应。行业需要在Agent大规模部署之前建立安全标准和最佳实践。

给读者的行动建议

  1. 开发者:开始学习Agent开发框架(如OpenClaw、LangChain),但更要理解底层的基础设施需求
  2. 基础设施工程师:关注Agent workload的特殊需求——长连接、状态管理、工具调用权限
  3. 企业决策者:评估你的云架构是否"Agent-ready"——大多数传统云架构并不适合运行Agent
  4. 安全从业者:Agent安全将是未来3年最大的安全赛道,现在进入还不晚

参考链接