Jiayun's Blog

探索与分享

Agent的"基础设施缺口"

2026年的AI Agent领域有一个尴尬现实:Demo很酷,生产环境很惨。

The Pragmatic Engineer在最新的深度分析中直接发问——“Are AI agents actually slowing us down?“答案令人不安:在缺乏proper基础设施的情况下,Agent确实在某些场景下比人类更慢、更贵、更不可靠。

问题不在Agent本身的能力,而在于支撑Agent运行的基础设施严重缺失。这就像1990年代的互联网——浏览器已经存在,但没有CDN、没有云服务器、没有数据库即服务。

本月,三家巨头几乎同时出手填补这个缺口,信号再明确不过。

三大平台的Agent基础设施方案

Cloudflare Project Think:持久化运行时

Cloudflare推出的Project Think解决了Agent的一个核心痛点:状态持久化

传统的Agent运行在无状态的函数计算上——每次调用都是全新开始,没有记忆、没有上下文。这就像一个每天失忆的员工,每次上班都要重新学习所有流程。

Project Think提供了一个"Durable Runtime”:Agent的状态、工作记忆、长期知识可以跨会话保留。它基于Cloudflare已有的Durable Objects技术,但针对Agent的特殊需求做了深度定制。

LinkedIn认知记忆Agent:记忆架构

LinkedIn公开了其Cognitive Memory Agent的设计细节。这是一个三层记忆架构:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
┌─────────────────────────────────────┐
│         工作记忆 (Working)           │
│    当前任务的上下文和中间状态          │
├─────────────────────────────────────┤
│         情景记忆 (Episodic)          │
│    历史交互记录,可检索可遗忘          │
├─────────────────────────────────────┤
│         语义记忆 (Semantic)           │
│    长期知识,从经验中提炼的规则        │
└─────────────────────────────────────┘

这个架构直接借鉴了认知科学的人类记忆模型。关键创新在于遗忘机制——不是所有交互都值得记住,Agent需要学会选择性遗忘以保持效率。

AWS DevOps Agent GA:面向运维的Agent

AWS将DevOps Agent推向正式可用(GA),定位于自动化事故调查。这是Agent在企业场景中最自然的落地点之一:运维事故响应需要跨系统查询、日志关联、根因分析——这些恰好是AI Agent擅长的。

Agent基础设施全景对比

维度Cloudflare ThinkLinkedIn MemoryAWS DevOps AgentGoogle ADK
核心能力持久化运行时认知记忆系统事故自动调查开发框架
目标用户开发者平台团队运维团队全栈开发者
开放程度商业服务内部+论文商业服务开源SDK
关键创新状态持久化三层记忆跨系统关联插件架构
适用场景通用Agent个性化AgentIT运维Agent开发

“Tokenmaxxing”:一个荒诞但真实的趋势

The Pragmatic Engineer发现了一个名为"Tokenmaxxing"的新趋势:工程师们故意让AI Agent消耗大量Token来完成任务,因为Token成本低于工程师时间成本

这听起来荒谬,但数学上成立:

  • 一个高级工程师时薪:$100-200
  • GPT-4级模型处理100K Token:$2-5
  • 如果Agent用50万Token完成了工程师2小时的工作,节省$175+

问题在于质量。Tokenmaxxing产生的代码往往冗余、不优雅、难以维护。它在短期内降低了成本,但可能在长期增加了技术债务。

Coding Agent的组件拆解

Sebastian Raschka的"Components of A Coding Agent"一文提供了一个清晰的技术分解:

一个生产级Coding Agent需要:

  1. 感知层:理解代码库结构、依赖关系、测试状态
  2. 规划层:将任务分解为可执行的步骤序列
  3. 执行层:代码生成、测试运行、环境操作
  4. 反馈层:错误分析、结果验证、自我修正
  5. 记忆层:项目知识、编码规范、历史决策

当前大多数Coding Agent只做好了第3层,其他层要么缺失要么粗糙。这就是为什么Agent在简单任务上表现惊艳,但在复杂项目中频频翻车。

Steve Yegge在与Pragmatic Engineer的对话中说得更直白:从IDE到AI Agent的转变不是工具升级,而是开发范式的根本转变。IDE是人的延伸,Agent是人的替代(至少在某些任务上)。这需要完全不同的基础设施。

我的判断

Agent基础设施将成为2026-2027年最重要的基础设施赛道,其重要性堪比2010年代的云基础设施。理由:

  1. 每家企业都在试用Agent,但90%卡在生产化阶段
  2. 基础设施缺口是最大瓶颈,不是模型能力
  3. 云厂商全部入场,说明市场规模足够大

对开发者的建议:不要只关注模型能力的提升。学习Agent的状态管理、记忆架构、工具编排——这些才是未来12个月的核心竞争力。

Trail of Bits提出的"Mutation testing for the agentic era"也值得关注:当Agent写的代码越来越多,我们需要新的测试方法论来保证质量。传统的单元测试不够了,变异测试可能是答案之一。


参考来源