一、Tokenmaxxing:硅谷的新型炫富
2026年春天,硅谷出现了一种诡异的新潮流。创业者们不再炫耀融资额或用户增长,而是晒出天价AI账单:
“我们4个人的团队,单月AI账单11.3万美元。我这辈子没为一张发票感到如此骄傲。” ——某创业公司CEO
这种被称为"Tokenmaxxing"的现象背后,是一个正在深刻重塑软件工程经济学的趋势:AI编码Agent的计算消耗正在以指数级增长,而整个行业尚未搞清楚谁来买单。
二、三个信号揭示算力危机
信号一:GitHub被迫转向按量计费
2026年4月,GitHub宣布了一个标志性决定:Copilot全线转向基于Token消耗的按量计费,6月1日生效。更激进的是,GitHub同时暂停了Individual计划的新用户注册,并收紧了现有用户的使用上限。
GitHub的官方解释一针见血:“Agentic workflows have fundamentally changed Copilot’s compute demands”(Agent式工作流从根本上改变了Copilot的算力需求)。
这句话翻译成人话就是:原来每次补全几行代码的模式,AI公司还能靠订阅费覆盖成本。但当开发者开始让Copilot自主执行多步骤任务——读代码、跑测试、改bug、提PR——每次交互消耗的Token量暴增了10-100倍,原有的$19/月定价模型彻底崩了。
信号二:OpenAI Codex的算力军备竞赛
GPT-5.5驱动的新版Codex运行在NVIDIA GB200 NVL72机架级系统上,这是目前最顶级的AI推理硬件。NVIDIA内部超过1万名员工正在使用Codex。
与此同时,OpenAI打破了与Azure的独家协议,将Codex上架AWS Bedrock。这不是简单的渠道拓展——这是算力需求倒逼商业关系重构。 单靠Azure的基础设施已经无法支撑Codex的全球化扩张。
信号三:AI公司的补贴不可持续
404 Media的深度调查指出了房间里的大象:AI公司无法无限期补贴AI产品。 当创业公司炫耀月消费11万美元时,他们享受的其实是AI提供商以亏本价销售的推理服务。一旦补贴退潮,真实成本将让很多"AI-first"公司的商业模型瞬间瓦解。
三、成本真相:一张对比表
| 维度 | 资深工程师 (美国) | AI Coding Agent (当前补贴价) | AI Agent (估算真实成本) |
|---|---|---|---|
| 月成本 | $15,000-25,000 | $2,000-10,000 | $8,000-40,000 |
| 工作时长 | ~170小时/月 | 24/7可用 | 24/7可用 |
| 代码审查 | 能做 | 部分能做 | 部分能做 |
| 架构决策 | 擅长 | 弱 | 弱 |
| 调试复杂问题 | 擅长 | 有限 | 有限 |
| 维护成本 | 稳定 | 每月波动大 | 持续上涨 |
| 知识积累 | 持续 | 无 | 无 |
关键洞察:在补贴期,AI Agent看起来便宜;一旦回归真实定价,对于复杂工程任务,人类工程师的性价比可能反而更高。
四、Harness Engineering:一个新职业的诞生
Martin Fowler团队提出了一个值得关注的新概念:Harness Engineering(驾具工程)。
核心思想是:AI编码Agent不是即插即用的"替代程序员",而是一种需要精心设计"驾具"(harness)才能有效运转的工具。这个驾具包括:
- Prompt模板和上下文管理:什么代码放进上下文、什么时候触发Agent
- 质量门禁:自动化测试、lint检查、安全扫描的集成
- 反馈循环:Agent产出的代码如何被review、什么时候打回重做
- 成本控制:Token预算、模型选择策略、缓存优化
OpenAI的Symphony规范——一个将issue tracker变成"永远在线的Agent系统"的开源编排框架——就是Harness Engineering理念的具体实现。
我的判断:Harness Engineer将成为2026-2027年最热门的新工程角色。 就像DevOps工程师从开发和运维的交叉地带诞生一样,Harness Engineer将从人类开发者和AI Agent的协作界面中涌现。
五、基础设施层的卡位战
AI编码Agent的爆发正在催生新的基础设施需求:
- Cloudflare举办了"Agents Week 2026",发布了Agent Memory等核心基础设施
- Fly.io推出了Sprites——即时创建的云端沙盒,专为运行Agent设计,“第一件事就是输入claude或codex”
- AWS Bedrock接入OpenAI Codex和Managed Agents
这三家的动作指向同一个结论:AI Agent的运行时环境正在成为新的云计算战场。 谁能提供最低延迟、最低成本、最安全的Agent执行环境,谁就能在下一代云计算中占据优势。
六、可执行的建议
面对AI编码Agent的经济学变局,不同角色应该采取不同策略:
如果你是工程师:
- 学习Harness Engineering,这是你未来3年最重要的技能投资
- 不要恐慌"被AI替代",但要从"写代码的人"转型为"驾驭AI写代码的人"
- 关注Token成本优化:选对模型、管理上下文、善用缓存
如果你是技术管理者:
- 立即审计团队的AI工具支出,建立Token预算管理机制
- 不要被Tokenmaxxing叙事迷惑——高AI支出不等于高产出
- 评估GitHub Copilot按量计费对团队成本的影响,准备替代方案
如果你是创业者:
- 如果你的商业模型建立在AI推理补贴之上,现在就做压力测试:成本翻3倍你还能活吗?
- 考虑混合策略:用Flash级小模型处理80%的简单任务,仅在复杂场景动用大模型
大胆预测:2026年底前,至少3家高调的"AI-native"创业公司将因算力成本失控而倒闭或被收购。 Tokenmaxxing终将被证明是这个时代的"烧钱增长"翻版。
参考来源
- 404 Media:The AI Compute Crunch Is Here (and It’s Affecting the Entire Economy)
- 404 Media:Startups Brag They Spend More Money on AI Than Human Employees
- The Pragmatic Engineer:The Pulse - AI token spending out of control
- GitHub Blog:GitHub Copilot is moving to usage-based billing
- GitHub Blog:Changes to GitHub Copilot Individual plans
- Martin Fowler:Harness engineering for coding agent users
- OpenAI Blog:OpenAI models, Codex, and Managed Agents come to AWS
- OpenAI Blog:An open-source spec for orchestration - Symphony
- NVIDIA Blog:OpenAI’s New GPT-5.5 Powers Codex on NVIDIA Infrastructure
- Cloudflare Blog:Building the agentic cloud - Agents Week 2026
- Fly.io Blog:Unfortunately, Sprites Now Speak MCP
- Latent Space AINews:GPT 5.5 and OpenAI Codex Superapp
- Ars Technica:GitHub will start charging Copilot users based on actual AI usage