硅谷的新口头禅:不是更快,而是更便宜
2026年春天,AI行业正在经历一场悄无声息但影响深远的范式转移。不是模型架构的突破,不是参数量的军备竞赛——而是经济学。
NVIDIA在最新的技术白皮书中提出了一个简洁而激进的论断:“Cost per Token is the Only Metric That Matters”(每Token成本是唯一重要的指标)。与此同时,404 Media在一篇深度报道中揭示了一个令人不安的现实:AI计算紧缩正在从科技行业蔓延到整个经济体。多家创业公司公开表示,他们在AI计算(Token消费)上的支出已经超过了人力成本。
这两个看似矛盾的信号——供应商在推销效率,用户在抱怨成本——恰恰揭示了AI基础设施经济学正在抵达的临界点。
Cost-per-Token:一个指标如何重新定义整个行业
传统TCO的失效
在云计算时代,总拥有成本(TCO)的计算相对直观:
| |
但在AI推理时代,这个公式彻底失效了。原因是:
- 工作负载的高度异构性:同一块GPU在处理GPT-5.5的长上下文推理和处理Gemma 4的边缘推理时,效率差异可达10倍
- KV缓存的隐性成本:长上下文模型(如DeepSeek V4的百万Token上下文)的内存成本远超计算成本
- 批处理效率的非线性:吞吐量与延迟之间的权衡不再是线性关系
NVIDIA的新框架
NVIDIA提出的Cost-per-Token框架试图将所有这些变量压缩成一个可比较的指标:
| 组件 | 传统计量 | Token化计量 |
|---|---|---|
| GPU计算 | FLOPS/$ | Token/秒/$ |
| 内存 | GB/$ | 上下文长度/$ |
| 网络 | Gbps/$ | 批处理Token/$ |
| 存储 | IOPS/$ | KV缓存成本/Token |
| 电力 | kWh/$ | Token/kWh |
这不仅仅是换了个度量单位。它从根本上改变了基础设施决策的逻辑:
- 旧逻辑:买最强的GPU → 跑最大的模型 → 卖最高的价格
- 新逻辑:选择最高Token效率的架构 → 在目标延迟内最大化吞吐 → 以最低成本交付质量
计算紧缩的真实面貌
404 Media的报道揭示了一个被主流科技媒体忽视的趋势:AI计算成本正在成为企业的主要支出项。
创业公司的AI成本结构变迁
| |
这个趋势的驱动因素包括:
- Agent工作流的爆炸性增长:一个AI Agent完成任务可能需要数十次LLM调用,每次调用消耗数千Token
- 推理密集型模型的普及:GPT-5.5和Claude Mythos等新模型的推理成本比前代高出3-5倍
- 长上下文的常态化:DeepSeek V4的百万Token上下文窗口意味着单次推理可能消耗价值数美元的计算资源
社区的反抗:数据中心选址的政治化
一个有趣的侧面是:AI计算的物理基础设施正面临越来越大的社会阻力。404 Media报道了密歇根州Ypsilanti Township社区投票拒绝为一个计划中的数据中心提供水资源——尽管这个数据中心将为核武器研究提供算力。这反映了AI计算扩张与地方资源约束之间日益尖锐的矛盾。
三条出路
1. 模型效率革命
DeepSeek V4的MoE(混合专家)架构指向了一个方向:不是让所有参数都参与每次推理,而是智能地路由到相关的专家子网络。V4的Flash版本只有284B总参数中的13B处于激活状态——这将每Token成本降低到了惊人的水平。
DeepSeek V4的定价策略说明了一切:缓存命中的输入Token价格降至标准价格的1/10。这意味着重复性工作负载的成本可以下降一个数量级。
2. 推理基础设施的垂直整合
NVIDIA与Google Cloud最近宣布的合作表明,AI推理的未来不在于单块GPU的性能,而在于从芯片到软件栈的全链路优化:
- 硬件层:专用推理加速器(如NVIDIA的Blackwell Ultra)
- 系统层:优化的内存管理和KV缓存策略
- 框架层:vLLM、TensorRT-LLM等推理引擎的持续优化
- 应用层:智能路由和缓存,避免重复计算
3. 边缘推理的崛起
NVIDIA与Google在Gemma 4上的合作揭示了第三条路径:将推理推向边缘设备。当模型足够小(如Gemma 4的4B参数版本),可以在消费级GPU甚至手机上运行时,每Token成本趋近于零(因为用户自己承担了硬件成本)。
预判:AI计算的"摩尔定律时刻"
我的核心判断:AI推理的Cost-per-Token将在未来18个月内下降10倍,这将触发AI应用的第二波爆发。
第一波爆发(2023-2025)由模型能力驱动——GPT-4证明了AI能做什么。第二波爆发(2026-2027)将由经济性驱动——当Token足够便宜时,之前"不划算"的应用场景会突然变得可行。
以下是我认为将被解锁的应用类型:
- 始终在线的AI助手:目前每月成本约$50-100/用户,降至$5-10后将普及
- 全量代码审查:目前每次PR审查成本约$1-5,降至$0.1后将成为标准流程
- 实时文档翻译:百万Token上下文+低成本推理=实时处理完整技术手册
- 个性化教育:每个学生配备AI导师,成本从$100/月降至$10/月
这不是渐进式改善,而是会触发质变的阈值效应。就像智能手机在2010年前后因为芯片成本下降而从奢侈品变成必需品一样,AI应用也将经历类似的"可及性革命"。
参考链接:
- NVIDIA Blog: Rethinking AI TCO: Why Cost per Token Is the Only Metric That Matters
- 404 Media: The AI Compute Crunch Is Here
- 404 Media: Startups Brag They Spend More Money on AI Than Human Employees
- 404 Media: Community Votes to Deny Water to Nuclear Weapons Data Center
- DeepSeek V4 API Pricing
- NVIDIA and Google Cloud Collaborate to Advance Agentic and Physical AI