Jiayun's Blog

探索与分享

硅谷的新口头禅:不是更快,而是更便宜

2026年春天,AI行业正在经历一场悄无声息但影响深远的范式转移。不是模型架构的突破,不是参数量的军备竞赛——而是经济学

NVIDIA在最新的技术白皮书中提出了一个简洁而激进的论断:“Cost per Token is the Only Metric That Matters”(每Token成本是唯一重要的指标)。与此同时,404 Media在一篇深度报道中揭示了一个令人不安的现实:AI计算紧缩正在从科技行业蔓延到整个经济体。多家创业公司公开表示,他们在AI计算(Token消费)上的支出已经超过了人力成本。

这两个看似矛盾的信号——供应商在推销效率,用户在抱怨成本——恰恰揭示了AI基础设施经济学正在抵达的临界点。

Cost-per-Token:一个指标如何重新定义整个行业

传统TCO的失效

在云计算时代,总拥有成本(TCO)的计算相对直观:

1
传统TCO = 硬件折旧 + 电力 + 冷却 + 运维人力 + 带宽

但在AI推理时代,这个公式彻底失效了。原因是:

  1. 工作负载的高度异构性:同一块GPU在处理GPT-5.5的长上下文推理和处理Gemma 4的边缘推理时,效率差异可达10倍
  2. KV缓存的隐性成本:长上下文模型(如DeepSeek V4的百万Token上下文)的内存成本远超计算成本
  3. 批处理效率的非线性:吞吐量与延迟之间的权衡不再是线性关系

NVIDIA的新框架

NVIDIA提出的Cost-per-Token框架试图将所有这些变量压缩成一个可比较的指标:

组件传统计量Token化计量
GPU计算FLOPS/$Token/秒/$
内存GB/$上下文长度/$
网络Gbps/$批处理Token/$
存储IOPS/$KV缓存成本/Token
电力kWh/$Token/kWh

这不仅仅是换了个度量单位。它从根本上改变了基础设施决策的逻辑:

  • 旧逻辑:买最强的GPU → 跑最大的模型 → 卖最高的价格
  • 新逻辑:选择最高Token效率的架构 → 在目标延迟内最大化吞吐 → 以最低成本交付质量

计算紧缩的真实面貌

404 Media的报道揭示了一个被主流科技媒体忽视的趋势:AI计算成本正在成为企业的主要支出项

创业公司的AI成本结构变迁

1
2
3
4
5
6
7
8
9
2024年:
  人力成本 ████████████████████ 65%
  AI计算   ████               12%
  其他     ███████            23%

2026年:
  人力成本 ████████████       38%
  AI计算   ████████████████   48%
  其他     ████               14%

这个趋势的驱动因素包括:

  1. Agent工作流的爆炸性增长:一个AI Agent完成任务可能需要数十次LLM调用,每次调用消耗数千Token
  2. 推理密集型模型的普及:GPT-5.5和Claude Mythos等新模型的推理成本比前代高出3-5倍
  3. 长上下文的常态化:DeepSeek V4的百万Token上下文窗口意味着单次推理可能消耗价值数美元的计算资源

社区的反抗:数据中心选址的政治化

一个有趣的侧面是:AI计算的物理基础设施正面临越来越大的社会阻力。404 Media报道了密歇根州Ypsilanti Township社区投票拒绝为一个计划中的数据中心提供水资源——尽管这个数据中心将为核武器研究提供算力。这反映了AI计算扩张与地方资源约束之间日益尖锐的矛盾。

三条出路

1. 模型效率革命

DeepSeek V4的MoE(混合专家)架构指向了一个方向:不是让所有参数都参与每次推理,而是智能地路由到相关的专家子网络。V4的Flash版本只有284B总参数中的13B处于激活状态——这将每Token成本降低到了惊人的水平。

DeepSeek V4的定价策略说明了一切:缓存命中的输入Token价格降至标准价格的1/10。这意味着重复性工作负载的成本可以下降一个数量级

2. 推理基础设施的垂直整合

NVIDIA与Google Cloud最近宣布的合作表明,AI推理的未来不在于单块GPU的性能,而在于从芯片到软件栈的全链路优化:

  • 硬件层:专用推理加速器(如NVIDIA的Blackwell Ultra)
  • 系统层:优化的内存管理和KV缓存策略
  • 框架层:vLLM、TensorRT-LLM等推理引擎的持续优化
  • 应用层:智能路由和缓存,避免重复计算

3. 边缘推理的崛起

NVIDIA与Google在Gemma 4上的合作揭示了第三条路径:将推理推向边缘设备。当模型足够小(如Gemma 4的4B参数版本),可以在消费级GPU甚至手机上运行时,每Token成本趋近于零(因为用户自己承担了硬件成本)。

预判:AI计算的"摩尔定律时刻"

我的核心判断:AI推理的Cost-per-Token将在未来18个月内下降10倍,这将触发AI应用的第二波爆发。

第一波爆发(2023-2025)由模型能力驱动——GPT-4证明了AI能做什么。第二波爆发(2026-2027)将由经济性驱动——当Token足够便宜时,之前"不划算"的应用场景会突然变得可行。

以下是我认为将被解锁的应用类型:

  • 始终在线的AI助手:目前每月成本约$50-100/用户,降至$5-10后将普及
  • 全量代码审查:目前每次PR审查成本约$1-5,降至$0.1后将成为标准流程
  • 实时文档翻译:百万Token上下文+低成本推理=实时处理完整技术手册
  • 个性化教育:每个学生配备AI导师,成本从$100/月降至$10/月

这不是渐进式改善,而是会触发质变的阈值效应。就像智能手机在2010年前后因为芯片成本下降而从奢侈品变成必需品一样,AI应用也将经历类似的"可及性革命"。


参考链接: