从SaaS到LaaS：当软件公司开始按Token而非Seat收费，整个产业在重构

当 GitHub Copilot 改成"按 Token 计费"，软件行业的成本结构正在被悄悄重写

2026 年 4 月，GitHub 官方博客发了一条对很多团队来说"很扎"的公告：GitHub Copilot 个人版与企业版正在迁移到 usage-based billing（按使用量计费），不再是过去 10 美元/19 美元的固定月费。几乎同一周，The Pragmatic Engineer 发出了 “AI token spending out of control – what’s next?” 这一期 Pulse，里面引用的几家中型 SaaS 公司给出了让人胃疼的数字：

一家 60 人工程团队，月度 LLM API 账单从 2024Q4 的 $8K 涨到 2026Q1 的 $94K；
一家初创公司 35% 的工程支出花在了 LLM token 上，已经超过 AWS 账单；
高频 AI Coding 用户的 P95 月使用成本，能达到月薪的 12-18%。

这不是个别公司的 PR 危机。它是过去三年所有 AI 编程工具厂商集体推迟面对的一笔账——当推理成本从 GPT-4 那种"每 1M token $30"砸到 GPT-5.5/DeepSeek V4 这种"按毛分计"，仍然挡不住一个事实：Agent 化的工作流会以指数级吃 token，固定订阅模式数学上撑不住。

本文不再讨论"AI 会不会取代程序员"这类口水问题，我们看一个更冷峻的：当软件工程的边际成本从"人时"变成"token"，行业的商业模式、岗位结构、定价权会怎样重排？

一、固定订阅时代的终结：从 SaaS 到 LaaS（LLM-as-a-Service）

GitHub Copilot 2021 年 10 美元/月的定价，至今仍被许多人当作 AI SaaS 的"锚点"。但这个定价从第一天就建立在一个错误假设上：普通开发者一天用 Copilot 不会超过 50 次 completion。

到了 2026 年，这个假设彻底死了。一个用 Copilot Workspace 或 Cursor + Claude Code 的工程师，单日 token 消耗轻松达到 5-15M——里面 90% 是 agent 在背景里反复读代码、跑测试、改文件。同样一个月费 19 美元的账户，被两个用户撑出 100 倍的成本差距。

这就是为什么 GitHub 这次的迁移不是孤立动作。把过去 6 个月的同类公告排在一起：

厂商	旧定价	新定价	变化方向
GitHub Copilot	$10 / $19 月费	Premium requests 计量	Token-based
Cursor	$20 月费	Pro+ Auto / Max-mode 计量	Token-based
Anthropic Claude Code	月费 $20	$100 / $200 + 用量上限	阶梯订阅
Replit Agent	月费 + Boost	按"Effort" 计费	计算单元
Vercel v0	月费	Credits 制	计量计费
Sourcegraph Cody	$9-19	Per-query	计量计费

整个行业在 6 个月里完成了从"All-you-can-eat"到"Pay-as-you-go"的切换。这是 SaaS 历史上从未有过的集体定价转向——上一次类似规模的转向是 2010 年 AWS EC2 推动的"按小时计费"，把传统软件许可模式打散。

不同的是，这次受冲击最严重的不是供应商而是用户。

二、新成本结构下的三类受害者

按月费定价的 SaaS 时代，重度用户其实在补贴轻度用户。当切换到计量计费，这种补贴消失，几类人会真切感受到痛：

1. 个体重度用户与外包团队。 一个习惯了让 agent 全程跑测试、查文档、生成 PR 的工程师，月成本从 $20 变成 $200-$800 不奇怪。Reddit 和 HN 上已经有大量 “I broke my own bank with Cursor Max” 的帖子。

2. AI-native 创业公司。 依赖 LLM 把团队规模压低的初创，会发现"省下的 5 个工程师工资"被 token 账单完全吃掉。Pragmatic Engineer 引用的一个 YC 公司创始人原话是：“AI 没让我们的成本下降，只是把成本从 W-2 工资迁移到 OpenAI 信用卡。”

3. 教育与开源社区。 这是被讨论最少但最痛的群体。免费/低价 Copilot 是过去 4 年学生学习现代开发流程的入口，从 2026 起这条路被切断。下一代开发者的"AI fluency"会出现明显的家庭收入分层，这是个长期不可逆的副作用。

三、行业反应：三条逃生路径

面对这条成本曲线，市场已经分化出三条路径：

路径 A：本地小模型 + 自建 Agent。 Ollama、LM Studio、llama.cpp 的下载量在 2026Q1 同比涨 4 倍。Apple Silicon Mac Studio + Qwen3 Coder 32B 量化版，已经能覆盖 70% 日常补全场景，边际成本接近 0。问题是质量上限被本地硬件锁死。

路径 B：Token 优化为一等公民。 出现了一个新工种叫 “AI Cost Engineer”——专门做 prompt 压缩、cache 共享、tool result trimming、模型路由。Latent Space 的 Tasteful Tokenmaxxing 那一期已经证实，认真做 token diet 的团队能把成本砍到 1/3。

路径 C：把 LLM 成本对外转嫁。 头部厂商如 GitHub、Vercel、Linear 开始把 AI 用量直接打进客户账单，用 markup 转嫁给 B 端客户。这是行业最后选择的一条路，但它意味着 SaaS 总价进入新一轮通胀。

四、深层结构变化：软件公司开始像云厂商一样思考

最值得关注的不是定价层，而是财报视角的结构变化：

维度	SaaS 时代（2015-2023）	LaaS 时代（2026-）
毛利率	75-85%	35-55%（被推理成本拖累）
关键 KPI	ARR / Churn	Cost-per-token / Token-per-feature
技术核心	多租户 + 数据库	推理 routing + cache
竞争对手	同领域 SaaS	上游 LLM 厂商（直接吃下行）
CFO 关注点	CAC/LTV	Compute 成本与对冲

这张表里最耐人寻味的是"竞争对手"那一行——所有 AI-native SaaS 现在都被自己的上游 LLM 供应商威胁。OpenAI 已经在做 Codex Superapp 直接卖给开发者；Anthropic 推 Claude Code 卷过 Cursor；Google 把 Gemini Code Assist 塞进 GCP。中间层 SaaS 的护城河越来越薄，毛利越来越紧。

我的判断：未来 18 个月会出现 Aggregator 反向收购的并购潮——头部 LLM 厂商收购掉一些 AI 应用层公司，把"模型 + 应用"打成捆绑销售。Cursor、Replit、Vercel 等都是潜在标的。

五、给三类读者的可执行建议

给独立开发者：

立刻接入用量监控（Cursor 的 Usage tab、GitHub 的 Activity log）；
给每个项目设月度 budget，超出自动降级到本地 7B 模型；
不要把 agent autonomy 开到最大，明确指令式调用比"猜你想干啥"省 5-10x token。

给工程团队 leader：

把 LLM token 成本放进"工程效率"看板，和 CI 时间、PR 周期同等优先；
至少 30% 流量走自托管或开源模型，作为对头部厂商的议价筹码；
评估 “Cost Engineering” 岗位（哪怕兼职），ROI 通常 < 3 个月。

给 SaaS 创业者：

重新审视"按 seat 计费"是否还合理，提前设计 usage-based 定价层；
用 RAG / Cache / Prompt Compression 把推理成本砍到 30%，否则 18 个月内毛利不可持续；
思考"被上游 LLM 厂商收购或被替代"的两种结局，主动靠拢一边。

结语：软件行业的"工业革命二阶段"

第一次工业革命把人力替换成了机器；当下这次 AI 革命，最初讲的是把工程师替换成模型，但更现实的事情是——把工程师的工资替换成了 token 账单。区别在于工资是有上限的、token 没有。

GitHub 这次定价改革只是第一只雪球。当所有 AI 工具同步切到计量计费，软件行业的"边际成本曲线"将被永久重写。那些还在用 2021 年那套 SaaS 财务模型估值的公司，会在下一个财报季集体被市场修正。

软件不会再吃掉世界。Token 会。

引用与延伸阅读

GitHub Blog – GitHub Copilot is moving to usage-based billing — https://github.blog/news-insights/company-news/github-copilot-is-moving-to-usage
The Pragmatic Engineer – The Pulse: AI token spending out of control – what’s next? — https://newsletter.pragmaticengineer.com/p/the-pulse-ai-token-spending-out-of
The Pragmatic Engineer – Tokenmaxxing as a weird new trend — https://newsletter.pragmaticengineer.com/p/the-pulse-tokenmaxxing-as-a-weird
Latent Space – Tasteful Tokenmaxxing — https://www.latent.space/p/ainews-tasteful-tokenmaxxing
404 Media – The AI Compute Crunch Is Here — https://www.404media.co/the-ai-compute-crunch-is-here-and-its-affecting-the-entire/
Anthropic – Claude Code pricing tiers update — https://www.anthropic.com/

Jiayun's Blog