上市时机的精确计算
Cerebras Systems 即将上市的消息并不意外——这家公司从 2024 年就开始了 IPO 流程。真正值得注意的是它选择加码的时间点:2026 年 5 月,正是 AI 产业从"训练军备竞赛"转向"推理规模化部署"的结构性拐点。
据路透社报道,Cerebras 计划提高 IPO 的发行规模和定价。市场对这家公司的估值预期已从 2024 年的 40 亿美元攀升至 80 亿美元以上。但真正的问题不是 Cerebras 值多少钱,而是它押注的"推理经济学"是否成立。
训练 → 推理:AI 算力经济学的哥白尼时刻
数字说话
让我们看一组关键数据:
| 指标 | 2024 | 2026(估计) | 趋势 |
|---|---|---|---|
| 全球 AI 训练支出 | ~$500 亿 | ~$800 亿 | 增长放缓 |
| 全球 AI 推理支出 | ~$300 亿 | ~$900 亿 | 加速增长 |
| 推理占 AI 算力支出比例 | ~38% | ~53% | 已过半 |
| 每日 ChatGPT 查询量 | ~1 亿 | ~10 亿 | 10x |
| 推理每 token 成本下降 | 基准 | -85% | 急剧下降 |
2026 年是推理支出首次超过训练支出的年份。这不是周期性波动——这是结构性转移。原因很清晰:
- 训练是一次性成本:GPT-5 训练一次,然后服务数十亿用户
- 推理是持续性成本:每一次用户查询都需要算力
- 用户基数指数增长:AI 应用从开发者工具走向消费级产品
- 推理延迟即用户体验:用户不会等 5 秒等一个回答
从"谁能训练最大的模型"到"谁能最便宜地服务推理"
这个转变深刻改变了 AI 芯片的竞争逻辑:
训练时代的制胜要素:
- 峰值算力(TFLOPS)
- 大规模并行扩展能力
- 高带宽互连(NVLink/InfiniBand)
推理时代的制胜要素:
- 每 token 成本(能效比)
- 首 token 延迟(用户体验)
- 吞吐量(并发服务能力)
- 内存带宽(大模型需要快速读取权重)
NVIDIA 的 GPU 是训练时代的王者,但在推理场景中,GPU 的大量计算核心经常"闲置等待内存"——这就是所谓的"内存墙"问题。
Cerebras 的晶圆级架构为什么适合推理?
整颗晶圆就是一块芯片
Cerebras WSE-3(Wafer Scale Engine 3)是一个违反直觉的产品:它不是把晶圆切成芯片,而是用整颗 300mm 晶圆做成一块芯片。
关键参数:
- 晶体管数量:约 4 万亿(是 NVIDIA H100 的 50 倍)
- AI 核心数:90 万+
- 片上 SRAM:44 GB(是 H100 片上缓存的 880 倍)
- 内存带宽:高达 21 PB/s(片上 SRAM 带宽)
44 GB 的片上 SRAM 是推理的杀手锏。 在 GPU 推理中,模型权重存储在 HBM(高带宽存储器)中,每次前向传播都需要从 HBM 读取全部权重——HBM 的带宽就是瓶颈。而 WSE-3 的 44 GB SRAM 可以直接在片上存储相当大的模型权重,消除了内存墙。
推理性能实测
Cerebras 在其推理云服务中展示的数据令人印象深刻:
- Llama 3.1 70B 推理:每秒生成 2,000+ token(GPU 推理通常为 50-100 token/s)
- 首 token 延迟:<100ms(GPU 推理通常 200-500ms)
- 每百万 token 成本:比 GPU 推理低 60-70%
这些数字的核心原因就是片上 SRAM 消除了 HBM 带宽瓶颈。
但 Cerebras 的风险也很明显
制造成本与良率
一颗 WSE-3 晶圆的面积约 46,225 mm²,而一颗 H100 芯片约 814 mm²。在芯片制造中,面积越大,遇到致命缺陷的概率越高。Cerebras 通过冗余设计(坏核自动禁用)部分缓解了这个问题,但制造成本仍然远高于传统芯片。
客户集中度风险
Cerebras 的 S-1 文件显示,其大部分收入来自少数大客户——特别是阿布扎比的 G42 集团。CFIUS(美国外国投资委员会)对这一关系的审查一度阻碍了 IPO 进程。过度依赖中东资本在地缘政治紧张时期是显著的风险因素。
NVIDIA 并非坐以待毙
NVIDIA 正在通过多路径应对推理市场:
- GB200/GB300 推理优化:新一代 GPU 大幅提升推理效率
- TensorRT-LLM:持续优化的推理软件栈
- NIM(NVIDIA Inference Microservices):降低推理部署门槛
- 定制 ASIC 合作:与 Broadcom 等合作提供定制推理芯片
CUDA 生态的护城河在推理场景中不如训练那么深——推理的软件栈相对简单——但惯性依然强大。
更大的图景:推理芯片的寒武纪爆发
Cerebras 不是唯一押注推理的公司。2025-2026 年,推理专用芯片领域出现了前所未有的投资热潮:
- Groq:LPU(Language Processing Unit)架构,强调确定性延迟
- SambaNova:数据流架构,优化推理吞吐量
- Etched:Transformer 专用 ASIC(Sohu 芯片)
- d-Matrix:数字存内计算架构
- Tenstorrent:Jim Keller 领导的 RISC-V 推理芯片
这是一个正在形成的"推理芯片创业潮"——类似于 2010 年代的云计算芯片创业潮。 上一波的赢家是 NVIDIA(GPU 取代 CPU 做 AI 训练),这一波的赢家尚未确定。
我的判断
Cerebras 的 IPO 将成为 AI 算力经济学转折的标志性事件。晶圆级架构是否是推理的最优解仍有争议,但推理需求的爆发式增长是无可争辩的。
核心预测:
- 推理支出将在 2027 年达到训练支出的 2 倍——推理是持续消耗,训练是一次性投入
- 2026-2028 年将有 3-5 家推理芯片公司 IPO 或被收购——资本正在追逐这个赛道
- NVIDIA 在推理市场的份额将从 ~80% 下降到 ~60%——但绝对收入仍增长,因为市场总量在膨胀
- “每 token 成本"将成为 AI 公司的核心竞争指标——谁能更便宜地服务推理,谁就拥有 margin 优势
- Cerebras 的最大风险不是技术,而是商业化——拥有最好的芯片不等于拥有最大的市场,CUDA 生态的惯性不可低估
对投资者的建议: Cerebras IPO 值得关注,但不要只看芯片性能——看客户多样性、软件生态和毛利率。推理芯片的竞争最终是每 token 成本的竞争,而成本不仅取决于芯片性能,还取决于良率、封装、冷却和数据中心整合度。
参考来源
- Stratechery - The Inference Shift — Ben Thompson 对推理经济学转变的深度分析
- Reuters - Cerebras to raise IPO size and price — Cerebras IPO 最新进展报道
- Cerebras Systems - WSE-3 Technical Specifications — 晶圆级引擎技术参数
- SemiAnalysis - AI Inference Market Landscape 2026 — AI 推理芯片市场分析
- The Information - Cerebras CFIUS Review and G42 Relationship — Cerebras 客户集中度风险分析