Cerebras 上市在即：晶圆级芯片押注推理经济学，AI 算力的价值重心正在从训练滑向推理

上市时机的精确计算

Cerebras Systems 即将上市的消息并不意外——这家公司从 2024 年就开始了 IPO 流程。真正值得注意的是它选择加码的时间点：2026 年 5 月，正是 AI 产业从"训练军备竞赛"转向"推理规模化部署"的结构性拐点。

据路透社报道，Cerebras 计划提高 IPO 的发行规模和定价。市场对这家公司的估值预期已从 2024 年的 40 亿美元攀升至 80 亿美元以上。但真正的问题不是 Cerebras 值多少钱，而是它押注的"推理经济学"是否成立。

训练 → 推理：AI 算力经济学的哥白尼时刻

数字说话

让我们看一组关键数据：

指标	2024	2026（估计）	趋势
全球 AI 训练支出	~$500 亿	~$800 亿	增长放缓
全球 AI 推理支出	~$300 亿	~$900 亿	加速增长
推理占 AI 算力支出比例	~38%	~53%	已过半
每日 ChatGPT 查询量	~1 亿	~10 亿	10x
推理每 token 成本下降	基准	-85%	急剧下降

2026 年是推理支出首次超过训练支出的年份。这不是周期性波动——这是结构性转移。原因很清晰：

训练是一次性成本：GPT-5 训练一次，然后服务数十亿用户
推理是持续性成本：每一次用户查询都需要算力
用户基数指数增长：AI 应用从开发者工具走向消费级产品
推理延迟即用户体验：用户不会等 5 秒等一个回答

从"谁能训练最大的模型"到"谁能最便宜地服务推理"

这个转变深刻改变了 AI 芯片的竞争逻辑：

训练时代的制胜要素：

峰值算力（TFLOPS）
大规模并行扩展能力
高带宽互连（NVLink/InfiniBand）

推理时代的制胜要素：

每 token 成本（能效比）
首 token 延迟（用户体验）
吞吐量（并发服务能力）
内存带宽（大模型需要快速读取权重）

NVIDIA 的 GPU 是训练时代的王者，但在推理场景中，GPU 的大量计算核心经常"闲置等待内存"——这就是所谓的"内存墙"问题。

Cerebras 的晶圆级架构为什么适合推理？

整颗晶圆就是一块芯片

Cerebras WSE-3（Wafer Scale Engine 3）是一个违反直觉的产品：它不是把晶圆切成芯片，而是用整颗 300mm 晶圆做成一块芯片。

关键参数：

晶体管数量：约 4 万亿（是 NVIDIA H100 的 50 倍）
AI 核心数：90 万+
片上 SRAM：44 GB（是 H100 片上缓存的 880 倍）
内存带宽：高达 21 PB/s（片上 SRAM 带宽）

44 GB 的片上 SRAM 是推理的杀手锏。 在 GPU 推理中，模型权重存储在 HBM（高带宽存储器）中，每次前向传播都需要从 HBM 读取全部权重——HBM 的带宽就是瓶颈。而 WSE-3 的 44 GB SRAM 可以直接在片上存储相当大的模型权重，消除了内存墙。

推理性能实测

Cerebras 在其推理云服务中展示的数据令人印象深刻：

Llama 3.1 70B 推理：每秒生成 2,000+ token（GPU 推理通常为 50-100 token/s）
首 token 延迟：<100ms（GPU 推理通常 200-500ms）
每百万 token 成本：比 GPU 推理低 60-70%

这些数字的核心原因就是片上 SRAM 消除了 HBM 带宽瓶颈。

但 Cerebras 的风险也很明显

制造成本与良率

一颗 WSE-3 晶圆的面积约 46,225 mm²，而一颗 H100 芯片约 814 mm²。在芯片制造中，面积越大，遇到致命缺陷的概率越高。Cerebras 通过冗余设计（坏核自动禁用）部分缓解了这个问题，但制造成本仍然远高于传统芯片。

客户集中度风险

Cerebras 的 S-1 文件显示，其大部分收入来自少数大客户——特别是阿布扎比的 G42 集团。CFIUS（美国外国投资委员会）对这一关系的审查一度阻碍了 IPO 进程。过度依赖中东资本在地缘政治紧张时期是显著的风险因素。

NVIDIA 并非坐以待毙

NVIDIA 正在通过多路径应对推理市场：

GB200/GB300 推理优化：新一代 GPU 大幅提升推理效率
TensorRT-LLM：持续优化的推理软件栈
NIM（NVIDIA Inference Microservices）：降低推理部署门槛
定制 ASIC 合作：与 Broadcom 等合作提供定制推理芯片

CUDA 生态的护城河在推理场景中不如训练那么深——推理的软件栈相对简单——但惯性依然强大。

更大的图景：推理芯片的寒武纪爆发

Cerebras 不是唯一押注推理的公司。2025-2026 年，推理专用芯片领域出现了前所未有的投资热潮：

Groq：LPU（Language Processing Unit）架构，强调确定性延迟
SambaNova：数据流架构，优化推理吞吐量
Etched：Transformer 专用 ASIC（Sohu 芯片）
d-Matrix：数字存内计算架构
Tenstorrent：Jim Keller 领导的 RISC-V 推理芯片

这是一个正在形成的"推理芯片创业潮"——类似于 2010 年代的云计算芯片创业潮。 上一波的赢家是 NVIDIA（GPU 取代 CPU 做 AI 训练），这一波的赢家尚未确定。

我的判断

Cerebras 的 IPO 将成为 AI 算力经济学转折的标志性事件。晶圆级架构是否是推理的最优解仍有争议，但推理需求的爆发式增长是无可争辩的。

核心预测：

推理支出将在 2027 年达到训练支出的 2 倍——推理是持续消耗，训练是一次性投入
2026-2028 年将有 3-5 家推理芯片公司 IPO 或被收购——资本正在追逐这个赛道
NVIDIA 在推理市场的份额将从 ~80% 下降到 ~60%——但绝对收入仍增长，因为市场总量在膨胀
“每 token 成本"将成为 AI 公司的核心竞争指标——谁能更便宜地服务推理，谁就拥有 margin 优势
Cerebras 的最大风险不是技术，而是商业化——拥有最好的芯片不等于拥有最大的市场，CUDA 生态的惯性不可低估

对投资者的建议： Cerebras IPO 值得关注，但不要只看芯片性能——看客户多样性、软件生态和毛利率。推理芯片的竞争最终是每 token 成本的竞争，而成本不仅取决于芯片性能，还取决于良率、封装、冷却和数据中心整合度。

参考来源

Stratechery - The Inference Shift — Ben Thompson 对推理经济学转变的深度分析
Reuters - Cerebras to raise IPO size and price — Cerebras IPO 最新进展报道
Cerebras Systems - WSE-3 Technical Specifications — 晶圆级引擎技术参数
SemiAnalysis - AI Inference Market Landscape 2026 — AI 推理芯片市场分析
The Information - Cerebras CFIUS Review and G42 Relationship — Cerebras 客户集中度风险分析

Jiayun's Blog