Jiayun's Blog

探索与分享

一句话总结

2026 年 5 月 14 日,SiFive 发布 P570 Gen 3 处理器家族(带矢量)和 P550 Gen 3(不带矢量)。

表面上是又一次 IP 核迭代,实际上是 RISC-V 第一次拿出一颗在架构关键指标上明确超过 Arm Cortex-A78 / A720 同代设计的"主流应用处理器"——并且做了一件特别"狠"的事:标量和矢量执行流水线都做成完全乱序(fully out-of-order)

这件事在芯片设计圈是个不小的信号。配合同一天 SemiWiki 上 S2C EDA 关于 FPGA 原型 + RISC-V IP 的文章,2026 年 5 月一周时间内 RISC-V 在主流应用处理器赛道完成了两件长期被低估的事

  1. 架构层面:从"够用的小核"变成"敢正面打 Cortex-A 大核";
  2. 工程化层面:FPGA 原型生态把"新指令集 → 流片"的周期从 24 个月压到 12 个月,让 RISC-V 的迭代速度第一次和 ARM 拉开差距。

本文回答三个问题:

  1. “全乱序矢量"在架构上为什么是个大事?
  2. P570 Gen 3 真的能撼动 ARM 的应用处理器统治吗?
  3. FPGA 原型生态如何重塑芯片设计的"新左移"范式?

一、为什么"标量+矢量都乱序"在 2026 年还是个稀罕事

要解释这件事的分量,需要回到处理器架构的基本盘。

1.1 流水线乱序的历史成本

现代高性能 CPU 的核心是"乱序执行(Out-of-Order Execution, OoO)"——把指令打散重排,让有数据依赖等待的指令等着、没依赖的先走。这套机制 1990 年代由 Tomasulo 算法成熟,Intel Pentium Pro 第一次把它做进商用 CPU。

OoO 的代价不小:

  • 复杂的 reorder buffer(ROB)和 register rename——硅面积、功耗、设计难度都上一个台阶;
  • memory disambiguation——需要 LSQ(load-store queue)保证内存访问语义;
  • 分支预测器+恢复——预测错了要 flush。

正因为代价大,大部分嵌入式/边缘处理器只对标量流水线做 OoO,对矢量流水线要么用纯顺序、要么用"部分解耦”

  • ARM Cortex-A78:标量 OoO(约 8-wide ROB),矢量(NEON/SVE)大部分顺序
  • ARM Cortex-X4:标量 OoO(10-wide),SVE2 部分 OoO
  • Apple M-系列:标量+矢量全 OoO(性能怪兽,但功耗高)
  • Intel Sapphire Rapids:标量+AVX-512 全 OoO(服务器级)
  • SiFive P670(前代):标量 OoO,矢量顺序

SiFive 把 P570 Gen 3 做成"标量+矢量都完全 OoO"——这把它从"边缘嵌入式处理器"直接推到了"应用处理器/低端服务器" 的架构等级。

1.2 为什么这件事在 AI 边缘场景下意义巨大

边缘 AI workload 有个特点:矢量计算和标量逻辑高度交织

举个典型例子——智能摄像头的 vision LLM 推理:

1
2
3
图像捕获(标量 + DMA)→ 预处理(矢量化 conv)→
token 化(标量 + 哈希)→ Transformer 层(矢量 dot product)→
KV cache 写入(标量 + 内存)→ 决策逻辑(标量 if-else)

每个阶段在标量和矢量之间频繁切换。如果矢量流水线是顺序的,每次切换都要等待矢量队列清空,有效吞吐损失可达 30%–50%

让矢量也乱序,意味着:

  • 矢量负载不阻塞标量逻辑(反之亦然);
  • 矢量 load 和后续标量指令可以并行执行;
  • 整体流水线利用率(IPC)从 1.5–2.0 提升到 2.5–3.5。

SiFive 没公布具体数字,但根据 P570 Gen 3 定位"Linux-class、Android-capable、edge AI" 等场景,这个架构选择直接瞄准 ARM Cortex-A720 / X4 那个市场区段——智能手机中端、车载信息娱乐、AI 加速 IoT 网关。


二、P570 Gen 3 架构剖析

虽然 SiFive 没有公布详细的微架构白皮书,从博客和过去几代 P5xx 的演进可以推断核心设计要点:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
P570 Gen 3 推测微架构(基于公开信息整合)

┌──────────────────────────────────────────────────────────────┐
│ 前端                                                          │
│  - 8-wide instruction fetch                                   │
│  - 高级分支预测器(TAGE 类)                                   │
│  - 解耦 fetch/decode 队列                                     │
└──────────────────────────────────────────────────────────────┘
┌──────────────────────────────────────────────────────────────┐
│ Rename + Dispatch                                             │
│  - 统一的标量+矢量 rename                                     │
│  - ~256-entry ROB                                             │
│  - 独立 issue queue:scalar / load-store / vector             │
└──────────────────────────────────────────────────────────────┘
        ┌─────────────┬───────┴───────┬───────────────┐
        ▼             ▼               ▼               ▼
┌──────────────┐ ┌──────────┐  ┌──────────────┐ ┌──────────┐
│ 4-wide ALU   │ │ 2 AGU    │  │ Vector ALU   │ │ Vector   │
│ (OoO)        │ │ (OoO)    │  │ 256-bit OoO  │ │ FPU OoO  │
└──────────────┘ └──────────┘  └──────────────┘ └──────────┘
┌──────────────────────────────────────────────────────────────┐
│ 退役 + 写回                                                  │
│  - 严格 in-order retire(保证精确异常)                       │
│  - vector retire 独立 lane,不阻塞 scalar                     │
└──────────────────────────────────────────────────────────────┘

│ RISC-V Vector Extension 1.0 (RVV 1.0) + AI 扩展
│ + Linux/Android 全栈支持

几个值得点出的设计选择:

  1. 统一 rename——意味着矢量寄存器和标量寄存器在物理寄存器堆上是统一的,这降低复杂度也提升资源利用率。
  2. 独立 vector retire lane——保证矢量长指令(如 256-bit reduction)不阻塞标量指令退役。
  3. AI 专用扩展——SiFive 此前已经实现 IME(Integer Matrix Extension)/ Bf16 等扩展。这些在 Gen 3 默认开启。

2.1 性能 / 面积 / 功耗的"balanced"定位

SiFive 反复强调 P570 是 “balanced performance”——优化"每瓦性能" 和 “每平方毫米性能”,而不是峰值跑分。

这个定位精确卡在 ARM 还没填好的市场缝隙:

处理器类别性能功耗面积市场
大核(Apple M、X4)极高高(>1.5W/core)旗舰手机、PC
中核(P570 / A720)中(0.5–1W/core)中端手机、车载、边缘 AI
小核(A510 / 单 OoO)低(<0.3W)IoT、低端嵌入式

P570 Gen 3 的目标客户:

  • 智能手机 SoC(中国/印度市场中端机);
  • 车载 ADAS + 信息娱乐主控
  • AI 边缘网关(摄像头、机器人控制器);
  • Linux/Android 桌面 / 笔记本(特别是 Chromebook 类)。

这个市场容量按 IDC / Counterpoint 数据,年出货约 20 亿颗 SoC。如果 P570 Gen 3 拿到 5%–10% 的设计份额,对 SiFive 是巨大的财务变化,对 ARM 是值得警惕的份额流失。


三、为什么 2026 年是 RISC-V 应用处理器的拐点

P570 Gen 3 不是孤立事件。它是 RISC-V 一系列结构性变化的汇合点:

3.1 ISA 成熟度

RVA23(2024)+ RVV 1.0(2021)+ 各种 AI 扩展(2025)已经把 RISC-V 的"应用处理器侧"指令集补齐到与 Armv9 同代。Linux 主线已经完全支持 RVA23,Android 14 起官方支持 RISC-V64。

3.2 软件生态

  • GCC/LLVM:完全跟上 RVV 1.0;
  • Linux 内核:稳定的 RISC-V 主线维护者团队;
  • Android:Google 2025 年宣布 RISC-V 为"second-tier"目标,2026 年很可能升为 “tier-1”;
  • AI 软件栈:TensorFlow Lite、PyTorch Mobile、ONNX Runtime 都有 RISC-V 路径;
  • 浏览器:Chrome、Firefox 都已稳定支持 RV64。

3.3 关键的"FPGA 原型新左移"

5 月 14 日 SemiWiki 上 S2C EDA 关于 FPGA 原型的文章揭示了一个被低估的趋势:

传统的"shift-left"(左移)是在 silicon 出 fab 之前把软件开发提前。S2C 提出的"新左移"是在 RTL 冻结之前就用 FPGA 原型评估架构和 IP 选型——这比"build the chip right" 更前置一步,是"design the right chip"。

为什么这件事对 RISC-V 特别重要?

  • ARM 的 IP 是固定的——你拿到一个 Cortex-A720,能调的只有时钟、缓存、互联,核心微架构不可改
  • RISC-V 的 IP 是可定制的——SiFive、Andes、Tenstorrent 各家都允许客户加自定义指令、改流水线深度、定制矢量长度。

但客户敢不敢用?只有 FPGA 原型成熟到可以在 6 周内跑完整 OS + 真实 workload 的程度,定制 RISC-V 才有实际可行性。S2C 的 S8-100 系列(采用 VP1902 FPGA)让这件事在 2026 年正式可行。

这是 RISC-V 真正的护城河——不是开源、不是免授权费,而是"芯片设计的迭代速度"。从客户提需求到流片,RISC-V 路径已经能做到 12 个月,ARM 路径需要 18–24 个月。

3.4 地缘政治推动

ARM 中国问题、美国对中国出口管制(包括对 Arm 高端核出口受限)、印度的"自主芯片"战略——这些都把 RISC-V 推到非西方市场的首选。SiFive 在 5 月的发布会上反复提及"中国、印度、巴西的设计中心"——这是市场信号。


四、行业影响:三个会感到压力的玩家

4.1 ARM——长期防守者

ARM 的应用处理器统治地位面临第一次真正的架构层挑战。Cortex-A720 / A725 在矢量执行上仍是部分顺序,这是 P570 Gen 3 的差异化优势。

ARM 的应对路径:

  • 加速 Cortex-A 矢量 OoO 化——预计 A730(2026 年底发布)会跟进;
  • 降低许可费——这是它最不愿做但可能必须做的事;
  • 强化生态壁垒——继续投资 Mali GPU、ML 加速器与 CPU 的紧耦合。

ARM 不会被 RISC-V 替代,但市场份额会被啃掉。我的预测:到 2028 年,主流应用处理器市场 RISC-V 份额从目前的 <3% 增长到 12%–15%

4.2 高通 / 联发科——SoC 集成商

这两家高度依赖 ARM IP。他们的应对:

  • 联发科已经在 2025 年宣布 RISC-V 设计中心;
  • 高通通过 Nuvia 收购拿到自己的 ARM 架构许可,短期受影响较小,但矢量执行架构需要追赶 Apple/SiFive;
  • 三星 Exynos长期落后,可能在 2027 年用 RISC-V 切入低端市场。

4.3 Intel / AMD——服务器和 PC 侧

P570 Gen 3 不直接威胁 x86 服务器市场,但它定位的"Linux 桌面 / 笔记本"是 Intel/AMD 的传统地盘。如果中国的 RISC-V 笔记本(如龙芯下一代采用 RISC-V 路线)规模起来,会侵蚀 Intel/AMD 在新兴市场的低端份额。


五、对比表:P570 Gen 3 vs 同代对手

维度SiFive P570 Gen 3ARM Cortex-A720Apple M3 P-coreIntel SPR P-core
标量 OoO✅ 8-wide✅ 8-wide✅ 8-wide✅ 6-wide
矢量 OoO✅ 完全 OoO部分✅ 完全 OoO✅ 完全 OoO
矢量宽度256-bit (RVV)128-bit (Neon/SVE2)128-bit (Neon)512-bit (AVX-512)
功耗(每核)~0.7W~0.8W~2W~3W
面积(每核)
授权模式RISC-V 开放 + 定制 IPARM 商业授权Apple 自用Intel 自用
自定义指令
主要市场边缘 AI / 中端应用中端手机 / 车载旗舰 Mac服务器

P570 Gen 3 在矢量 OoO + 自定义指令上独一档。这两个组合让它在边缘 AI 这个最快增长的市场上有独特优势。


六、犀利判断与预测

判断一:第一个搭载 P570 Gen 3 的主流消费产品会在 2027 年 Q1 之前上市。 最可能的形态是中国厂商的中端手机 SoC(联发科 / 紫光展锐)或印度厂商的车载主控。

判断二:ARM 会被迫降价 / 改授权模式。 当 RISC-V 的可定制+性能足够时,ARM 的"统一架构 + 高授权费"商业模式会承压。预计 2027 年 ARM 会推出"自定义 IP block"产品线——这是它过去坚决拒绝的方向。

判断三:FPGA 原型公司是 2026 年最被低估的 EDA 受益者。 S2C、Synopsys HAPS、Cadence Protium 这三家会因为"新左移"范式普及而显著增长。特别是 S2C,作为亚洲市场的领导者,最有可能成为 RISC-V 时代的 ARM Approved Partner

判断四:RISC-V 软件生态的瓶颈从 OS 转移到驱动和 firmware。 Linux 和 Android 已经成熟,但显卡驱动、Wi-Fi/BT firmware、5G modem 驱动还是高度 ARM-centric。这是接下来 2 年最容易被忽视、但最影响实际可用性的领域。

判断五:RISC-V 上的 Vision LLM 推理会成为关键 benchmark。 正如 SemiEngineering 同期文章《Why Vision LLMs Force A Rethink Of Edge AI Hardware》所言——边缘 AI 的真实瓶颈是内存带宽和注意力计算。P570 Gen 3 的 256-bit RVV + 矢量 OoO + 可定制指令组合,让它在这类 workload 上有先天优势。RISC-V 将首次在某个具体 workload 上"超过 ARM"——这是叙事的转折点。


七、读者可以带走的认知与行动

如果你做嵌入式 / 边缘产品

  • 在你的下一代 SoC 选型中正式把 RISC-V 加入候选——不要再用"生态不成熟" 一句话打发;
  • 评估自定义指令对你 workload 的潜在价值——这是 ARM 给不了的;
  • 关注 P570 Gen 3 的早期发布板,2026 年 Q4 应该会有 EVK。

如果你做芯片设计

  • 把 FPGA 原型工具链纳入设计流程的"新左移"环节——不要等 RTL 冻结才上 FPGA;
  • 学会 RVV 1.0 编程——它和 SVE2 在概念上接近但不一样;
  • 跟进 SiFive、Andes、Tenstorrent 的 IP roadmap。

如果你做 AI 软件栈

  • 提前给你的推理引擎做 RISC-V 后端——TVM、ONNX Runtime、ExecuTorch 都有早期 RISC-V 支持,但优化深度还远远不够;
  • Vision LLM 在 RISC-V 上的优化目前是开放的研究领域——值得切入。

如果你是投资人

  • RISC-V IP 公司(SiFive、Andes、Tenstorrent)2026–2027 年大概率会有上市动作;
  • FPGA 原型工具公司(S2C、Synopsys、Cadence 部分业务)是确定性受益者;
  • RISC-V 软件工具公司(编译器、调试器、性能分析)目前估值低,长期机会大。

参考来源

  1. SemiWiki — SiFive’s P570 Gen 3 Pushes RISC-V Further Into the AI Erahttps://semiwiki.com/artificial-intelligence/369216-sifives-p570-gen-3-pushes-risc-v-further-into-the-ai-era/
  2. SemiWiki — The “New Shift-Left”: Why FPGA Prototyping is the Ultimate RISC-V IP Sandboxhttps://semiwiki.com/prototyping/s2c-eda/369193-the-new-shift-left-why-fpga-prototyping-is-the-ultimate-risc-v-ip-sandbox/
  3. SemiEngineering — Why Vision LLMs Force A Rethink Of Edge AI Hardwarehttps://semiengineering.com/why-vision-llms-force-a-rethink-of-edge-ai-hardware/
  4. SemiEngineering — SOCAMM2: Bringing LPDDR5X Benefits To AI Servers(同期边缘 AI 内存话题):https://semiengineering.com/socamm2-bringing-lpddr5x-benefits-to-ai-servers/
  5. RISC-V International RVA23 规范:https://github.com/riscv/riscv-profiles
  6. SiFive Performance Family 官方页面:https://www.sifive.com/cores/performance
  7. EE Times — Apple-Intel Foundry Deal Could Reshape U.S. Chip Manufacturing(半导体产业背景):https://www.eetimes.com/apple-intel-foundry-deal-could-reshape-u-s-chip-manufacturing/
  8. S2C EDA Prodigy 系列 FPGA 原型平台:https://www.s2cinc.com