Jiayun's Blog

探索与分享

一、一段被遗忘的产业悬案

把时间倒回 2022 年秋天。Tesla AI Day 上,Andrej Karpathy 反复强调一句话:人类只用两只眼睛就能开车,所以神经网络也应该只看像素。那一年起,Tesla 正式从 FSD 软硬件栈里移除毫米波雷达,紧接着移除超声波。“Vision Only” 这四个字像一道判决,把整个激光雷达上市公司板块按到了水里——Velodyne 和 Ouster 在 2022 年下半年到 2023 年初的合并、Innoviz 跌穿一美元、Luminar 多轮裁员、Quanergy 直接退市。在那两年的产业语境里,谈激光雷达像是在为一项"被淘汰的技术"辩护。

但 2025 年下半年开始,风向悄悄转了。先是 Figure、1X、Apptronik 这些人形机器人公司在量产原型上把激光雷达放回头部或腰部;再是亚马逊仓储下一代 AMR 全面切换到 360° 旋转式雷达;然后到 2026 年这个春天,Ouster 把酝酿了至少两代的 REV8 OS 系列正式发布——每一个返回点同时携带 XYZ 坐标、反射率,以及一个真正意义上的 RGB 颜色值。Robot Report 用了 “native-color lidar” 这个标签,ROS Discourse 上的讨论帖一天之内被顶到首页。

这件事的意义远不止"传感器多了一个通道"。它在悄悄重写过去十年里整个机器人感知栈最痛的一层:摄像头与雷达的外部融合(external fusion)。本文想把这件事讲透:为什么 native color 不是噱头,为什么 2026 是激光雷达被拉回中心的一年,以及为什么人形机器人和自动驾驶在这件事上会走出截然相反的两条路。

二、REV8 到底新在哪里

Ouster 的 OS 系列基于自家的数字化多脉冲 Flash(Digital Lidar)架构,本质是一块定制 SoC + VCSEL 阵列 + 单光子 SPAD 接收器。从 OS0/OS1/OS2 一路走来,硬件的旋转结构没变,变的是每一个返回点能携带多少元数据。

REV8 真正的新东西,是把一组高动态范围的 RGB 像素阵列与 SPAD 阵列做了同芯片对齐(co-aligned on the same optical path),让每发出去的一束激光在返回的同时,从同一光路上读到一个像素颜色。这意味着:

  • 每个 lidar point 出厂时就带着 (x, y, z, intensity, r, g, b, t)
  • 不需要额外的相机标定外参矩阵,不需要硬件触发同步;
  • 颜色和几何在同一时间戳、同一坐标系下天然对齐。

读到这里你可能想说:“这不就是 RGB-D 相机?” 不一样。RGB-D(Realsense、Kinect、Orbbec)依赖结构光或短距 ToF,工作距离一般在 0.3–6 米,强日光下基本失效。Ouster OS2 的 native-color 版本在 200 米外仍然能给出一个带颜色的点。前者是桌面级,后者是户外移动机器人级。它们覆盖的不是同一个量级。

三、传统外部融合到底有多脏

要理解 native color 为什么算"重新定义",得先看看过去那套"摄像头 + 雷达 后期 fusion"到底有多脏。绝大多数读者只在论文里见过 “early fusion / mid fusion / late fusion” 几个干净的术语,但工程上要把一颗摄像头的像素映射到一束激光的回波点上,要踩三类坑:

第一类:时间同步。 摄像头帧率通常 30 fps,雷达帧率 10–20 Hz,两者用各自时钟,连 PTP 都不一定能压到 1 ms 以内。机器人一旦移动,10 ms 的偏差在 1 m/s 速度下就是 1 cm 的几何错位——做关节级抓取时,这 1 cm 是致命的。

第二类:几何标定。 把相机外参 [R|t] 解到 0.1° 级别需要棋盘格、标靶板、最小化重投影误差,整个流程在出厂时做一次还行,但机器人摔一次、振动半年、温度循环几次,外参就漂了。野外运维团队的真实工作量里有相当一部分就是"再标一次"。

第三类:运动伪影。 雷达是逐线扫描的(rolling shutter 的极端版本),一帧 100 ms 内传感器自身可能已经转过 10°,而摄像头是全局快门。把一个 rolling 的几何拍到一个 global 的纹理上,运动物体边缘必然出现"颜色拖在几何后面"的鬼影。学术界有一堆 motion compensation 的论文,工程上的处理基本是—硬扛或者直接丢掉那一帧。

native-color lidar 用一个简单粗暴的物理事实把这三个坑一次填掉:颜色和几何走同一条光路、同一颗芯片、同一次曝光,那它们必然时间同步、必然外参为零、必然没有相对运动伪影。

四、新旧感知栈对比

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
┌──────────────────────────────────────────────────────────────┐
│  传统外部融合栈 (2018 - 2024)                                  │
│                                                              │
│  ┌─────────┐   ┌─────────┐   ┌─────────┐                     │
│  │ Camera  │   │  LiDAR  │   │  IMU    │                     │
│  │ 30 fps  │   │ 10 Hz   │   │ 200 Hz  │                     │
│  └────┬────┘   └────┬────┘   └────┬────┘                     │
│       │ pixels      │ points      │ pose                      │
│       ▼             ▼             ▼                           │
│  ┌──────────────────────────────────────┐                    │
│  │  时间对齐 + 外参标定 + 去畸变 + ICP   │  <-- 脏活累活      │
│  └────────────────┬─────────────────────┘                    │
│                   ▼                                           │
│              colored pointcloud (~80 ms 后)                   │
│                   ▼                                           │
│              perception / planning                            │
└──────────────────────────────────────────────────────────────┘

┌──────────────────────────────────────────────────────────────┐
│  Native-color 栈 (REV8, 2026 -)                               │
│                                                              │
│  ┌─────────────────────────┐   ┌─────────┐                   │
│  │  REV8  XYZ+I+RGB +ts    │   │  IMU    │                   │
│  │  20 Hz, 单芯片同步       │   │ 200 Hz  │                   │
│  └────────────┬────────────┘   └────┬────┘                   │
│               │ colored points     │ pose                     │
│               ▼                     ▼                         │
│         ┌──────────────────────────────┐                     │
│         │  轻量去畸变 (仅 IMU 补偿)      │                    │
│         └──────────────┬───────────────┘                     │
│                        ▼                                      │
│              colored pointcloud (~12 ms 后)                   │
│                        ▼                                      │
│              perception / planning                            │
└──────────────────────────────────────────────────────────────┘

直观感受:中间那一整层"对齐+标定+去畸变"被压成一个轻量的 IMU 补偿。从机器人动一下到拿到一帧可用的彩色点云,端到端延迟从 80 ms 数量级压进 15 ms 以内。

维度传统 Camera+LiDAR 外部融合Native-color (REV8)
端到端延迟60–100 ms10–15 ms
外参标定出厂 + 周期性重标无需
时间同步硬件PTP / 硬触发线单芯片同时钟
运动伪影显著,需补偿物理上消除
上游带宽(每帧)RGB ~6 MB + 点云 ~2 MB单流 ~3.5 MB
下游算法复杂度高(多传感器对齐网络)低(直接消费)
失败模式标定漂移、丢帧不同步单点失效更易诊断

五、为什么这件事在 2026 年才发生

技术上 native-color 的想法不新,至少 2017 年学术界就有 demo。它之所以拖到 2026 年才量产,原因有三层:

第一层是 SPAD 工艺成熟。 把 RGB 像素和 SPAD 做到同一片硅上,需要堆叠式 BSI(背照式)工艺,索尼到 2024 年才把 65 nm SPAD 量产良率推到能商业化的水平。

第二层是市场需求换位。 2018–2021 这几年,激光雷达的最大潜在客户是车厂;车厂被 Tesla 一句"vision only"吓到,订单观望;而 Ouster、Hesai、Innoviz 都把研发节奏向车规倾斜,没人有余力把消费级感知体验(颜色)拉到雷达里。直到具身智能这一波兴起,机器人公司开始用真金白银下单——他们的诉求和车厂完全不同:他们要近场(5–30 m)、要颜色(识别警示标、识别人脸朝向)、要低延迟(人在身边、抓握失败要在一帧内回退)。Ouster 看到这个市场,才有动机把 native-color 推上量产线。

第三层是边缘算力的等待。 Robot Report 那篇 “Closing the latency gap: physical AI requires edge-first architectures” 讲的就是这件事:当感知-决策的闭环要压进 20 ms 以内,云端不可能参与,所有融合必须在边缘做完。而边缘算力只有 NVIDIA Jetson Thor、Qualcomm Robotics RB7 那个量级,跑不动一个完整的多传感器对齐网络。传感器越是把结构化的数据直接吐到边缘 SoC 里,边缘推理的负担越轻。Native-color lidar 把"对齐网络"那一段的 TOPS 预算还给了感知模型本身,这是边缘算力受限场景下最划算的交换。

六、车载与机器人,同一个传感器,两条路

这里有一个被严重低估的判断:自动驾驶和机器人,对同一颗传感器会走出相反的偏好。

Tesla 走纯视觉路线在车载场景里有它的合理性:高速场景下,物体相对运动大,颜色与纹理信息密度极高,雷达点云在 100 m 外的密度反而稀疏;而车载是一个"概率游戏"——只要 99.99% 的情况下能开过去就行,剩下 0.01% 由 AEB 兜底。马斯克赌的是,规模化数据 + 端到端神经网络可以把概率推到足够高。

但机器人不能赌。Robot Report 另一篇文章 “Why deformable materials are physical AI’s real manufacturing test” 里有一个细节:纺织品分拣机器人之所以难,是因为目标在抓握瞬间会形变,几何一直在变。这种场景下,如果颜色和几何不严格同步,机器人就会"以为"自己抓住了,但其实材料已经滑出指尖。家庭场景里更极端——机器人手臂离人脸 30 cm,融合误差导致一次错误的位移估计,可能直接打到孩子。

所以一个更精确的分裂正在形成:

  • 车载:纯视觉 + 4D 毫米波雷达,赌概率,赌规模化数据。
  • 机器人 / 具身:native-color lidar + RGB-D 近场补盲 + 多目立体,物理可靠优先。

这两条路在 2027 年之后会越走越远,不是技术高低之分,而是失败成本结构完全不同。车撞了人有保险有法律框架,机器人在家里打到老人是直接的产品召回和品牌死刑。

七、对开发者意味着什么

如果你正在构建一个移动机器人或人形原型,REV8 这一代传感器的发布意味着几个具体变化:

  1. ROS 驱动层会被简化。 过去 image_transport + pointcloud2 + tf2 + message_filters::ApproximateTime 那一套同步胶水代码,现在可以直接订阅一个 PointCloud2rgb 字段的 topic。ROS Discourse 上 Ouster 已经放出了官方 driver 分支。
  2. 感知模型可以更小。 过去要用 BEVFusion、TransFusion 这种重模型把多传感器对齐做端到端,现在 PointNet++/Point Transformer 这种纯点云模型直接吃 7 通道输入就够用,参数量降一个数量级。
  3. 标定流程消失。 出厂即用,没有棋盘格、没有 Kalibr、没有维护手册里那一章"每 200 小时重标定"。运维成本下降。
  4. 数据集会重新洗牌。 KITTI、nuScenes、Waymo 这些数据集都是基于"分立的相机 + 雷达"采集的,无法 1:1 训练 native-color 模型。2026 下半年大概率会有新的开源数据集涌出,谁先发布、谁就抢到下一代具身基础模型的训练入口。

八、对 ToF 和 RGB-D 的挤压

最后说一个不那么显眼但很关键的趋势:native-color lidar 会把工业 ToF 相机从中长距感知里挤出去。ToF 在 2018–2024 这一波 AMR 浪潮里活得不错,因为它便宜、紧凑、近距精度高。但它的物理上限决定了在 8 m 以外几乎不可用,而且对环境光极度敏感。当一颗 native-color lidar 能同时覆盖 0.5 m 到 100 m,并且单点带颜色时,工业 AMR 厂商没有理由再为 ToF 单独维护一条算法管线。

我的预判是:到 2027 年底,主流人形机器人和工业移动机器人的传感配置会稳定在两个组件——头部一颗 native-color 旋转或 Flash lidar,胸前或腕部一颗近场 RGB-D(用于 0.1–1 m 的精细抓取)。中间那块原本属于 ToF 的市场会基本消失。三年压制之后,激光雷达不仅回到了中央,还顺手吃掉了曾经替代它的那个邻居。

Tesla 那句"人类只用两只眼睛"在车载场景或许仍然成立。但机器人不是人类,它在人身边工作,它没有保险,它输不起任何一次几何错位。Ouster REV8 把这个朴素的事实变成了一行可以直接订阅的 ROS topic——这就够了。


引用与延伸阅读

  1. The Robot Report, “Ouster releases REV8 OS sensor family with native-color lidar”, 2026. https://www.therobotreport.com/
  2. The Robot Report, “Closing the latency gap: Why physical AI requires edge-first architectures”, 2026. https://www.therobotreport.com/
  3. The Robot Report, “Why deformable materials are physical AI’s real manufacturing test”, 2026. https://www.therobotreport.com/
  4. ROS Discourse, “Ouster unveil the first native color Lidar sensor”, 2026. https://discourse.ros.org/
  5. Tesla AI Day 2022, vision-only perception stack 公开技术介绍;以及 2022–2023 年 Velodyne / Ouster / Luminar / Innoviz 公开市场表现报道。