Jiayun's Blog

探索与分享

📌 前沿科技 · 机器人深度 | Robotics Deep Dive

2025-12-19,Sony AI 的乒乓球机器人 Ace 在大阪的一场闭门赛里,对国际乒联世界排名 Top-200 内的山本智也(Yamato Kawamata)取胜 11-9。这场比赛在 2026 年 5 月经 Robohub 详细报道前,业内只在 NeurIPS 2025 闭门 demo 看过零星片段。

三件事让这次"乒乓桌上的图灵时刻"远比 Google 2024 的乒乓机器人更重要:

  1. 闭环延迟:Ace 的视觉→规划→关节力矩闭环 < 8ms,比此前 SOTA 快一个量级
  2. 架构:Ace 用的不是经典 MPC + 神经网络补偿,而是 Vision-Language-Action 大模型 端到端推理
  3. 泛化:同一份模型权重,迁移到 EPFL 的不同形态机械臂上仅微调 4 小时即可恢复 80% 性能 — 这是过去 VLA 学界争论了三年的"跨机型零样本"问题

这三件事拼起来,等于把 SemiEngineering 5-14 那篇 “Vision-Language-Action Models Arrive” 标题里的"Arrive"具体化成了一个可以观赛的事件。


一、为什么乒乓球是机器人的"图灵测试"

乒乓球之所以是机器人控制的极限挑战,不是因为它快 — 比它快的运动多得是 — 而是因为它在四个维度上同时极限:

维度数据含义
时间预算球出手 → 落桌 ≈ 0.3s;机器人完整决策窗口 ≤ 80ms任何超过 80ms 的 pipeline 直接落败
状态空间球的 6DOF + 旋转 + 旋转衰减 + 反弹模型 = 11 维经典 MPC 必须线性化 → 大误差
对抗性对手在主动制造分布外样本监督学习数据自然不平衡
多模态决策“击球点/角度/旋转/落点” 是同时联合决策解耦控制器一定漏

Sony AI 这次的核心论点:这四个维度同时极限的问题,恰好就是 next-token prediction 擅长的 — 因为大模型天然在 high-dim 状态里做 anytime-anywhere 联合决策。


二、Ace 的技术拆解:一个 1.7B VLA 模型 + 物理模拟器的"双胞胎训练"

2.1 模型架构

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
                    ┌──────────────────────────────┐
                    │   Ace VLA Backbone (1.7B)    │
                    │   - 12 stereo cameras         │
                    │   - 2 event cameras (1000Hz)  │
                    │   - 11-DOF arm state          │
                    └──────────────┬───────────────┘
                                   │ token stream
              ┌────────────────────┼────────────────────┐
              ▼                    ▼                    ▼
       Trajectory Head      Stroke-Type Head     Tactic Head
       (joint torques        (smash/loop/         (placement
        @ 1kHz)               chop)                strategy)
              │                    │                    │
              └────────────────────┴────────────────────┘
                         Real-Time Safety Filter
                         (analytic, < 50µs)

关键 design choices(基于 Robohub 报道 + Sony AI 在 NeurIPS demo Q&A 透露的细节):

  • Vision encoder 是 stereo + event camera 融合。Event camera 1000Hz 的稀疏脉冲特别适合捕获球的旋转 — 这是传统 RGB 60Hz 永远抓不准的物理量
  • Action head 直接出 joint torques @ 1kHz,不是经典 servo target。这意味着 VLA 模型在隐式学习了 robot 的逆动力学
  • Safety filter 在模型外面,是手写的 analytic CBF (Control Barrier Function) — 50µs 内决定是否 override 模型输出。这是 Sony 工程师在 demo 后被问到"如果模型抽风怎么办"时给出的答案

2.2 训练范式:digital twin × 真实 fine-tune

最有意思的是训练方式。三阶段:

  1. Stage-1 (sim only, 600 GPU-week):在一个高保真物理模拟器里跑 RL,奖励信号 = 命中率 × 落点 × 球速。这个模拟器 Sony 私下叫 “PingMux”,外界只知道它包含了 Magnus 力的 6 阶展开和球网 / 桌面的接触动力学
  2. Stage-2 (sim-to-real, 80 hours real, 600 hours sim):用 Sony 自研 of the doubly-robust domain adaptation 把真实机器人采的 80 小时数据 weight 到 sim 数据的 7-8 倍,避免灾难性遗忘
  3. Stage-3 (online, 20 hours adversarial play):用 self-play + 真人陪练,触发模型在分布外样本上的 robustness。这一步借鉴了 OpenAI Five 的 SP-PFSP 加权

💡 观点:Stage-2 才是真正的"门"。AlphaPong / Google 乒乓机器人都死在这里 — sim-to-real 在毫秒级闭环里几乎不可能 zero-shot。Sony 的解法不是更好的模拟器,而是模型大到能在 inference 时容忍残余 sim-real gap。这跟 GPT-4 解决"长 prompt 鲁棒性"的思路同源。


三、EPFL 的跨机型迁移:把 Ace 这种成果"复制"出去的关键

如果 Sony 的成果只是 Sony 一家、只能在 Sony 的机械臂上跑,那它就是个酷炫 demo。真正让 VLA 路线产生产业影响的,是 EPFL LASA 实验室 5 月 11 日发表的"跨机型技能迁移"论文(原文)。

EPFL 的核心思路:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
                  ┌──────────────────────┐
                  │   Source Robot       │
                  │   (Franka Panda)     │
                  └──────────┬───────────┘
                             │ skill demos
                  ┌──────────────────────┐
                  │  Body-Invariant       │   ← 这是关键
                  │  Latent Representation│   - 不含 DOF 信息
                  └──────────┬───────────┘   - 不含 link length
- 只含任务空间几何
              ┌──────────────┴──────────────┐
              ▼                              ▼
        Target Robot A                  Target Robot B
        (UR5e, 6 DOF)                   (Kuka iiwa, 7 DOF)
        + 2h calibration                 + 2h calibration
87% performance               → 91% performance

这跟 VLA 范式天然契合:VLA 模型本来就把动作表示在 token 空间里,只要 tokenizer 是 body-invariant,下游机型差异就被 absorb 在 last-mile decoder 里

EPFL + Sony 这两条线如果合并 — 业内已经有人在做 — 那么 2027 年我们可能看到:一个 7B 的 VLA 基础模型,可以在几小时内适配任意 6-7 DOF 机械臂,完成"装配/打球/抓取"这类工业级任务。


四、产业影响:三个判断

4.1 工业机器人 SI 这个生意要被重新定价

过去工业机器人系统集成商(System Integrator, SI)的核心价值是:

  • 给客户的工艺,做定制化的轨迹规划
  • 调 PID、调 force-feedback、调 vision pipeline
  • 一个 SI 项目通常 6-18 个月、$200K-$2M

如果 VLA 基础模型 + body-invariant 迁移成立,这套生意的"调参"价值会缩 10 倍。SI 还会存在,但角色变成"prompt engineer + safety verifier",单价从 $200K 降到 $20K。日本/德国的工业 SI 巨头(Yaskawa、KUKA-Midea、FANUC)短期看是"颠覆受益",长期看是"价值被压缩"。

4.2 Edge AI 硬件的 spec 重写

SemiEngineering 5 月 14 日《Why Vision LLMs Force A Rethink Of Edge AI Hardware》 已经讲了:单纯堆 TOPS 没用,需要:

  • 持续 utilization:传统 NPU 在 batch=1 推理时 utilization 经常 < 30%,VLA 模型对峰值 vs 持续的比例敏感
  • 内存带宽:1.7B 模型 + KV cache 在 1ms 延迟内要全部 swap,HBM 是必须
  • 多模态 IO:event camera / stereo / IMU 同时输入,传统 NPU 的输入通道数严重不足

Ace 不会跑在 Jetson Orin 上 — 它得是 SOCAMM2 LPDDR5X 这一级的边缘服务器,单价 $5K+。

4.3 RL 学界要从 game AI 转向 motor control

过去 5 年 RL 学界的精力很大一部分在 LLM 后训练(RLHF / GRPO / DPO)。Ace 的成功暗示一个回潮RL 在毫秒级控制问题上不可替代

NVIDIA 5 月 16 日的 iGRPO 论文 把 GRPO 推回 motor control 也是一个信号。学界资源会在 2026 下半年开始向"physically embodied RL"倾斜,这对中国机器人创业公司(如银河通用、宇树)是个机会窗 — 中国在仿真平台和真实数据采集上不输 Sony。


五、被忽视的细节:为什么是 Sony,而不是 Boston Dynamics 或 DeepMind?

Boston Dynamics 走 model-based control + 严格 sim-to-real validation 这条路 15 年了;DeepMind 在 2024 年就 demo 了乒乓机器人。Sony 凭什么超车?

三个原因:

  1. Sony 有 imaging IP + 半导体厂:他们的 event camera (CSP-IMX636) 是世界上唯一商用的 1µs 级 event camera。这是 Ace 能做毫秒闭环的物理基础
  2. Sony AI Tokyo lab 早期就 all-in VLA:Gran Turismo Sophy 的成功(2022)让 Sony 内部认定了"端到端神经控制"路线,没有像 BD 那样陷在 MPC 框架里
  3. PlayStation 业务给了"为娱乐花钱"的合规口实:BD 受 Hyundai 限制不能做"非工业"项目,Sony 反而可以借乒乓机器人这个"展示品"长期投入 → 等技术成熟再迁工业

这是个很经典的颠覆案例:主流派的"严谨工程"思路被一个"边缘娱乐项目"打穿


六、留给读者的认知

如果你做机器人、做 RL、做边缘 AI 硬件、做工业自动化:

  1. 下注 VLA:不是要不要,是要多快。今年下半年开始所有具身智能项目应该重新审视 controller 架构
  2. 重新算 sim-to-real 的 budget:Sony 的 600 GPU-week 不是天文数字 — 一个 200 张 H200 的小集群 6 周搞定。这意味着 startup 也能做
  3. 关注 body-invariant tokenizer:EPFL 这条线的 paper 接下来 6 个月会井喷,盯紧 RSS / CoRL / ICRA 2026
  4. 跨学科准备:传统机器人工程师要补 LLM 训练栈;传统 LLM 工程师要补 6DOF kinematics — 谁先两边都通,谁拿下一波薪资中位数

那个乒乓球场上的瞬间,是机器人学被 LLM 范式"吸收"的标志事件。和 1997 年 Deep Blue 不一样的是:这次不是一个特化系统赢,是一个通用范式赢。


📚 引用来源

  1. RobohubTable tennis robot defeats some of world’s best players – why this has major implications for robotics (2026-05-18) · https://robohub.org/table-tennis-robot-defeats-some-of-worlds-best-players-why-this-has-major-implications-for-robotics/
  2. Robohub / EPFL LASAHow to teach the same skill to different robots (2026-05-11) · https://robohub.org/how-to-teach-the-same-skill-to-different-robots/
  3. SemiEngineeringVision-Language-Action Models Arrive (2026-05-14) · https://semiengineering.com/vision-language-action-models-arrive/
  4. SemiEngineeringWhy Vision LLMs Force A Rethink Of Edge AI Hardware (2026-05-14) · https://semiengineering.com/why-vision-llms-force-a-rethink-of-edge-ai-hardware/
  5. RobohubDeveloping active and flexible microrobots (Leiden, 2026-05-13) · https://robohub.org/developing-active-and-flexible-microrobots/
  6. NVIDIA ResearchiGRPO: Self-Feedback-Driven LLM Reasoning (2026-05-16, 路线对照) · https://research.nvidia.com