机器人的"手-腿差距"
如果你关注过去两年的机器人视频,你会发现一个有趣的反差:人形机器人走路越来越稳,跑步越来越快,甚至能做后空翻——但当它们试图拧开一个瓶盖、折叠一件衣服或者拿起一颗葡萄时,动作笨拙得像戴了拳击手套的外科医生。
腿部运动和手部操作的难度不在同一个量级。 行走是一个相对低维度的控制问题——两条腿、几个关节、明确的目标(保持平衡向前移动)。但一只五指灵巧手涉及 20+ 个自由度、复杂的接触力学、物体几何的不确定性、以及滑动/形变等非线性物理现象。
这就是 RLWRLD 推出 RLDX-1 的背景——一个专门为灵巧手操作设计的基础模型。
RLDX-1 的技术路线
为什么不用"通用"机器人基础模型?
Google RT-2、Tesla Optimus、DeepMind RoboCat 等项目都在尝试构建"通用"机器人基础模型——一个模型同时处理导航、操作、交互等所有任务。RLWRLD 的选择恰恰相反:专注于操作,极致优化灵巧度。
这个设计决策背后有深刻的技术原因:
| 维度 | 通用机器人基础模型 | RLDX-1(灵巧操作专用) |
|---|---|---|
| 感知重点 | 全身姿态 + 场景理解 | 指尖触觉 + 物体几何 |
| 控制频率 | 10-50 Hz | 200-1000 Hz |
| 物理建模 | 刚体动力学为主 | 接触力学 + 摩擦模型 |
| 训练数据 | 视频示范 + 遥操作 | 大规模仿真 + 力传感 |
| 核心挑战 | 长程规划 | 瞬时反应 + 力控制 |
灵巧操作需要极高的控制频率和力反馈回路,这与导航/规划类任务的架构需求截然不同。试图用同一个模型同时做好两件事,往往两件都做不好。
三个关键技术创新
1. 触觉-视觉联合表征
RLDX-1 的感知系统不仅仅依赖摄像头。它整合了来自触觉传感器(如 GelSight 类传感器)的接触力分布信息,与视觉信息在共享潜空间中对齐。
这意味着模型能够"感受到"物体的硬度、纹理和形变——这些信息仅靠视觉是无法获取的。一个橡胶球和一个鸡蛋在摄像头看来可能很相似,但触觉反馈完全不同。
2. 分层时间尺度控制
RLDX-1 采用分层架构:
- 高层策略(~10 Hz):理解任务语义(“拿起杯子,放到架子上”),规划抓取策略
- 中层策略(~100 Hz):手指轨迹规划,接触点选择
- 低层控制(~1000 Hz):关节力矩控制,实时力反馈调整
这种分层设计让模型既能理解高层语义,又能在毫秒级时间尺度上做出精确的力控制响应。
3. 仿真到现实的大规模迁移
RLDX-1 在 Isaac Sim 等物理仿真器中进行了大规模预训练——据称使用了超过 100 亿步的仿真交互数据。关键创新在于其"渐进式域随机化":
- 第一阶段:在理想物理环境中学习基本操作技能
- 第二阶段:逐步增加物理参数噪声(摩擦系数、质量、关节刚度)
- 第三阶段:引入传感器噪声和延迟
- 第四阶段:在真实硬件上微调(仅需少量真实数据)
这意味着什么?
对人形机器人产业的影响
人形机器人公司(Figure、Apptronik、Tesla Optimus 等)一直在"全栈自研"和"使用外部模型"之间纠结。RLDX-1 的出现提供了第三条路径:在操作能力上采用专用基础模型,在导航/规划上采用通用模型。
这种"模块化 AI 栈"的思路可能成为行业主流:
| |
对制造业的近期价值
灵巧操作的第一个大规模商业应用不会是家务——而是制造业中的柔性装配。
目前工厂中仍有大量人工操作任务无法被传统机械臂替代,原因就是缺乏灵巧度:
- 柔性线束插装(汽车线束、电子布线)
- 精密零件组装(手表、光学仪器)
- 不规则物体分拣(农产品、回收物)
- 质检与触觉反馈判断
RLDX-1 类技术如果成熟,将打开一个价值数百亿美元的自动化新市场。
“基础模型"范式是否适用于机器人?
这是一个更根本的问题。语言基础模型(GPT、Claude)的成功建立在两个前提上:(1)海量文本数据,(2)统一的输入输出格式(文本 → 文本)。
机器人领域两者都缺乏:数据量有限,硬件形态千差万别。RLDX-1 通过聚焦"灵巧手"这一相对标准化的硬件类型,巧妙地缓解了第二个问题——多指手的自由度结构在不同硬件平台间相对一致。
但第一个问题仍然存在。RLDX-1 依赖大规模仿真数据,而仿真与现实之间的 gap 永远不为零。仿真 → 现实迁移是否能真正泛化到所有操作场景,仍是一个开放问题。
我的判断
RLDX-1 代表了一个重要的技术方向信号:机器人 AI 正在从"通用基础模型"一统天下,走向"专用基础模型"的垂直分化。就像计算机视觉有专门的目标检测模型和分割模型一样,机器人 AI 也将按照能力维度(导航、操作、交互)分化出专用模型。
2026-2028 年的预测:
- 灵巧操作基础模型将成为人形机器人公司的"必备组件”
- 至少 3 家公司将推出类似的操作专用基础模型
- 第一个工业级灵巧操作部署将出现在电子组装或食品加工领域
- 触觉传感器市场将因基础模型的拉动而快速增长
对机器人工程师的行动建议: 如果你在做机器人操作方向,现在是时候认真评估"基础模型 + 微调"的范式是否比从零训练更高效了。答案几乎肯定是"是"。
参考来源
- The Robot Report - RLWRLD releases RLDX-1, a dexterity-first foundation model for robot hands — RLDX-1 发布报道
- IEEE Spectrum - AI Gives Robot Hands Humanlike Dexterity — 机器人灵巧操作技术综述
- arXiv - Dexterous Manipulation with Foundation Models: A Survey — 灵巧操作基础模型学术综述
- NVIDIA Isaac Sim Documentation — 大规模机器人仿真平台
- Hello Robot Stretch 4 Technical Specs — 移动操作机器人硬件参考