RLDX-1：当灵巧操作也有了基础模型，机器人的手终于要追上它的腿了

机器人的"手-腿差距"

如果你关注过去两年的机器人视频，你会发现一个有趣的反差：人形机器人走路越来越稳，跑步越来越快，甚至能做后空翻——但当它们试图拧开一个瓶盖、折叠一件衣服或者拿起一颗葡萄时，动作笨拙得像戴了拳击手套的外科医生。

腿部运动和手部操作的难度不在同一个量级。 行走是一个相对低维度的控制问题——两条腿、几个关节、明确的目标（保持平衡向前移动）。但一只五指灵巧手涉及 20+ 个自由度、复杂的接触力学、物体几何的不确定性、以及滑动/形变等非线性物理现象。

这就是 RLWRLD 推出 RLDX-1 的背景——一个专门为灵巧手操作设计的基础模型。

RLDX-1 的技术路线

为什么不用"通用"机器人基础模型？

Google RT-2、Tesla Optimus、DeepMind RoboCat 等项目都在尝试构建"通用"机器人基础模型——一个模型同时处理导航、操作、交互等所有任务。RLWRLD 的选择恰恰相反：专注于操作，极致优化灵巧度。

这个设计决策背后有深刻的技术原因：

维度	通用机器人基础模型	RLDX-1（灵巧操作专用）
感知重点	全身姿态 + 场景理解	指尖触觉 + 物体几何
控制频率	10-50 Hz	200-1000 Hz
物理建模	刚体动力学为主	接触力学 + 摩擦模型
训练数据	视频示范 + 遥操作	大规模仿真 + 力传感
核心挑战	长程规划	瞬时反应 + 力控制

灵巧操作需要极高的控制频率和力反馈回路，这与导航/规划类任务的架构需求截然不同。试图用同一个模型同时做好两件事，往往两件都做不好。

三个关键技术创新

1. 触觉-视觉联合表征

RLDX-1 的感知系统不仅仅依赖摄像头。它整合了来自触觉传感器（如 GelSight 类传感器）的接触力分布信息，与视觉信息在共享潜空间中对齐。

这意味着模型能够"感受到"物体的硬度、纹理和形变——这些信息仅靠视觉是无法获取的。一个橡胶球和一个鸡蛋在摄像头看来可能很相似，但触觉反馈完全不同。

2. 分层时间尺度控制

RLDX-1 采用分层架构：

高层策略（~10 Hz）：理解任务语义（“拿起杯子，放到架子上”），规划抓取策略
中层策略（~100 Hz）：手指轨迹规划，接触点选择
低层控制（~1000 Hz）：关节力矩控制，实时力反馈调整

这种分层设计让模型既能理解高层语义，又能在毫秒级时间尺度上做出精确的力控制响应。

3. 仿真到现实的大规模迁移

RLDX-1 在 Isaac Sim 等物理仿真器中进行了大规模预训练——据称使用了超过 100 亿步的仿真交互数据。关键创新在于其"渐进式域随机化"：

第一阶段：在理想物理环境中学习基本操作技能
第二阶段：逐步增加物理参数噪声（摩擦系数、质量、关节刚度）
第三阶段：引入传感器噪声和延迟
第四阶段：在真实硬件上微调（仅需少量真实数据）

这意味着什么？

对人形机器人产业的影响

人形机器人公司（Figure、Apptronik、Tesla Optimus 等）一直在"全栈自研"和"使用外部模型"之间纠结。RLDX-1 的出现提供了第三条路径：在操作能力上采用专用基础模型，在导航/规划上采用通用模型。

这种"模块化 AI 栈"的思路可能成为行业主流：

1
2
3
4
任务规划层：LLM（如 GPT-5）→ 高层语义理解
运动规划层：通用机器人模型 → 全身协调与导航
操作执行层：RLDX-1 → 灵巧手精确控制
低层控制层：传统控制器 → 关节伺服

对制造业的近期价值

灵巧操作的第一个大规模商业应用不会是家务——而是制造业中的柔性装配。

目前工厂中仍有大量人工操作任务无法被传统机械臂替代，原因就是缺乏灵巧度：

柔性线束插装（汽车线束、电子布线）
精密零件组装（手表、光学仪器）
不规则物体分拣（农产品、回收物）
质检与触觉反馈判断

RLDX-1 类技术如果成熟，将打开一个价值数百亿美元的自动化新市场。

“基础模型"范式是否适用于机器人？

这是一个更根本的问题。语言基础模型（GPT、Claude）的成功建立在两个前提上：（1）海量文本数据，（2）统一的输入输出格式（文本 → 文本）。

机器人领域两者都缺乏：数据量有限，硬件形态千差万别。RLDX-1 通过聚焦"灵巧手"这一相对标准化的硬件类型，巧妙地缓解了第二个问题——多指手的自由度结构在不同硬件平台间相对一致。

但第一个问题仍然存在。RLDX-1 依赖大规模仿真数据，而仿真与现实之间的 gap 永远不为零。仿真 → 现实迁移是否能真正泛化到所有操作场景，仍是一个开放问题。

我的判断

RLDX-1 代表了一个重要的技术方向信号：机器人 AI 正在从"通用基础模型"一统天下，走向"专用基础模型"的垂直分化。就像计算机视觉有专门的目标检测模型和分割模型一样，机器人 AI 也将按照能力维度（导航、操作、交互）分化出专用模型。

2026-2028 年的预测：

灵巧操作基础模型将成为人形机器人公司的"必备组件”
至少 3 家公司将推出类似的操作专用基础模型
第一个工业级灵巧操作部署将出现在电子组装或食品加工领域
触觉传感器市场将因基础模型的拉动而快速增长

对机器人工程师的行动建议： 如果你在做机器人操作方向，现在是时候认真评估"基础模型 + 微调"的范式是否比从零训练更高效了。答案几乎肯定是"是"。

参考来源

The Robot Report - RLWRLD releases RLDX-1, a dexterity-first foundation model for robot hands — RLDX-1 发布报道
IEEE Spectrum - AI Gives Robot Hands Humanlike Dexterity — 机器人灵巧操作技术综述
arXiv - Dexterous Manipulation with Foundation Models: A Survey — 灵巧操作基础模型学术综述
NVIDIA Isaac Sim Documentation — 大规模机器人仿真平台
Hello Robot Stretch 4 Technical Specs — 移动操作机器人硬件参考

Jiayun's Blog