告别随机演示：一致性训练让机器人灵巧操作成功率大幅提升

打印派 2026-06-04 08:54:21

让机器人像人类一样灵活地操控物体，一直是机器人学领域最具挑战性的课题之一。一项最新研究表明，解决这一难题的关键或许不在于喂给机器人更多复杂的训练数据，而在于提供更一致、更“可预测”的演示样例。

来自纽约大学坦登工程学院（NYU Tandon School of Engineering）以及机器人学与人工智能研究所（Robotics and AI Institute）的研究人员发现，在结构化、可预测的演示数据上训练出来的机器人，其表现显著优于那些使用高度多样化、随机性演示样例训练的机器人。这一成果有望改进机器人学习复杂手部动作、变换抓取姿态以及多肢协调任务的方式。

当前许多机器人学习系统依赖“模仿学习”——即机器通过模仿人类演示来掌握技能。然而，收集高度灵巧任务的演示数据本身就很困难：遥控操作系统很难精确捕捉细小的手指运动以及涉及丰富接触力的交互过程。

为了突破这一限制，研究团队转而采用运动规划算法，在物理仿真环境中自动生成演示轨迹。换言之，机器人并非学习人类行为，而是从软件生成的虚拟示例中学习。但很快，团队发现了一个问题：广泛使用的“快速扩展随机树”（RRT）等规划方法，每次生成的解决方案轨迹差异过大，导致机器人难以从中提取出需要模仿的核心行为模式。

一致性优于随机性
“这类规划器非常擅长找到解决方案，”论文第一作者Huaijiang Zhu表示，“但如果每次生成的方案都看起来不一样，学习系统就很难判断自己究竟应该模仿哪种行为。”
研究人员解释，RRT生成演示中的随机性会带来所谓的“高熵数据”。虽然这种多样性有助于规划算法探索不同解空间，却会削弱模仿学习的效果。

为解决该问题，团队开发了替代性的规划方法，旨在生成更一致的演示轨迹。其中一种策略优先保证向目标的稳定、渐进进展；另一种则借助预定义动作库，减少不同示例之间的差异。

研究人员用两项极具挑战性的操控任务评估了新方法。第一个任务中，两条机械臂需要协同将一个大圆柱体旋转180度，并在过程中不断调整抓握点；第二个任务中，一只灵巧机械手需要在掌心内翻转一个立方体，使其达到指定的朝向。

从虚拟训练到现实成功
实验结果显示，使用一致性更高的演示数据训练的机器人，其成功率明显高于基于标准RRT数据训练的同类系统。在双机械臂任务中，新方法仅用100次演示便实现了接近完美的表现。
研究团队还直接将仿真中训练好的策略迁移到真实硬件上，无需额外微调。真实环境测试中，双机械臂系统成功率达到了90%，灵巧手也有约62%的尝试成功完成目标。

这项研究反映了机器人领域的一个新兴趋势：将传统运动规划与机器学习有机结合。研究者们不再将这两种方法割裂看待，而是越来越多地利用规划算法为学习系统生成训练数据。
同时，该研究也印证了人工智能领域一个更为普遍的道理：数据量更大并不必然带来更好的学习效果。在某些情况下，精心构造的结构化示例，可能比堆积大量嘈杂、不一致的演示数据更具价值。

该研究成果已发表于《IEEE Robotics and Automation Letters》期刊。