大规模行为模型（LBM）加持：机器人用1700小时训练数据掌握复杂操作

打印派 2026-04-16 08:31:17

得益于模仿学习（Imitation Learning）的最新进展，机器人很快就能以更少的训练量、更快的速度掌握新技能。丰田研究所（Toyota Research Institute, TRI）的一项新研究显示，基于大规模多任务数据集训练的策略——即所谓的“大规模行为模型”（Large Behavior Models, LBMs）——其表现显著优于传统的单任务方法。

研究团队利用近1700小时的训练数据和1800次真实世界试验，证明了这些系统能够处理复杂的操作任务，从组装早餐托盘到安装自行车刹车转子。研究人员表示，这一发现凸显了多任务学习在加速部署更具适应性、更高效的机器人系统方面的潜力。

TRI研究员何塞·巴雷罗斯（Jose Barreiros）在一份声明中指出：“我们的研究结果在很大程度上支持了近期LBM风格机器人基础模型的流行，为‘在大规模多样化机器人数据上进行预训练是实现更强大机器人的可行路径’这一观点增添了新证据。”

更智能的机器人学习

研究人员正朝着能够在真实环境中运行的通用机器人迈进。尽管机器人已具备物理能力，但真正的自主性仍然有限。视觉运动学习（Visuomotor Learning），尤其是从人类演示中进行行为克隆（Behavior Cloning），正在帮助弥合这一差距，使机器人能够在没有明确编程的情况下，在具有挑战性的条件下执行复杂任务。

然而，传统的单任务模型往往难以泛化到训练场景之外，限制了其适应性。为此，研究人员越来越多地转向大规模行为模型（LBM），这些模型在海量多任务数据集上进行训练。

在这项新研究中，科学家们利用约1700小时的机器人演示数据（涵盖超过500种不同任务）训练了多个LBM，这些数据结合了专有数据和公开数据。任务范围从基本的抓取放置动作，到更高级的多步骤活动，如切苹果或组装早餐托盘。

研究人员称，这些模型通过1800次真实世界试验和大规模仿真进行了严格评估，测试任务包括需要精确度和工具使用的复杂多步骤操作。

高效的AI机器人

研究结果显示，将LBM微调为特定任务的专家模型，其性能优于从零开始训练的模型。在相同数据量下，微调后的模型表现更佳；在许多情况下，仅需三分之一到五分之一的数据量即可达到相似效果。这种数据效率对于机器人领域尤为重要，因为收集特定任务的演示数据既昂贵又耗时。

研究人员发现，基于多样化多任务数据集训练的LBM能够更有效地适应新任务和陌生环境。当真实场景与训练环境存在差异（即分布偏移）时，它们的性能优势更加明显。随着预训练数据的增加，模型表现持续提升，在测试规模内未出现明显的性能平台期。

不过，未经微调的多任务模型并未持续优于单任务系统。研究人员指出，这一局限性部分源于当前架构中语言引导能力较弱，但未来更大规模的视觉-语言-行动模型可能有助于解决这个问题。

TRI团队还强调，该研究揭示了评估机器人系统的挑战。尽管进行了大量试验，但环境变异性和训练差异等因素仍可能影响结果。研究人员强调，需要大样本量、受控实验和严格的统计方法来确保可靠的比较。总体而言，该团队认为这些发现证实了多任务预训练是构建更具适应性和效率的机器人系统的一条有前景的路径。