利用生成式AI为机器人构建多样化的虚拟训练场

打印派   2025-10-10 10:24:10

在过去三年里,像ChatGPT和Claude这样的聊天机器人使用量呈爆发式增长,因为它们能协助完成各种任务。无论是创作莎士比亚风格的十四行诗、调试代码,还是回答冷门知识问题,人工智能系统似乎都能应对自如。这种多功能性从何而来?源自互联网上数十亿甚至数万亿的文本数据点。

然而,这些数据还不足以教会机器人成为得力的家庭或工厂助手。要理解如何在不同环境中处理、堆叠和摆放各类物体,机器人需要实际演示。您可以将机器人训练数据视作一套"教学视频",逐步引导系统完成任务的每个动作。在真实机器人上收集这些演示既耗时又难以完美复现,因此工程师们通过AI生成模拟(通常无法准确反映真实世界物理规律)或从头繁琐地手动打造每个数字环境来创建训练数据。

MIT计算机科学与人工智能实验室和丰田研究所的研究人员可能找到了一种方法,能够创建机器人所需的多样化、逼真的训练场地。他们的"可控场景生成"方法能生成厨房、客厅和餐厅等数字场景,工程师可用这些场景模拟大量真实世界的交互和情境。该工具基于超过4400万个充满桌椅碗碟等物体模型的3D房间进行训练,能将现有资产放置到新场景中,并将每个场景优化成符合物理规律、栩栩如生的环境。

可控场景生成通过"引导"扩散模型(一种从随机噪声生成图像的人工智能系统)生成日常生活中的场景,从而创建这些3D世界。研究人员利用这种生成系统对环境进行"修复",填充场景中的特定元素。您可以想象一个空白画布突然变成散落着3D物体的厨房,这些物体逐渐重新排列成模仿真实世界物理规律的场景。例如,该系统能确保叉子不会穿过桌上的碗——这是3D图形中常见的"穿模"故障,即模型相互重叠或交叉。

然而,可控场景生成究竟如何引导创作实现真实感,取决于您选择的策略。其主要策略是"蒙特卡洛树搜索",该模型会创建一系列备选场景,以不同方式填充它们以实现特定目标(如让场景更符合物理真实性,或包含尽可能多的可食用物品)。人工智能程序AlphaGo就是使用MCTS在围棋比赛中击败人类对手的,因为该系统会在选择最有利的落子位置前考虑可能的落子序列。

"我们是首个将MCTS应用于场景生成的研究团队,将场景生成任务定义为序列决策过程,"MIT电子工程与计算机科学系博士生、CSAIL研究员Nicholas Pfaff表示,他是介绍这项工作的论文的主要作者。"我们不断在局部场景基础上进行构建,随时间推移产出更好或更符合要求的场景。因此,MCTS能创建比扩散模型训练数据更复杂的场景。"

在一个特别能说明问题的实验中,MCTS将一个简单餐厅场景中的物体数量增加到极限。在仅接受平均17个物体的场景训练后,它生成的餐桌场景包含多达34件物品,包括堆叠如山的点心盘。

通过强化学习(本质上是通过试错教导扩散模型实现目标),可控场景生成还能让您生成多样化的训练场景。在初始数据训练后,系统会进入第二阶段训练,您在此设定奖励(本质上是期望结果,并配有得分表明您离该目标有多近)。模型自动学习创建得分更高的场景,通常会产生与训练数据截然不同的情境。

用户还可以直接输入具体视觉描述(如"有四个苹果和桌上一个碗的厨房")来提示系统。随后,可控场景生成能精准地将您的需求变为现实。例如,该工具在构建食品储藏室货架场景时,准确遵循用户提示的比例达98%,在构建凌乱早餐桌场景时达86%。这两项指标都比"MiDiffusion"和"DiffuScene"等同类方法至少提高了10%。

该系统还能通过提示或简单指令(如"使用相同物体构思不同的场景布局")完成特定场景。例如,您可以要求它将苹果放在厨房桌子的几个盘子上,或将棋盘游戏和书本放在架子上。这本质上是"填空",将物品放入空白处,同时保留场景的其余部分。

研究人员表示,其项目的优势在于能够创建机器人专家实际可用的众多场景。"我们研究的一个关键发现是,预训练场景无需与我们的目标场景完全相似,"Pfaff说。"利用我们的引导方法,我们可以超越那个宽泛的分布,从'更好'的分布中采样。换句话说,生成我们真正想要训练机器人的多样化、真实且与任务对齐的场景。"

这些广阔的场景成为了测试场地,研究人员可以记录虚拟机器人与不同物品的交互。例如,机器人在各种3D设置中小心地将刀叉放入餐具架,或将面包重新摆放到盘子上。每次模拟都显得流畅逼真,类似于可控场景生成有朝一日可能帮助训练出的、能适应真实世界的机器人。

尽管该系统可能是为机器人生成大量多样化训练数据的一条前景光明的道路,但研究人员表示他们的工作更多是概念验证。未来,他们希望使用生成式AI创建全新的物体和场景,而不是使用固定的资产库。他们还计划加入机器人可以打开或旋转的关节物体(如装满食物的橱柜或罐子),使场景更具交互性。

为了让虚拟环境更加真实,Pfaff及其同事可能会通过使用从互联网图像中提取的物体和场景库,并利用他们之前关于"可扩展Real2Sim"的研究,将真实世界物体纳入其中。通过扩展AI构建的机器人测试场的多样性和逼真度,该团队希望建立一个用户社区,创建大量数据,这些数据随后可作为庞大数据集用于教导灵巧的机器人掌握不同技能。

"如今,为仿真创建逼真场景可能相当具有挑战性;程序化生成能轻松产生大量场景,但它们可能无法代表机器人在现实世界中会遇到的环境。手动创建定制场景既耗时又昂贵,"未参与该论文的亚马逊机器人应用科学家Jeremy Binagia表示。"可控场景生成提供了一种更好的方法:在大量现有场景上训练生成模型,并将其(使用强化学习等策略)适配到特定下游应用。与之前利用现成视觉语言模型或仅专注于在2D网格中排列物体的工作相比,该方法保证了物理可行性,并考虑了完整的3D平移和旋转,从而能够生成更有趣的场景。"

"具备训练后和推理时搜索能力的可控场景生成,为大规模自动化场景生成提供了一个新颖高效的框架,"同样未参与该论文的丰田研究所机器人专家Rick Cory SM '08, PhD '10表示。"此外,它能生成对下游任务至关重要的'前所未见'的场景。未来,将该框架与海量互联网数据结合,可能为实现高效训练机器人以部署到现实世界解锁一个重要里程碑。"

Pfaff与资深作者Russ Tedrake(MIT电子工程与计算机科学、航空航天与机械工程的丰田讲席教授,丰田研究所大型行为模型高级副总裁,CSAIL首席研究员)共同撰写了该论文。其他作者包括丰田研究所机器人研究员Hongkai Dai SM '12, PhD '16;团队负责人兼高级研究科学家Sergey Zakharov;以及卡内基梅隆大学博士生Shun Iwase。他们的工作得到了亚马逊和丰田研究所的部分支持。研究人员于9月在机器人学习会议上展示了他们的成果。


0

27 0

发表评论

登陆后参与评论