谷歌近日推出了一款全新AI模型,旨在帮助机器人更好地理解和交互物理世界,解决机器人领域的一大核心挑战:超越指令的推理能力。 该模型名为 Gemini Robotics-ER 1.6,专注于“具身推理”(embodied reasoning),使机器人能够解释视觉输入、规划任务,并自主判断任务是否完成。这标志着机器人从单纯的“指令跟随型”设备,向具备情景感知决策能力的系统转变。
填补数字世界与物理世界的鸿沟
新模型在前代基础上改进了空间推理和多视角理解能力,让机器人能够更高效地处理来自多个摄像头视角的动态环境信息。同时引入了仪表读取等新功能,使机器人能够解读工业场景中常见的压力表、液位计和数字显示屏。
一个关键的提升在于模型处理空间推理任务的方式。Gemini Robotics-ER 1.6能够更准确地识别物体、计数并判断物体之间的空间关系。作为推理过程的一部分,它还可以指向物体,从而将复杂任务分解为更小的步骤。这种能力在真实环境中至关重要——机器人必须与物体交互、在杂乱空间中导航,并基于不完整或变化的信息做出决策。
模型还改进了“成功检测”能力,使机器人能够评估任务是否正确完成。这在自动化工作流中尤其重要,系统需要决定是重试某个动作还是继续前进。多视角推理方面,机器人通常依赖多个摄像头输入(如顶视和腕部视角),该模型能够整合这些视角,即使在遮挡或能见度较差的情况下也能形成更完整的环境认知。
读懂真实世界的信号
最实用的新增功能之一是读取仪表的能力,例如压力表、视镜和数字显示屏。这一功能是与 Boston Dynamics 合作开发的,后者将其应用在Spot机器人用于设施巡检。Boston Dynamics Spot部门副总裁兼总经理马尔科·达席尔瓦(Marco da Silva)表示:“仪表读取和更可靠的任务推理能力,将使Spot能够完全自主地看到、理解并应对真实世界的挑战。”
该模型结合了视觉推理和代码执行来解读读数。它可以放大图像,识别指针和刻度等关键元素,并以高精度计算数值。性能基准测试显示显著提升:仪表读取准确率从早期模型的23%提高到启用智能视觉后的最高93%。该模型在遵循安全约束方面也表现更佳,例如避免不安全的物体操作。
谷歌表示,这是迄今为止其最安全的机器人系统,在文本和视觉场景中均能更好地检测危险并遵循物理安全规则。Gemini Robotics-ER 1.6现已通过Gemini API和Google AI Studio向开发者开放,同时提供了使用具身推理进行测试和构建应用的工具。
12 0
登陆后参与评论
2026-04-15 08:39:27
2026-04-14 10:17:46
2026-04-14 09:24:53
2026-04-14 09:21:23
2026-04-14 09:18:54
2026-04-13 08:27:56
2026-04-13 08:25:27
2026-04-10 09:26:37
2026-04-10 09:04:11
2026-04-10 09:02:30
2026-04-09 08:55:50
2026-04-08 08:44:49