谷歌推出Gemini Robotics-ER 1.6：让机器人具备具身推理能力

打印派 2026-04-15 08:41:00

谷歌近日推出了一款全新AI模型，旨在帮助机器人更好地理解和交互物理世界，解决机器人领域的一大核心挑战：超越指令的推理能力。该模型名为 Gemini Robotics-ER 1.6，专注于“具身推理”（embodied reasoning），使机器人能够解释视觉输入、规划任务，并自主判断任务是否完成。这标志着机器人从单纯的“指令跟随型”设备，向具备情景感知决策能力的系统转变。

填补数字世界与物理世界的鸿沟

新模型在前代基础上改进了空间推理和多视角理解能力，让机器人能够更高效地处理来自多个摄像头视角的动态环境信息。同时引入了仪表读取等新功能，使机器人能够解读工业场景中常见的压力表、液位计和数字显示屏。

一个关键的提升在于模型处理空间推理任务的方式。Gemini Robotics-ER 1.6能够更准确地识别物体、计数并判断物体之间的空间关系。作为推理过程的一部分，它还可以指向物体，从而将复杂任务分解为更小的步骤。这种能力在真实环境中至关重要——机器人必须与物体交互、在杂乱空间中导航，并基于不完整或变化的信息做出决策。

模型还改进了“成功检测”能力，使机器人能够评估任务是否正确完成。这在自动化工作流中尤其重要，系统需要决定是重试某个动作还是继续前进。多视角推理方面，机器人通常依赖多个摄像头输入（如顶视和腕部视角），该模型能够整合这些视角，即使在遮挡或能见度较差的情况下也能形成更完整的环境认知。

读懂真实世界的信号

最实用的新增功能之一是读取仪表的能力，例如压力表、视镜和数字显示屏。这一功能是与 Boston Dynamics 合作开发的，后者将其应用在Spot机器人用于设施巡检。Boston Dynamics Spot部门副总裁兼总经理马尔科·达席尔瓦（Marco da Silva）表示：“仪表读取和更可靠的任务推理能力，将使Spot能够完全自主地看到、理解并应对真实世界的挑战。”

该模型结合了视觉推理和代码执行来解读读数。它可以放大图像，识别指针和刻度等关键元素，并以高精度计算数值。性能基准测试显示显著提升：仪表读取准确率从早期模型的23%提高到启用智能视觉后的最高93%。该模型在遵循安全约束方面也表现更佳，例如避免不安全的物体操作。

谷歌表示，这是迄今为止其最安全的机器人系统，在文本和视觉场景中均能更好地检测危险并遵循物理安全规则。Gemini Robotics-ER 1.6现已通过Gemini API和Google AI Studio向开发者开放，同时提供了使用具身推理进行测试和构建应用的工具。