波士顿动力Spot集成谷歌Gemini AI：从脚本执行到推理决策，机器人能遛狗了

打印派 2026-04-16 09:02:33

波士顿动力公司（Boston Dynamics）近日为其四足机器人Spot配备了谷歌DeepMind的Gemini Robotics-ER 1.6模型，旨在推动机器人从脚本化动作向推理驱动型任务迈进。在一段演示视频中，Spot读取手写的待办事项列表，并执行整理鞋子、捡起易拉罐、将衣物放入洗衣篮等操作。其中一个片段里，机器人拿起狗绳遛狗，展示了其将自然语言指令转化为物理动作的能力。

该系统结合了视觉、语言理解与任务规划，使Spot能够以最少的人工输入来理解周围环境并做出响应。这标志着机器人技术从需要精确编程的传统模式向更智能的交互方式转变。不过，演示也凸显了AI推理与现实执行之间的差距：例如，机器人侧向抓握易拉罐的简单失误可能导致液体洒出，说明其类人理解能力仍然有限。

工业检测是核心应用场景

尽管演示侧重于家庭场景，但此次升级的主要目标仍是工业检测——Spot已在该领域实现规模化部署。该机器人旨在导航设施、识别危险并监控人类难以或危险进入的环境。借助Gemini Robotics-ER 1.6，Spot能够自主检测积水等问题、读取仪表并解读现场状况，同时可调用视觉-语言-行动模型来更好地理解复杂环境。

波士顿动力Spot部门副总裁兼总经理马尔科·达席尔瓦（Marco da Silva）表示：“Gemini Robotics-ER 1.6等进展是机器人向更好地理解和操作物理世界迈出的重要一步。仪表读取和更可靠的任务推理能力将使Spot能够完全自主地看到、理解并应对现实世界的挑战。”此次更新基于波士顿动力与谷歌DeepMind今年早些时候宣布的合作，专注于将先进AI模型集成到机器人系统中。

机器人推理的局限

尽管系统提升了可用性，挑战依然存在。该模型目前严重依赖基于视觉的数据，缺乏人类通过触觉和经验获得的深层物理理解。谷歌DeepMind机器人技术负责人卡罗莱纳·帕拉达（Carolina Parada）指出：“要让机器人可靠且安全地执行任务，机器人理解世界的方式与人类理解世界的方式之间的连接至关重要。”该公司正致力于通过基准测试来改善安全性和推理能力，以指导机器人在真实场景中的行为。

波士顿动力表示，将通过受控部署持续推进真实环境应用，客户反馈将在系统优化中发挥关键作用。公司指出，机器人必须达到足够高的可靠性阈值，以避免误报并维持用户信任。

这一进展既展示了具身智能（将智能集成到物理系统中）的进步，也揭示了其局限性。尽管Spot遛狗的能力引人注目，但其真正的价值在于提升工业运营的安全性和效率。