人形机器人通过观看人类视频自主掌握日常技能

打印派   2026-01-17 10:58:24

机器人正通过视频学习执行任务,这得益于Skild公司开发的新型AI模型。该系统让机器人仅需不到一小时的针对性训练数据,就能通过观察人类视频掌握开门、浇水、组装盒子甚至烹饪等技能。据该公司介绍,其"Skild智能核心"具备抗干扰能力,可泛化至未经训练的新家居环境,并适用于从轮式人形机器人到双臂操作平台等多种机器人形态。

在测试中,该系统能精准连续组装多个AirPod保护壳。Skild智能核心将其成功归功于上下文学习能力,并计划进一步扩展功能边界。

通用机器人智能的共享内核
在发展真正通用型机器人的竞争中,行业遭遇了熟悉的瓶颈:数据短缺。虽然大语言模型依靠从互联网抓取的海量数据蓬勃发展,但机器人领域始终缺乏类似的"通用爬虫"资源库。传统方法严重依赖遥操作技术——由人类手动引导机器人执行精确的电机扭矩序列。但该机器人公司指出,仅靠这种方法无法扩展到基础模型所需的规模。

遥操作面临两大局限:一是数据多样性受限,仅涵盖受控实验室或特定场景,缺乏真实世界的混乱多变性;二是规模限制,即使动用全球人力实时收集数万亿动作序列也几乎不可能。

自适应机器人智能
Skild AI由自监督与自适应机器人领域的专家于2023年创立,正在开发可扩展的基础模型,作为跨不同机器人形态的共享智能核心。公司着力解决机器人领域的重大挑战:缺乏"机器人互联网"。与语言或视频模型不同,机器人技术历来依赖通过遥操作或孤立部署收集的有限数据集。为突破此局限,该公司利用互联网人类视频和基于物理规则的模拟对Skild智能核心进行预训练,实现在有限机器人专用数据下的技能获取。

该智能核心具备全形态适应能力,可操作人形机器人、四足机器人、移动机械臂和桌面机械臂等多种形态。它能实时适应肢体缺损、车轮卡滞、负载增加或全新机体等意外状况,且无需重新训练或微调。据《机器人报告》指出,该模型强调适应而非记忆,构建出持续学习循环,使机器人在任何硬件或任务中都能通过每次部署提升性能。

这种方法借鉴了人类学习机制——通过观察和意图而非精确力量或动作来获取技能。从第一人称头戴摄像到数百万在线教学视频,这些资源为机器人领域提供了此前未被开发的庞大数据集。Skild智能核心通过将人类动作映射至不同机器人形态,并补偿缺失的触觉或力反馈数据,成功弥合了形态差异带来的学习鸿沟。

Skild公司表示,通过视频示范辅以少量机器人数据进行学习,该模型从本质上突破了机器人数据瓶颈,实现了可扩展的通用任务学习能力。


0

11 0

发表评论

登陆后参与评论