2023 年 8 月,Meta 和 CMU 团队联合推出了通用机器人智能体 RoboAgent。不同于 DeepMind
的 RT 系列模型采用了大规模机器人数据集进行训练,考虑到机器人在现实世界中的训练和部署
效率问题,Meta 将数据集限制到了 7500 个操作轨迹中,并基于此让 RoboAgent 实现了 12 种不
同的复杂技能,包括烘焙、拾取物品、上茶、清洁厨房等任务,并能在 100 种未知场景中泛化应
用。
构建一个可以泛化到许多不同场景的机器人智能体需要一个覆盖面足够广的数据集。例如 RT-1
就采用了超过 13 万条机器人操作轨迹数据来进行训练,RoboAgent 则着眼于在有限的数据下提
G机器人学习系统的效率,而较少的数据通常会导致模型过拟合。RoboAgent的数据集共有7500
条数据,分别在 4 个厨房场景中采集,包含 12 个技能,38 个任务。基于此小体量的数据,Meta
采用了全自动的数据增广来对数据集进行信息扩充,通过 Meta 提出的“分割一切模型”
(Segment Anything Model,SAM)来对图像中的被操作物体和背景进行分割,然后分别对被操
作对象和背景进行修改,以达到数据集扩充的目的。
RoboAgent 带来了数据效率的提升。Meta 提出了 MT-ACT——多任务动作分块 Transformer 这
一学习框架,与一些常见的训练算法框架相比,RoboAgent 体现出了更G的样本效率,并且在多
个泛化层面上都有出色表现。Meta 对泛化J别进行了可视化,L1 表示物体姿态变化,L2 表示多
样的桌面背景和干扰因素,L3 表示新颖的技能-物体组合。MT-ACT 的表现显著优于其他算法,
特别是在更困难的泛化层次(L3)上。
|