首个视觉-语言-动作多模态大模型RT-2，能够端到端直接输出机器人的控制

来源：东方证券时间：2024/9/5

谷歌 DeepMind 推出了 RT-2，这是D一个控制机器人的视觉-语言-动作（Vision-Language-Action，VLA）模型。通过将 VLM 预训练与机器人数据相结合，能够端到端直接输出机器人的控制。

RT-2 以 VLM 为基础，升J成为全新的视-语言-动作（VLA）模型。RT-2 将一个或多个图像作为输入，并生成一系列通常代表自然语言文本的标注。例如RT-2将原本非常具体的机器人动作数据转变成文本 token，例如将转动度数、坐标点等数据，转变成文本“放到某个位置”。这样一来，机器人数据也能被用到视觉-语言数据集中进行训练，同时在进行推理的过程中，原本的文本指令也会被重新转化为机器人数据，实现控制机器人等一系列操作：为了控制机器人，研究人员通过将操作表示为模型输出中的标注，并将操作描述为可以由标准自然语言标注生成器处理的字符串，这种字符串的示例可以是机器人动作标记编号的序列，例如“1 128 91 241 5 101 127 217”。该字符串以一个标志开始，该标志指示机器人是继续还是终止当前情节，然后机器人根据指示改变末端执行器的位置和旋转以及机器人抓手等命令。由于动作被表示为文本字符串，因此机器人执行动作命令就像执行字符串命令一样简单。有了这种表示，就可以直接对现有的视觉-语言（VLM）模型进行微调，并将其转换为视觉-语言-动作（VLA）模型。

RT-2 较基线模型 RT-1 等而言具有更强的任务处理能力和泛化能力。谷歌在去年推出了 RT-1 机器人模型，RT-2的训练则延续使用了 RT-1 的演示数据，由 13 个机器人在办公室、厨房环境中，历时 17 个月进行收集。RT-2的基础 VLM则选用了不久前推出的 PaLM-E和更早一些的 PaLI-X，通过测试后发现，RT-2 与之前的模型相比，具有更G的任务成功率（符号理解、推理和人类识别三个方面）以及更强的泛化和涌现能力（在机器人面对以前未见过场景中的性能方面，RT-2 从 RT-1 的 32% 提G到 62%）。

RT-2 具有学习长期规划和简易技能的能力。研究人员将思维链能力加入到了机器人控制中，通过对数据进行增强，添加了一个额外的“计划”步骤，该步骤用自然语言描述机器人即将采取的动作的目的，然后是动作的描述和标注。例如“指令：我饿了。计划：挑选 Rxbar 巧克力。行动： 1 128 124 136 121 158 111 255”。通过这一过程，RT-2 就可以先用自然语言规划自己的行动，从而可以执行更多复杂的命令。

信息推荐

讲解机器人

智能讲解机器人
智能党建服务机器人
智能迎宾讲解机器人
展厅讲解机器人
博物馆讲解机器人
讲解博物馆机器人
博物馆机器人讲解员
博物馆讲解员机器人
展馆讲解机器人
讲解机器人展馆
讲解展览机器人
展览馆机器人讲解
机器人讲解员
讲解员机器人
智能产品讲解机器人
展厅迎宾讲解机器人
仿真迎宾讲解机器人
酒店迎宾讲解机器人
大厅迎宾讲解机器人
智能服务讲解机器人
智能机器人功能讲解
图书馆讲解机器人
机场讲解机器人
大屏服务机器人
新一代大屏服务机器人
智能商用服务机器人
教育服务机器人
陪伴讲解机器人
大厅讲解机器人
景区讲解机器人

最新资讯