当前位置:首页 > 机器人技术

机器人任务轨迹规划系统VoxPoser,把复杂指令转化成具体行动规划

来源:东方证券      时间:2024/9/5

坦福大学李飞飞团队提出了智能系统 VoxPoser, 它可以从大模型 LLM 和视觉- 语言模型 VLM 中提取可行性和约束,以构建 3D 仿真环境中的值地图,供运动规划器使用,用于 零样本地合成机器人操纵任务的轨迹,从而实现在真实世界中的零样本机器人操纵。

该模型把复杂指令转化成具体行动规划,人类可以随意地用自然语言给机器人下达指令,机器人也无需额外数据和训练。其原理很简单,先,给定环境信息(用相机采集 RGB-D 图像)和我 们要执行的自然语言指令。接着,LLM根据这些内容编写代码,所生成代码与 VLM进行交互,指导系统生成相应的操作指示地图,即 3D 值地图。它是可行性地图和约束地图的总称,既标记了 “在哪里行动”,也标记了“如何行动”。再利用动作规划器,将生成的 3D 地图作为其目标函 数,便能够合成终要执行的操作轨迹。相比传统方法需要进行额外的预训练,这个方法用大模 型指导机器人如何与环境进行交互,直接解决了机器人训练数据稀缺的问题。

VoxPoser 还具有 4 个新颖的涌现能力。

1)估算物理属性:给定两个未知质量的方块,机器人被 要求使用现有工具进行物理实验,确定哪个方块更重。

2)常识性行为推理:在摆桌子的任务中, 用户可以指定行为偏好,比如“我是左撇子”,机器人能根据上下文理解其含义。

3)细粒度语言纠正:比如执行“给茶壶盖上盖子”这种精度要求较G的任务时,可以向机器人发出“你偏离 了 1 厘米”等准确指令来校正它的操作。

4)基于视觉的多步操作:比如叫机器人将抽屉准确地打 开成一半,由于没有对象模型导致的信息不足可能让机器人无法执行这样的任务,但 VoxPoser 可以根据视觉反馈提出多步操作策略,即先完全打开抽屉同时记录手柄位移,然后将其推回至 中点就可以满足要求了。



 
信息推荐
 
讲解机器人
  • 智能讲解机器人
  • 智能党建服务机器人
  • 智能迎宾讲解机器人
  • 展厅讲解机器人
  • 博物馆讲解机器人
  • 讲解博物馆机器人
  • 博物馆机器人讲解员
  • 博物馆讲解员机器人
  • 展馆讲解机器人
  • 讲解机器人展馆
  • 讲解展览机器人
  • 展览馆机器人讲解
  • 机器人讲解员
  • 讲解员机器人
  • 智能产品讲解机器人
  • 展厅迎宾讲解机器人
  • 仿真迎宾讲解机器人
  • 酒店迎宾讲解机器人
  • 大厅迎宾讲解机器人
  • 智能服务讲解机器人
  • 智能机器人功能讲解
  • 图书馆讲解机器人
  • 机场讲解机器人
  • 大屏服务机器人
  • 新一代大屏服务机器人
  • 智能商用服务机器人
  • 教育服务机器人
  • 陪伴讲解机器人
  • 大厅讲解机器人
  • 景区讲解机器人
 
最新资讯