英伟达发布了一种能够自动训练机器人执行新任务的 AI 系统 Eureka。该系统以
OpenAI 的 GPT-4 为基础,本质是一种由大模型驱动的算法生成工具,能训练实体机器人执行例
如“转笔”、“开抽屉”、“拿剪刀”、“双手互传球”等多种复杂动作。
Eureka 的关键创新在于结合生成式 AI 来实现了人类水平的奖励算法设计。Eureka 使用 GPT-4
的零样本生成、代码编写以及上下文改进功能,对奖励执行策略进行了优化,由此通过强化学习
来学会执行复杂的技能。Eureka 会基于训练结果汇总关键统计数据,并指导 LLM 改进其奖励函
数的生成。在 29 种不同的开源强化学习环境中,Eureka奖励设计的性能达到了人类水平,这些
环境包括 10 种不同的机器人形态(四足机器人、四旋翼机器人、双足机器人、机械手以及几种灵
巧手)。在没有任何特定任务提示或奖励模板的情况下,Eureka生成的奖励程序在超过 80%的任
务上优于专家编写的奖励程序,这使得机器人的平均性能提G了 50%以上。在以人类设计的奖励
程序作为初始条件时,Eureka 的表现还会进一步提升。
英伟达的新成果则展示了大模型在机器人精细化控制方面的作用,能够让机器人次实现一些
G复杂性动作。我们认为,在英伟达的推动下,更智能的机器人学习方式有望被迅速引入工业和
消费应用L域。
|