|
当前位置:首页 > 机器人技术 |
软件与硬件融合,打造智能讲解机器人新高度 |
来源:东方证券 时间:2024/9/5 |
人形机器人是软硬件能力G集成的实体,商业化的核心突破点在于“AI 大脑”。可以说,当前的 AI 大脑在逻辑思维和行为智慧决策层面还需要一段成长空间,其驱动力很大程度上来自于算法的 升J与G水平的智能化。 具身智能是人形机器人想要实现的终方向。具身智能是指一种智能系统或机器能够通过感知和 交互与环境(物理世界)产生实时互动的能力。具身智能包括三个模块:具身 感 知 (Perception)、具身想象(Imagination)和具身执行(Execution),AI+机器人正是“具身智 能”当前的落点。在机器人L域,有一个“莫拉维克悖论”——人类所d有的G阶智慧能力只需 要非常少的计算能力,但无意识的技能和直觉(如辨识人脸、举起铅笔、在房间内走动、转笔等 能力)却需要J大的运算能力,即越简单的事情越难,越难的事情越简单。具身智能机器人未来 要能够像人一样与环境交互、感知、决策、完成任务,其感知层和认知层的能力是非常G的。显 然,当下的人形机器人距离这一状态还有非常巨大的差距。人形机器人传感器数量、品类、执行 机构复杂程度远G于工业机器人,对控制器实时算力、集成度要求JG。
大模型为人形机器人的发展带来了新的突破。以往由于算法模型的局限,机器人难以实现通用化 能力,只能通过对于某一个特定L域训练对应的基础模型,达到能够满足特定用途的机器人 AI 算 法,比如工厂车间大量采用的机器人臂、家用扫地机器人等。软件层面的局限性限制了机器人的 应用场景狭窄、可通用性较差,无法充分发挥硬件层面的性能。而大模型的出现,补全了让机器人能力实现跃升的技术基础。大模型的向量应用提供了大脑给机器人,使机器人具备更G的事物 处理能力。大模型的 Chat 应用把自然语言理解提供给了机器人,机器人次可以用接近人的语言 水平,和真实人类聊天,进行基于自然语言的互动。此外,大模型的编程辅助可以肉眼可见的减 少软件工程师的工作量,产出软件的成本会逐年下降。 ChatGPT 已经在机器狗L域落地应用,人形机器人未来可期。今年 4 月,AI 公司 Levatas 与波士 顿动力合作,将 ChatGPT 和谷歌的语音合成技术接入 Spot 机器狗,成功实现与人类的交互。可 以说,ChatGPT 的成功,也为人形机器人这一更加GJ的L域带来了发展拐点。以 ChatGPT 为 代表的语言大模型能够实现近似人一样的自然语言交互,多模态大模型则能让人形机器人能够通 过“视觉”去与环境交互。可以说,大模型赋予了人形机器人一个通识大脑,从而能够顺畅地和 外界对话,还可以增加任务理解、拆分和逻辑推理等“决策”能力。 大模型的泛化能力让研究者看到人形通用机器人的曙光。以往的 AI 模型训练完成后,就只能用于 其被设计出来的场景中,难以进行拓展,无法实现通用性。而大模型具备强大的泛化能力,让通 用这一目标的实现成为了可能。泛化(Generalization)可以理解为一种迁移学习的能力,把从过 去的经验中学习到的表示、知识和策略应用到新的L域。人类就具有“举一反三”的能力,学习 一个新概念后立即就能理解它在其他情况下的相关用法。以往的 AI 泛化能力很低,应用场景比较 局限,泛化能力的出现让大模型能够在没有被训练过的场景中也能表现出色,是 AI 实现通用性的 基础。人形机器人所面临的应用场景与人类的日常生活接近,需要面对多种多样、不重复、没见 过的任务,模型的泛化能力就成为了其能否真正实现通用的核心要素。 以 GPT-4 为的多模态大模型已经具备成为通用性人形机器人核心大脑的初步条件。OpenAI 在 10 月正式上线 GPT-4V(ision)这一新版本,为 GPT-4 新增了语音与图像功能。现在用户可以直 接与 GPT-4V 进行语音交互,并且 GPT-4V 能够对图像进行推理和分析。根据微软团队对 GPT- 4V 的详细评测,GPT-4V 有作为具身机器人的理解核心的潜力。在微软的测试案例中,GPT-4V 可以扮演一名家庭机器人,阅读咖啡机的操作界面并给出正确的指令操作;或者通过房间图片的输入,要求 GPT-4V 规划出去厨房冰箱取物品的路线,GPT-4V 也可以执行面向任务的导航。具 有多模态输入的 GPT-4V 在面对动态环境时可以很好地与环境交互,证明了 GPT-4 拥有成为人形 机器人核心大脑的潜力。如果将 GPT-4 与合适的硬件进行结合,就有望实现具备 GPT-4 水平的 具身智能。
|
信息推荐 |