当前位置: 首页 > news >正文

探索 HumanoidBench:类人机器人学习的新平台

在科技飞速发展的当下,类人机器人逐渐走进我们的视野,它们有着和人类相似的外形,看起来能像人类一样在各种环境里完成复杂任务,潜力巨大。但实际上,让类人机器人真正发挥出实力,还面临着重重挑战。

这篇文章,将给大家带来一个Benchmark的工作:HumanoidBench。

它是一个新的模拟基准平台。工作链接:https://arxiv.org/pdf/2403.10506

如下图所示:

image.png

1、研究背景:类人机器人发展的困境

一直以来,类人机器人都被寄予厚望,大家期待它们能在日常生活中无缝协助人类。像波士顿动力的 Atlas、特斯拉的 Optimus、宇树的 H1 等,这些类人机器人在硬件方面取得了很大进展。可它们的控制器大多是针对特定任务专门设计的,每次遇到新任务或新环境,都得花费大量精力重新设计,而且整体的全身控制能力也很有限。

近年来,机器人学习在操作和移动方面都有了一定进展。但要把这些学习算法应用到类人机器人上,却困难重重。主要原因是在现实世界中对类人机器人进行实验,成本太高,还存在安全风险。比如,类人机器人的硬件设备价格昂贵,一旦在实验中损坏,维修成本很高;而且如果机器人在实验过程中失控,还可能对周围环境和人员造成伤害。

image.png

为了推动类人机器人研究的快速发展,就需要一个合适的测试平台。以往的模拟环境和基准测试,要么只关注简单的操作任务,像抓取和放置;要么只侧重于移动,忽略了全身控制和复杂任务的挑战。就算有些引入了复杂任务,但在任务多样性、模型准确性等方面还是有所欠缺。所以,开发一个全面的、能涵盖各种复杂任务的类人机器人基准测试平台就显得尤为重要,这就是 HumanoidBench 诞生的背景。

2、方法——打造类人机器人的试炼场

2.1 模拟环境搭建

HumanoidBench 的模拟环境基于 MuJoCo 物理引擎构建,这个引擎以运行速度快、物理模拟准确著称,为类人机器人的模拟提供了可靠的基础。在这个环境中,主要使用宇树 H1 类人机器人,它相对成本较低,并且有精确的模拟模型。H1 机器人配备了两只灵巧的 Shadow Hands,这让机器人具备了很强的操作能力。同时,环境中还提供了其他机器人模型,像宇树 G1、敏捷机器人 Digit,以及不同的末端执行器,比如 Robotiq 2F - 85 平行夹爪和宇树的 13 自由度手,满足不同研究的需求。

如下图:

image.png

从机器人的身体和手部设置来看,研究人员对不同机器人模型进行了细致的调整。比如,为了让模拟机器人更接近人类形态,去掉了 Shadow Hands 原本笨重的前臂,使机器人的手部更符合未来类人机器人的发展趋势。在观察和动作空间方面,也有明确的设定。观察空间包含机器人的本体感受状态(关节角度和速度)、任务相关的环境观察(物体的姿态和速度),还有从机器人头部两个摄像头获取的视觉观察以及全身的触觉感知。动作空间则通过位置控制来实现,控制频率为 50Hz,这样的设置能让机器人在模拟环境中做出各种动作。

2.2 任务设计

HumanoidBench 包含了丰富多样的任务,总共 27 个,分为 12 个移动任务和 15 个全身操作任务。这些任务从简单到复杂,涵盖了各种不同的场景和技能要求。

如下图:

image.png

移动任务像是走路、站立、跑步等,看似简单,但对于类人机器人来说却并不轻松。以走路任务为例,机器人要保持向前的速度接近 1m/s,同时还不能摔倒,这就需要它精确控制身体的平衡和各个关节的运动。跑步任务则要求机器人以 5m/s 的速度前进,对其运动能力和协调性提出了更高的要求。还有像跨越障碍、在迷宫中导航这样的任务,不仅考验机器人的移动能力,还需要它具备一定的感知和决策能力。

全身操作任务就更复杂了,涉及到与物体的各种交互。比如,从卡车卸货这个任务,机器人要先走到卡车旁,然后拿起货物,再搬运到指定位置,这一过程需要它协调手部的抓取动作和身体的移动,还要根据货物的重量和形状调整力度。再比如打开不同类型的橱柜门,像铰链门、滑动门和抽屉,每种门的打开方式都不同,机器人需要学习不同的操作技巧。还有像打篮球这样的任务,机器人要先接住从不同方向飞来的球,然后再投篮,这对它的反应速度、空间感知能力和手部操作能力都是极大的挑战。

2.3 分层强化学习策略

针对类人机器人学习的复杂性,研究人员引入了分层强化学习(HRL)策略。在传统的端到端强化学习中,算法很难处理高维度的动作空间和复杂的长期规划任务,而 HRL 则将学习问题分层,把低层次的技能策略和高层次的规划策略分开。

具体来说,在执行操作任务时,会先预训练一个低层次的到达策略。比如在推箱子任务中,低层次策略就是让机器人的手能够准确地到达指定的 3D 点。这个策略就像是搭建高楼的基石,需要非常稳健。为了训练出这样的策略,研究人员利用了 MuJoCo MJX 提供的硬件加速功能,在大量并行环境中进行训练。训练完成后,低层次策略就被固定下来,高层次策略则利用这个预训练的低层次策略,根据不同的任务需求,指挥低层次策略执行相应的动作,从而实现整个任务的完成。

3、实验——检验 HumanoidBench 的有效性

3.1 实验设置

image.png

在实验中,研究人员选择了四种强化学习算法作为基线进行测试,分别是 DreamerV3、TD - MPC2、SAC 和 PPO。这些算法在机器人学习领域都有一定的代表性,但在面对类人机器人的复杂任务时,表现却各有不同。

为了确保实验的准确性和可靠性,研究人员对每个算法都进行了约 48 小时的训练,不同算法的训练步数有所差异,比如 TD - MPC2 训练 200 万步,DreamerV3 训练 1000 万步。在训练过程中,每个环境都设置了密集奖励和稀疏子任务完成奖励,通过这些奖励机制来引导机器人学习正确的行为。同时,还对每个任务设置了成功的定性指标,方便评估算法的性能。

3.2 实验结果

image.png

从实验结果来看,这些基线算法在大多数任务上的表现都不太理想。在移动任务中,即使是像走路这样看似简单的任务,算法也需要大量的训练步数才能学会,而且成功率也不高。这主要是因为类人机器人的状态和动作空间维度很高,即使在移动任务中手部动作使用较少,但算法还是难以忽略手部的信息,导致策略学习变得困难。

点击探索 HumanoidBench:类人机器人学习的新平台查看全文

相关文章:

  • 浅谈验证(Verification)和确认(Validation)
  • 【2】CICD持续集成-k8s集群中安装Jenkins
  • 小红书爬虫,小红书api,小红书数据挖掘
  • 在windows上交叉编译opencv供RK3588使用
  • 超导体的应用价值:超导磁探测技术开启科技与生活的新变革
  • 树莓派5+Vosk+python实现语音识别
  • 基于spring boot 集成 deepseek 流式输出 的vue3使用指南
  • 「数据可视化 D3系列」入门第十章:饼图绘制详解与实现
  • 03、GPIO外设(三):标准库代码示例
  • Spring Boot 核心注解全解:@SpringBootApplication背后的三剑客
  • JAVA Web_定义Servlet_处理POST请求【练习】
  • 部署路线Ubuntu_MySQL_Django_绑定域名
  • 如何构建跨平台可复用的业务逻辑层(Web、App、小程序)
  • edge browser for linux debian
  • 基于Django实现农业生产可视化系统
  • MyBatis如何配置数据库连接并实现交互?
  • 为您的照片提供本地 AI 视觉:使用 Llama Vision 和 ChromaDB 构建 AI 图像标记器
  • 第三阶段面试题
  • SpringBoot学习(properties、yml(主流)、yaml格式配置文件)(读取yml配置文件的3种方式)(详解)
  • 使用Lean 4和C#进行数学定理证明与逻辑推理
  • 魔都眼·上海车展④|奔驰宝马保时捷……全球豪车扎堆首秀
  • 漫画阅读APP刊载1200余部侵权作品:20人获刑,案件罚金超千万元
  • 哲学家的生命终章:一场关于存在与消逝的深度对话
  • 特朗普:泽连斯基的言论对和平谈判非常有害
  • 小米首次参加上海车展:没有雷军依旧人气爆棚,YU7上市时间未推迟
  • 神二十具备执行发射任务的各项条件