当前位置: 首页 > news >正文

聚焦于机器人研究,提出 FuSe 方法,通过语言锚定对通用机器人策略进行微调 视觉、触觉、听觉

聚焦于机器人研究,提出 FuSe 方法,通过语言锚定对通用机器人策略进行微调,利用多模态传感器提升性能,在多种任务中表现优异,具备跨模态推理能力。

 

  1. 研究背景:与世界交互需多感官协作,当前先进通用机器人策略多依赖视觉和本体感受数据训练,忽略其他模态信息。
  2. 方法:FuSe 利用自然语言作为跨模态锚定,结合多模态对比损失和基于感官的语言生成损失,对视觉运动通用策略在异构传感器模态上微调。多模态对比损失最大化不同模态和场景语义间互信息;多模态生成损失通过生成网络和辅助交叉熵损失,将观察嵌入与语言指令对比学习。
  3. 数据集:收集 26,866 条轨迹数据集,涵盖桌面抓取、购物袋抓取、按钮按压任务,涉及视觉、触觉、音频等多种传感器数据。
  4. 实验结果:FuSe 在所有任务环境中超越基线方法,在购物袋抓取任务提升显著。还具备简单和复杂跨模态推理能力,且适用于不同通用策略架构,如 PaliGemma - based 3B - parameter VLA 模型。
  5. 引用

相关文章:

  • ET框架实现匹配功能(服务器端)
  • TArray系列(二)
  • 【linux】文件与目录命令 - grep
  • UNIAPP开发之利用阿里RTC服务实现音视频通话后端THINKPHP5
  • 磐维数据库双中心容灾流复制集群搭建
  • K8S下redis哨兵集群使用secret隐藏configmap内明文密码方案详解
  • 我的文具盒作文范文
  • windows使用命令解压jar包,替换里面的文件。并重新打包成jar包,解决Failed to get nested archive for entry
  • 软件单元测试的技术要求
  • 日期类(完全讲解版)
  • 【Server Components 解析:Next.js 的未来组件模型】
  • Unity for Python —— 强大的 Python 脚本支持提升 Unity 编辑器效率
  • 前沿科技:改变生活的十大趋势
  • 后端开发:开启技术世界的新大门
  • playwright 实现自动上传,多元素操作
  • 性能:React 实战优化技巧 之 函数闭包
  • 一文讲解Redis为什么读写性能高以及I/O复用相关知识点
  • python读取pdf文档
  • 学习 `@PreDestroy`:Java EE/Jakarta EE 生命周期回调
  • web安全:跨站请求伪造 (CSRF)
  • 生于1984年,马玥已任辽宁锦州北镇市代市长
  • 范福生受审:任高密市长、市委书记时滥用职权,致公共财产利益重大损失
  • 汪东进卸任中海油董事长,深耕油气领域40余年、已临近退休
  • 电商平台全面取消“仅退款”:电商反内卷一大步,行业回归良性竞争
  • 洛阳白马寺存争议的狄仁杰墓挂牌,当地文物部门:已确认
  • 著名政治学学者、中国人民大学教授仝志敏逝世