当前位置：首页 > news >正文

机器人操作中的生成式 AI：综述（上）

news 来源：原创 2025/4/25 7:06:22

25年3月来自香港大学、香港理工、香港科大、浙大和清华大学的论文“Generative Artificial Intelligence in Robotic Manipulation: A Survey”。

本综述全面回顾机器人操作领域生成学习模型的最新进展，并探讨该领域的关键挑战。机器人操作面临着关键瓶颈，包括数据不足和数据采集效率低下、长期和复杂任务规划，以及在不同环境下实现稳健策略学习性能所需的多模态推理能力等重大挑战。为了应对这些挑战，本综述介绍几种生成模型范式，包括生成对抗网络 (GAN)、变分自编码器 (VAE)、扩散模型、概率流模型和自回归模型，并重点介绍它们的优势和局限性。这些模型的应用分为三个层次：基础层，侧重于数据生成和奖励生成；中间层，涵盖语言、代码、视觉和状态生成；以及策略层，强调抓取生成和轨迹生成。本综述对每一层都进行详细探讨，并列举一些推动当前最佳研究成果的重要成果。最后，该调查概述未来的研究方向和挑战，强调需要提高数据利用效率、更好地处理长期任务以及增强在不同机器人场景中的泛化能力。

机器人操控对于使机器能够与周围环境进行物理交互并进行修改至关重要，这是实现智能自主的基本步骤。从工厂组装精密电子设备到家庭辅助护理，机器人操控在对社会产生重大影响的应用中发挥着至关重要的作用 [1, 2]。操控作为机器人技术中最重要的问题之一，长期以来在复杂环境中面临着重大挑战，尤其是在涉及非平凡交互以及复杂的长期决策和规划的场景中 [1, 3]。这些挑战阻碍机器人系统在不同场景中执行可靠且鲁棒的操控任务，留下巨大的空白。近年来，机器人操控中越来越重视数据驱动的方法，这种方法利用大规模数据和机器学习技术，使机器人能够更好地感知、适应和与各种环境交互。由于这些爆炸式的进步，上述差距已被大大缩小。具体来说，通过利用生成学习模型在场景理解、推理、任务规划和策略综合方面的卓越能力，人们已经展示包括操作可变形材料和执行长周期任务序列在内的操控技能，而这些技能此前被广泛认为是极其困难的。

生成式学习模型，作为现代人工智能中最重要的学习模型之一，解决机器人操控，尤其是在抓取任务中一些此前未解决的挑战。首先，它们能够合成多样化和高质量的数据，显著减轻对大量现实世界数据集的依赖。通过生成合成的抓取场景和物体变化，这些模型使机器人即使在数据稀缺的环境中也能高效训练并处理更广泛的目标[4, 5]。其次，它们对高维动作和目标空间进行建模的能力，使机器人能够预测复杂或未知目标的可行抓取配置和轨迹[6, 7, 8]。这提高了机器人适应新任务和环境的能力，增强抓取规划的鲁棒性。第三，它们在学习潜表征方面的优势，能够捕捉物体结构和交互动态，使机器人能够泛化各种形状、纹理和物理特性 [9, 10]。这确保即使在非结构化或动态环境中，在需要精确操控的任务中也能获得更可靠的性能。这些突破凸显生成式模型在推动机器人抓取和操控方面所具有的变革性潜力。

本综述重点关注生成式模型，因为它们有可能解决操控领域长期存在的挑战。生成式模型提供一些有前景的解决方案，例如改进场景理解、推理和任务规划，从而有效地缓解这些问题。

现在机器人操纵存在的挑战：

数据缺乏和数据获取低效的瓶颈。数据驱动方法已逐渐成为解决操作问题的主导方法之一。强化学习 (RL) 和模仿学习 (IL) 等数据驱动方法以数据密集型著称，需要大量高质量数据来训练有效的模型 [11, 12]。收集高质量数据通常需要人工干预或进行大量的真实世界机器人实验，这些实验既耗时又难以大规模扩展 [13]。为了简化数据生成问题，一些研究人员探索从其他任务或领域进行迁移学习 [14, 15, 16]，以及域随机化等技术来缓解数据稀缺问题 [4]。然而，对高质量、特定任务数据的依赖仍然阻碍着性能和可扩展性。解决这些问题对于充分释放数据驱动机器人操作的潜力至关重要。Stable Diffusion [17] 等生成模型和大规模预训练语言模型 [18] 已在生成高质量合成图像、视频、注释和奖励信号方面展现出卓越的能力。这些模型能够创建丰富多样的数据集，通过提供可扩展且高效的数据生成流程，显著缓解数据不足问题。合成数据可用于训练和验证机器人操作模型，从而提升其性能和泛化能力。此外，生成丰富的奖励函数能力，有助于通过提供详细的反馈和支持在复杂环境中进行探索，实现更有效的强化学习。这种对数据和奖励生成的关注，为克服数据稀缺和数据获取效率低下奠定基础，从而推动机器人操作域的发展。

长期任务和复杂任务规划。复杂任务，例如多步骤装配操作、杂乱环境中的目标重排列以及与人类的协作任务 [19]，需要机器人规划和执行一系列相互依赖的动作。有效的规划需要复杂的建模技术，并且通常假设对环境具有完全的可观测性 [20]。然而，在现实世界中，完全的观察很少可行，因此需要智体发展对任务的内在理解，包括因果关系及其行为对环境的影响 [9, 21]。传统的确定性模型难以捕捉这种复杂性，因为它们无法充分表征长期任务中固有的不确定性和动态交互 [22]。生成式模型，通过诸如思维链（CoT）推理 [23] 之类的技术，将复杂任务分解为可管理的子目标，从而为解决长期任务规划做出重要贡献。利用语言生成和代码生成功能，大规模生成式模型，可以帮助机器人将复杂的动作序列分解为更简单的顺序步骤，从而规划复杂的动作序列 [24, 25]。这种方法使智体能够生成明确的思路和行动规划，增强其对复杂任务的理解和执行能力。通过结合这些生成技术，机器人可以更好地处理长期任务中固有的不确定性和动态交互，从而提高其在操作场景中的整体性能。此外，生成式模型开发世界模型和促进动态学习，增强机器人对物理世界的理解。通过生成中间状态——显式地以视觉表征的形式出现，例如结果图像 [26, 27]，或隐式地通过潜状态 [28]，这些模型使机器人能够预测和规划其环境中的未来事件。潜在未来状态的可视化生成能力，可以改进操作任务中的规划和决策过程。状态生成能够捕捉精确执行任务所必需的底层动态，解决复杂环境中的不确定性和多变性。这使得机器人能够预测并适应操作任务过程中的变化，从而提升其在动态环境中的性能。

策略学习需要多模态推理能力。在机器人操作中，由于任务的复杂性和环境的多变性，当前状态可能对应多种有效的动作和结果。例如，抓取杯子时，可以抓住把手或杯子主体，最佳选择取决于后续任务：抓取把手更适合往杯子里注水，而抓取主体更适合将杯子递给他人。确定性模型通常将输入观测值映射到单一输出，无法捕捉许多操作任务中固有的多模态性。这种局限性限制模型的适应性，并影响其在不同情况下的性能。由于依赖一对一映射，这些模型难以涵盖所有可能的动作，从而阻碍更灵活、更通用的机器人系统的开发。生成式模型在策略学习中展现出巨大的潜力，尤其是在机器人操作任务的抓取生成和轨迹生成方面[6, 29, 30, 31]。通过对整个轨迹的动作序列进行建模，生成式模型可以实现控制策略的联合优化。例如，扩散模型已应用于策略学习，从而能够生成平滑可行的运动轨迹 [29]。这些模型可以融入机器人操作空间固有的约束，例如用于在三维空间中生成有效抓取姿势的 SE(3) 约束 [8]。此功能通过生成高效且物理上合理的策略，增强机器人执行精确复杂操作任务的能力。此外，它们对多模态分布的建模能力，使其能够捕捉复杂操作任务所必需的各种可能抓取姿势和运动轨迹。

如图是该综述的结构：

请添加图片描述

生成式模型已成为机器学习领域一类强大的工具。它专注于合成复杂数据分布的问题，具有诸多核心优势，例如能够捕捉潜模式、生成多样化输出以及实现跨任务的自适应解决方案。在机器人操控领域，这些模型已被用于应对各种关键挑战，例如生成真实数据、规划精准轨迹以及适应动态和非结构化环境。生成式模型能够模拟不确定性并处理高维数据，从而增强机器人的泛化能力、决策能力和任务执行能力。其中 5 种生成式模型如图所示：

请添加图片描述

生成对抗网络 (GAN)

生成对抗网络 (GAN) 由两部分组成：生成器和鉴别器。生成器旨在从随机噪声中创建逼真的数据样本，而鉴别器则尝试区分真实样本和生成的样本。这两个网络在零和博弈中同时进行训练，生成器试图欺骗鉴别器，而鉴别器则不断提升区分真实数据和虚假数据的能力。这种对抗性训练过程会随着时间的推移产生高质量的生成数据 [34]。

在机器人操控领域，GAN 可以用来提升机器人执行复杂任务的能力。通过从真实数据中学习成功操控策略的分布，生成器可以为抓取、物体处理和工具使用等任务生成新的可行动作序列 [35]。鉴别器通过将生成的动作与实际操控示例进行比较，确保其真实性。这些方法通过生成不仅有效而且可推广的操控策略，使机器人能够适应新的非结构化环境，从而提高其在需要精细运动技能和适应性的任务中的表现。

变分自编码器 (VAE)

变分自编码器 (VAE) [36] 旨在学习从低维潜空间到数据空间的概率映射。通过使用编码器-解码器结构对数据分布进行建模，VAE 能够学习通过从已学习的潜空间中采样来生成新数据。VAE 的关键特性之一是能够利用变分推理进行高效的推理和生成。

VAE 能够实现紧凑的概率表示，在机器人操作中连接高维感知输入和特定任务的输出。VAE 的这种数据编码到结构化潜空间的能力，有助于平滑的轨迹生成和自适应的抓取规划。在轨迹生成方面，VAE 允许机器人通过从潜空间采样来探索不同的路径，从而在运动规划中保持连续性和自适应性 [31]。在抓取规划方面，VAE 通过学习紧凑的潜空间来生成多样化、物理上合理的抓取，从而能够适应物体的多变性和不确定性 [8, 37]。

扩散模型

先进的生成式模型，尤其是扩散模型的出现，极大地丰富机器人操控的领域。其中，去噪扩散概率模型 (DDPM) [38] 和去噪扩散隐式模型 (DDIM) [39] 已成为强大的框架，为提升机器人在复杂操控任务中的能力提供独特的优势。这些模型的工作原理是模拟一个正向过程，在这个过程中，数据逐渐被噪声破坏，然后是一个反向过程，试图对数据进行去噪并恢复原始输入。神经网络通常会参数化这个反向过程，而训练模型则需要学习在每一步中反转噪声的添加。

这种机制使 DDPM 能够生成多样化且逼真的输出，捕捉现实世界交互的细微差别，这对于需要适应性和精准度的机器人操控任务至关重要。另一方面，DDIM 为扩散过程引入一种隐式方法，可以在不影响生成输出质量的情况下实现更高效的采样。通过提供从噪声空间到数据空间的确定性映射，DDIM 能够缩短推理时间，同时保持生成轨迹的高保真度。这在实时执行至关重要的机器人应用中尤其有益，例如在动态环境中，机器人必须适应不断变化的条件并以最小的延迟执行任务。

概率流

概率流 [40] 是一种生成式模型，它学习简单先验分布（例如高斯分布）和复杂数据分布（例如图像）之间的可逆变换。这些模型依赖于可逆映射函数，从而实现高效的似然估计和精确的推理。生成过程可以描述为将一系列可逆变换应用于一个简单的潜变量。概率流模型学习可逆函数，从而能够将复杂的数据分布逐步转化为简单的先验分布，并使用逆函数生成数据。

与 GAN 和 VAE 等模型不同，基于流的模型明确地学习数据分布。这种显式学习使得能够直接计算精确的对数似然函数，从而简化模型的训练和评估。由于这些特性，基于流的模型在机器人技术领域得到了广泛的应用，包括异常检测 [41, 42]、导航 [43] 和操控 [44]。

自回归模型

继大语言模型之后，自回归模型也变得非常流行。ChatGPT [45] 在自然语言处理领域展现其强大的零样本泛化能力。自回归模型逐步生成 token，每一步都以之前的步骤为条件。自回归模型将数据的似然分解为条件分布的乘积，其中每个数据点都是基于之前的数据点生成的。
自回归模型在自然语言处理领域 [18, 45, 46, 47, 48] 和视觉生成领域 [49, 50, 51, 52] 展现了其卓越的生成能力，尤其是在训练数据量较大、模型规模较大的情况下 [53]。在机器人领域，自回归模型可以作为中间模块，生成语言或图像以进行任务分解。此外，视觉-语言-动作（VLA）模型 [54, 55] 扩展多模态大语言模型，将动作生成纳入整个自回归生成过程。

如图所示机器人操纵中生成式模型的概览：

请添加图片描述

基础层

在机器人操控系统中，基础层是实现有效学习和决策的底层基础设施。该层负责生成训练和评估所需的基本构建块。

数据生成

数据生成是推进机器人操作和解决数据稀缺问题的基础。其可分为三个方面：通过模拟进行数据生成、通过生成模型进行数据生成以及使用生成模型进行数据增强。如表所示，对机器人操作任务中的数据生成进行细致的、分层的分类。这些技术共同构成一个全面的策略，旨在使机器人系统能够有效地应对现实世界的复杂性。

请添加图片描述

奖励生成

奖励生成是指学习奖励函数的过程，该函数可指导策略优化以实现最高的任务成功率。生成式模型应用之前的局限性主要包括稀疏奖励 [88] 的挑战，即智体在训练初期很少达到预期目标，导致反馈不足，无法有效优化策略。生成式模型在奖励生成中，有两个关键应用：提供监督信号和提供策略分数。使用生成式模型提供监督信号涉及利用大规模预训练模型（例如，视觉语言模型，VLM）生成结构化信息，例如成功指标 [89] 或目标描述，这些信息可作为策略学习的详细反馈。使用生成式模型提供策略分数则涉及使用生成式模型在线评估策略性能，例如测量预测动作与目标之间的距离或生成约束以优化策略选择，从而提高任务执行效率和稳定性。

中间层

在机器人操作范式中，中间层是连接高级任务规划和低级策略执行的关键组件。其主要作用是生成结构化、可解释的表征，以连接任务规划器的抽象命令和机器人系统所需的可执行操作。根据任务和情境，中间层包含各种生成机制，包括用于任务分解的自然语言和代码生成，以及用于生成场景级表征和未来预测的视觉和状态生成。这些中间输出通过将任务分解为可管理的子目标来简化机器人决策的复杂性，确保机器人能够在动态和不确定的环境中有效运行。通过模块化这些流程，中间层增强机器人系统在不同应用中的适应性和可扩展性。

自然语言生成

自然语言生成已成为一种强大的工具，可用于以语言格式为机器人创建可执行任务。虽然机器人在执行复杂、长期任务时常常遇到困难，但在执行之前将这些任务分解为一系列子任务已被证明是一种有效的策略。大语言模型 (LLM) 已展现出卓越的任务规划能力 [25]，使其成为实现此目的的理想选择。因此，大量研究 [74, 119, 120, 121, 122, 123] 利用 LLM 将机器人的长期任务分解为可管理的子任务序列。这种方法不仅简化机器人的执行过程，还增强它们处理更复杂、更多样化任务的能力。

用于任务分解的自然语言生成，涉及使用语言作为中介将复杂任务分解为可管理的子目标；基于物理的语言生成，其中语言输出与环境中的物理状态或交互相关联，确保与机器人技术的相关性；以及具有外部记忆的语言生成，它利用记忆增强架构来实现对扩展上下文的推理，并改进长期场景中的任务规划。如图展示整个领域的一个分析结构。

请添加图片描述

代码生成

基于语言生成领域的进步，代码生成旨在将高级自然语言指令转换为可执行的机器人控制程序。通过利用 LLM 或 MLLM，这些方法致力于使机器人编程更容易上手，允许非专业人士在概念层面指定任务，而自动化系统则负责处理将这些指令转换为低级命令的复杂性。如图所示，当前的机器人代码生成研究大致可分为三种方法：直接代码生成、基于分解的代码生成和基于约束的代码生成。

请添加图片描述

视觉生成

由于生成范式的演变和更大规模的预训练，视觉生成系统 [17, 157, 158, 159] 生成的图像、视频和点云的质量得到了显著提升。视觉生成模型的这些进步，正在改变机器人操控，使机器人能够通过合成的视觉线索更好地解读环境并与之交互。通过利用高度逼真的视觉输出，机器人可以在现实世界中尝试执行复杂的操控任务之前，在虚拟环境中模拟和预测这些任务，如图所示。这不仅增强机器人在不同任务中的学习和泛化能力，也补充语言和代码生成方面的最新进展，使机器人能够跨多种模态解读和执行指令。因此，这些进步为更安全、适应性更强的机器人操控铺平道路，有助于更深入地理解多目标交互、物理约束和特定任务的运动。

请添加图片描述

状态生成

状态生成是创建有意义且紧凑环境或任务动态表示的过程，使机器人能够有效地解释周围环境并与之交互。与在输入空间中生成视觉预测相比，在潜空间中生成预测更高效、更紧凑 [178]。与图像空间中的预测相比，潜状态占用空间有限，从而有助于同时模拟数千条轨迹。在生成模型出现之前，状态表示通常依赖于显式的高维感知数据，这不仅计算成本高昂，而且难以在复杂或动态场景中推广。状态生成式模型概述如图所示：

请添加图片描述

该问题有两个关键方面：生成模型如何增强观察建模和动态建模。对观察建模利用生成模型将原始感知输入转换为结构化的潜表示，在捕捉基本特征的同时减少噪声和冗余，从而简化规划和控制等下游任务。另一方面，建模动力学侧重于预测状态转换和理解动作依赖性，使机器人能够预测未来状态并在不断变化的环境中以更高的准确性和适应性规划轨迹。