当前位置：首页 > news >正文

ZeroGrasp：零样本形状重建助力机器人抓取

news 来源：原创 2025/4/28 9:06:42

25年4月来自CMU、TRI 和丰田子公司 Woven 的论文“ZeroGrasp: Zero-Shot Shape Reconstruction Enabled Robotic Grasping”。

机器人抓取是具身系统的核心能力。许多方法直接基于部分信息输出抓取结果，而没有对场景的几何形状进行建模，导致运动效果不佳甚至发生碰撞。为了解决这些问题，本文引入 ZeroGrasp 框架，可以近乎实时地同时执行 3D 重建和抓取姿势预测。该方法的一个关键洞察是，遮挡推理和目标之间空间关系建模，有助于实现精确的重建和抓取。其将该方法与一个大规模合成数据集相结合，该数据集包含来自 Objaverse-LVIS 数据集的 100 万张逼真图像、高分辨率 3D 重建以及 113 亿个物理有效的抓取姿势注释，涵盖 1.2 万个目标。在 GraspNet-1B 基准测试以及真实世界的机器人实验中对 ZeroGrasp 进行评估。ZeroGrasp 实现最佳性能，并利用合成数据将其泛化到真实世界的新目标。

ZeroGrasp 如图所示：

请添加图片描述

安全且鲁棒的机器人抓取需要对目标物体及其周围环境有准确的几何理解。然而，大多数以前的抓取检测方法 [1–6] 并没有明确地对目标物体的几何形状进行建模，这可能导致意外碰撞以及与目标物体的不稳定接触。虽然有几种方法 [3, 7] 利用多视图图像提前重建目标物体，但此过程会带来额外的计算开销，并且需要更复杂的设置。对于放置在狭小空间内（如架子或盒子）的物体，多视图重建通常也不切实际。此外，缺乏具有真实 3D 形状和抓取姿势注释的大规模数据集，这使得从单个 RGB-D 图像进行精确的 3D 重建变得更加复杂。最近，多项研究 [8–10] 表明，稀疏体素表征在运行时间、准确度和分辨率方面优于体表征和类似 NeRF 的隐形状表征，尤其是在基于回归的零样本 3D 重建方面。

基于回归的3D 重建。基于回归的单视图 RGB-D 图像 3D 重建 [8, 20– 47] 一直是 3D 计算机视觉研究的重点。这些方法探索不同的 3D 表征，包括密集体素网格 [23, 31, 39, 48]、稀疏体素网格 [8, 9, 49]（例如八叉树 [9]、VDB [49]、哈希表 [8] 等）和隐式表征 [20, 33, 34, 38]。然而，由于昂贵的内存和计算成本，密集体素网格和隐式表示在输出分辨率方面受到限制。另一方面，一些工作 [9, 20, 21, 49] 表明，稀疏体素表征（如八叉树和 VDB [50]）由于其高效的分层结构，能够以更快的运行时间实现高分辨率 3D 重建。或者，通过新视图合成进行单视图重建也取得深刻的结果。近期的一些研究，例如 GeNVS [51]、Zero-1-to-3 [52]、3DiM [53] 和 InstantMesh [54]，利用扩散模型在给定标准相机姿态的情况下渲染多视图图像。然而，这些方法速度较慢（通常超过 10 秒），并且物体间的遮挡会显著降低性能。此外，集成抓握姿态预测并非易事。

基于回归的抓握姿态预测。传统的抓握姿态预测方法，通常假设人们已经具备 3D 物体的先验知识，并且通常依赖于基于力闭合（force closure）原理的简化分析模型 [55, 56]。近年来，基于学习的方法 [1, 6, 57, 58] 取得了巨大进展，这些方法使得模型能够直接从 RGB(-D) 图像和点云预测 6D 抓取姿势。这使得在高度杂乱的场景中，无需明确建模物体几何形状即可回归抓取姿势。然而，这可能导致抓取不稳定和意外碰撞，因为准确学习防碰撞和精确接触点仍然具有挑战性。尽管一些方法 [42, 59, 60] 探索 3D 重建以改进抓取预测，但它们对形状表征和网络架构的选择往往限制了其全部潜力。

零样本机器人抓取。零样本机器人抓取是指无需先验知识即可抓取未见过目标物体的能力。为实现此目标，主要有两个方向：（1）在测试时使用重建的或真实的 3D 形状基于接触点优化抓握姿势 [3, 61]；（2）增强或合成大规模抓握数据以提高泛化能力 [1, 15, 62]。例如，Ma [3] 提出一种基于接触的优化算法，通过使用从多视角 RGB-D 图像重建的 3D 场景来优化初始抓握姿势。现有的大规模抓握姿势数据集，如 ACRONYM [15]、GraspNet-1B [1] 和 EGAD [62] 探索第二种方法。然而，它们受限于物体多样性或缺少注释，例如 RGB-D 图像。

为了将使用稀疏体素表征的重建方法应用于机器人抓取，开发能够在统一框架内对两者进行推理的新方法至关重要。为此，本文提出 ZeroGrasp，一个用于近实时 3D 重建和 6D 抓取姿态预测的框架。主要假设是，提高 3D 重建质量可以增强抓取姿态预测，特别是通过利用基于物理的接触约束和碰撞检测，这对于精确抓取至关重要。由于机器人环境通常涉及多个目标，且存在目标之间遮挡和紧密接触，因此 ZeroGrasp 引入两个关键组件：多目标编码器和 3D 遮挡场。这些组件可以有效地模拟目标之间的关系和遮挡，从而提高重建质量。此外，设计一种简单的细化算法，利用预测的重建结果来改进抓取姿态。由于重建结果高度精确，它能够在夹持器和目标物体之间提供可靠的接触点和碰撞掩码，利用这些信息来细化抓取姿态。

除了提出的模型之外，还创建一个用于评估的真实世界数据集 ReOcS 数据集和一个用于训练的合成数据集 ZeroGrasp-11B 数据集。ReOcS 数据集是一个用于评估 3D 重建的真实世界数据集，其中三个分割代表不同程度的遮挡。使用此数据集来评估遮挡的鲁棒性。ZeroGrasp-11B 数据集是一个大规模合成数据集，旨在训练具有零样本机器人抓取能力的模型，包含来自 Objaverse-LVIS 数据集 [11] 的高质量、多样化的 3D 模型，如表所示。

请添加图片描述

目标是构建一个高效且可泛化的模型，用于基于单个 RGB-D 观测值同时进行 3D 形状重建和抓取姿势预测，并证明预测的重建结果可用于通过基于接触的约束和碰撞检测来优化抓取姿势。

ZeroGrasp 概述如图所示：输入八叉树 x 首先被输入到基于八叉树的 CVAE（橙色框中的组件）。多目标编码器利用其潜特征 l 在潜空间学习多目标推理。此外，3D 遮挡场通过简单的光线投射对目标间和自遮挡信息进行编码。多目标编码器和 3D 遮挡场的输出特征与潜代码 z 连接，解码器预测 3D 形状和抓握姿势。

请添加图片描述
3D 形状表征。采用八叉树作为形状表征，其中图像特征、符号距离函数 (SDF)、法线和抓取姿势等属性定义在八叉树的最深层。例如，将输入八叉树表示为最终深度的体素中心 p 多元组，并与图像特征 f 相关联。与点云不同，八叉树结构支持高效的深度优先搜索和八分圆（octant）的递归细分，使其成为以内存和计算高效的方式进行高分辨率形状重建和密集抓取姿势预测的理想选择。

抓取姿势表征。用通用的两指并联夹持器模型来表示抓握姿势，就像 GraspNet [1] 中所使用的一样。具体来说，抓握姿势由以下部分组成：视图抓握度分 s，表示抓握位置的稳健性 [57]；质量 q，使用力闭合算法 [55] 计算；视图方向 v；角度 a；宽度 w；深度 d。每个点都会被分配在半径 5 毫米以内的最近抓握姿势。如果不存在，将其对应的抓握度设置为 0。在 GraspNet-1B 和 ZeroGrasp-11B 数据集中，每个点都标注有一组密集的抓握姿势，涵盖所有视图、角度和深度的组合 (300 × 12 × 4)。

架构

给定输入八叉树 x（由深度图和实例掩码生成的每个实例部分点云组成）及其对应的图像特征，目标是预测以八叉树表示的 3D 重建和抓取姿势 yˆ。ZeroGrasp 基于八叉树的 U-Net [9] 和条件变分自编码器 (CVAE) [63] 构建，用于建模形状重建不确定性和抓取姿势预测，同时保持近乎实时的推理能力。本文提出两项关键创新来提高其准确性和泛化能力。具体而言，引入 (1) 多目标编码器，通过潜空间中的 3D transformer 来建模目标之间的空间关系，从而实现无碰撞的 3D 重建和抓取姿势；以及 (2) 3D 遮挡场，这是一种3D 遮挡表征，可以捕捉目标间的遮挡，从而增强遮挡区域的形状重建。

八叉树特征提取。对 RGB 图像 I 进行编码以提取图像特征 W。对 SAM 2 [64] 进行微调以生成二维实例掩码 M，M_i 表示第 i 个目标掩码。然后通过 (q_i, w_i) = π^−1 (W, D, K, M_i) 将图像特征图反投影到三维空间，其中 q_i 和 w_i 分别表示第 i 个目标的三维点云及其对应特征。其中，π 是反投影函数，D 是深度图，K 表示相机本征矩阵。三维点云特征被转换为八叉树 x_i = (p_i, f_i) = G(q_i, w_i)，其中 G 是从点云及其特征到八叉树的转换函数。

基于八叉树的 CVAE。为了提高形状重建质量，ZeroGrasp 利用基于八叉树的条件变分自编码器 (CVAE) 的概率建模来解决单视图形状重建中固有的不确定性，这对于提高重建和抓握姿势预测质量都至关重要。受 [63] 的启发，基于八叉树的 CVAE 由编码器 E、先验 P 和解码器 D 组成，用于学习 3D 形状和抓握姿势的潜表示作为对角高斯分布。具体来说，编码器 E(z_i | x_i, y_i) 学习根据预测和真实八叉树 x_i 和 y_i 来预测潜代码 z_i。先验 P(l_i, z_i | x_i) 将八叉树 x_i 作为输入并计算潜特征 l_i 和代码 zi，Ni′ 和 D′ 分别是点的数量和潜特征的维度。在内部，潜编码是通过重新参数化技巧从预测的均值和方差中采样的 [65]。解码器 D (y_i | l_i, z_i, x_i) 预测 3D 重建以及抓取姿势。为了节省计算成本，解码器预测每个深度的占用，丢弃那些概率低于 0.5 的网格单元。只有在最后一层，解码器才会预测 SDF、法向量、抓取姿势以及占用。在训练期间，编码器和先验之间的 KL 散度被最小化，以使它们的分布达到匹配。

多目标编码器。先验 P 计算每个目标的特征，缺乏对无碰撞重建和抓取姿势预测的全局空间排列进行建模的能力。为了解决这个问题，在潜空间中加入 Transformer，它由 K 个带有自注意机制和 RoPE [66] 位置编码的标准 Transformer 块组成，效仿了 [10] 的做法。多目标编码器 M 以体素中心 r_i 及其所有目标的特征 l_i 为中心，更新潜空间中所有目标的特征。

3D 遮挡场。关键见解是，多目标编码器主要学习避免物体之间的碰撞以及在杂乱场景中掌握姿势，因为碰撞建模只需要局部上下文，使其更易于处理。相比之下，遮挡建模需要全面理解全局上下文才能准确捕捉可见性关系，因为遮挡物和被遮挡物可能相距甚远。为了缓解这个问题，设计 3D 遮挡场，通过简化的基于八叉树体渲染将可见性信息定位到体素上。具体而言，将潜空间中的体素细分为 B^3 个较小的块（每个轴 B 个块），然后将它们投影到图像空间中。如图所示，如果某个块位于目标物体对应的实例掩码内，则自遮挡标志 o_self 设置为 1。如果该块位于邻近目标的实例掩码内，则目标间遮挡标志 o_inter 设置为 1。计算完所有块的标志后，通过连接第 i 个目标的两个标志来构建 3D 遮挡场 V_i。最后，使用三层 3D CNN 对其进行编码，每层将分辨率下采样 2 倍，以获得潜空间的遮挡特征 o_i，并通过 l_i ← [l_i o_i] 更新潜特征，以考虑遮挡和碰撞。

请添加图片描述

训练。与标准 VAE [63, 65] 类似，通过最大化证据下界 (ELBO) 来训练模型。此外，选择经济监督 [67] 来有效地学习抓握姿势预测。

抓取姿势的细化

三维重建的一大优势，在于它能够利用重建结果来细化预测的抓取姿势。虽然 Ma [3] 提出一种基于接触的优化算法，但它需要从多视角图像重建精确的截断有符号距离场 (TSDF)，而且运行时间相对较慢。相比之下，本文引入一种简单的细化算法，该算法将基于接触的约束和碰撞检测应用于三维重建。具体而言，首先通过在重建中找到距离夹持器左右手指最近的点来检测接触点。然后，调整预测的宽度和深度，使两个指尖都接触。最后，对重建结果进行碰撞检测，以丢弃存在碰撞的抓取姿势。

基于接触的约束。准确的接触对于成功抓取至关重要，因为它们确保操作过程中的稳定性和控制力。虽然网络可以预测夹持器的宽度和深度，但即使是微小的误差也可能导致抓取不稳定。为了解决这个问题，调整夹持器的指尖位置可优化抓取姿势，使其与重建图中左右手指 c_L 和 c_R 最近的接触点对齐。基于这些接触点优化宽度 w，使得接触距离 ∆w 保持在 γ_min 到 γ_max 范围内。注：D© 表示与 c 点的接触距离。之后进一步修正深度 d。这些简单的细化步骤有助于确保稳定的抓取。

如图所示：首先获得接触点 c_L 和 c_R。接下来，计算接触距离 D（c_L | R），并通过 Z（c_L | R）计算深度。最后更新宽度和深度。

请添加图片描述

碰撞检测。基于 GS-Net [57]，使用双指夹持器实现一个简单的无模型碰撞检测器。虽然之前的方法使用从深度图获取的部分点云，但它无法丢弃导致与遮挡区域发生碰撞的预测抓取姿势。为了克服这一限制，利用重建的形状，从而实现更精确的碰撞检测。为了证明这种方法的合理性，在实验中进行广泛的分析，并展示其优势。

另外，创建两个用于评估和训练的数据集：1) ReOcS 数据集用于评估不同遮挡程度下的 3D 重建质量；2) ZeroGrasp-11B 数据集用于训练基准和零样本机器人抓取模型。如图突出显示数据集的几个示例。

请添加图片描述

实现细节。Zero-Grasp 采用 ResNeXt [75] 架构作为图像编码器，在 ImageNet 数据集 [76] 上进行预训练，除最后一层之外的所有参数在训练期间都是固定的。与 EconomicGrasp [67] 使用预测的视图抓取度 s 来确定视图方向。对于训练，使用 AdamW [77]，学习率为 0.001，在 NVIDIA A100 上批量大小为 16。将输入图像特征 D、潜特征 D′ 和 3D 遮挡场 V 的尺寸分别设置为 32、192 和 16。对于 3D 遮挡场，用 8 作为块分辨率 B。按照 Ma 的方法，接触距离 γ_min 和 γ√max 的范围分别定义为 0.005m 和 0.02m。为了生成抓取姿势，我们使用 0.005m^2 作为采样密度 ρ。