当前位置：首页 > news >正文

中科院数据生成赋能具身导航！WCGEN：基于世界一致性数据生成的视觉语言导航

news 来源：原创 2025/4/22 9:32:53

作者： Yu Zhong $^{1,2}$ , Rui Zhang $^{1,2}$ , Zihao Zhang $^{1,2}$ , Shuo Wang $^{1,2}$ , Chuan Fang $^{3}$ , Xishan Zhang $^{1,2}$ , Jiaming Guo $^{1,2}$ , Shaohui Peng $^{4,2}$ , Di Huang $^{1,2}$ , Yanyang Yan $^{1,2}$ , Xing Hu $^{1,2}$ , Ping Tan $^{3}$ , Qi Guo $^{1,2}$
单位： $^{1}$ 中科院计算技术研究所， $^{2}$ 中国科学院大学， $^{3}$ 香港科技大学， $^{4}$ 中科院软件所
论文标题：World-Consistent Data Generation for Vision-and-Language Navigation
论文链接：https://arxiv.org/pdf/2412.06413

本文提出了**世界一致性数据生成（WCGEN）**框架，旨在生成多样化且世界一致的视觉-语言导航（VLN）数据，以提升智能体在新环境中的泛化能力。
WCGEN框架通过一个两阶段生成策略来实现这一目标，具体包括轨迹阶段（Trajectory Stage）和导航点阶段（Viewpoint Stage）。

轨迹阶段的目标是确保导航路径上各导航点之间的空间连贯性。为此，WCGEN设计了两个模块：初始模块（Initial Module, IM）和前向模块（Forward Module, FM），分别用于生成第一个导航点的参考图像和后续导航点的参考图像。

初始模块负责生成第一个导航点的参考图像。它以Matterport3D数据集提供的真实参考图像 $X_{r1}^1$ 和对应的深度信息 $D_{r1}^1$ 作为输入，目标是生成合成的参考图像 $Y_{r1}^1$ 。具体步骤如下：

前向模块用于生成后续导航点的参考图像。假设第 $t - 1$ 个导航点的参考图像 $Y_{r_{t-1}}^{t-1}$ 已经生成，前向模块将生成第 $t$ 个导航点的参考图像 $Y_{r_t}^t$ 。具体步骤如下：

点云投影：首先，使用预训练的深度估计器计算 $Y_{r_{t-1}}^{t-1}$ 的深度信息 $\tilde{D}_{r_{t-1}}^{t-1}$ 。然后，利用相机参数将 $Y_{r_{t-1}}^{t-1}$ 和 $\tilde{D}_{r_{t-1}}^{t-1}$ 转换为第 $t$ 个导航点的引导图像 $G_{r_t}^t$ 。具体计算如下：
$K^{-1} \cdot \begin{bmatrix} u \cdot \tilde{D}_{r_{t-1}}^{t-1}(u,v) \\ v \cdot \tilde{D}_{r_{t-1}}^{t-1}(u,v) \\ \tilde{D}_{r_{t-1}}^{t-1}(u,v) \end{bmatrix}$
$P_w = R \cdot P + T$
$P_w' = R_{t-1 \to t} \cdot (P_w + T_{t-1 \to t})$
其中， $K$ 表示相机内参， $R$ 和 $T$ 分别表示旋转矩阵和平移向量。
图像生成：由于投影后的引导图像 $G_{r_t}^t$ 可能存在缺失像素，因此使用ControlNet结合深度信息 $D_{r_t}^t$ 进行图像到图像的生成，输出 $Y_{r_t}^t$ 。如果导航点差异过大，导致没有重叠部分，则直接进行文本到图像的生成，类似于初始模块的过程。

导航点阶段的目标是确保单个导航点内全景图的空间连贯性和环绕一致性。

Replenish Module：基于参考图像逐步生成全景图。对于第 $t$ 个导航点，导航点阶段以参考图像 $Y_{r_t}^t$ 和真实图像 $X_{\{1,...,n\}/r}$ 作为输入，逐步生成每个导航点图像 $Y_i^t$ 。具体步骤如下：

邻接集合构建：收集与目标导航点图像相邻的已生成导航点图像，形成邻接集合 $S_i$ 。
角度合成：对于邻接集合中的每个图像 $Y_j \in S_i$ ，通过角度合成方法将其映射到目标导航点 $i$ ，生成引导图像 $G_{j \to i}$ 和二值掩码 $M_{j \to i}$ 。具体计算如下：
$v_{\text{sphere}} = K^{-1} \cdot v_{\text{pixel}} \cdot \frac{1}{\|K^{-1} \cdot v_{\text{pixel}}\|}$
$v'_{\text{sphere}} = R_{j \to i} \cdot R \cdot v_{\text{sphere}}$
$v'_{\text{pixel}} = K \cdot v'_{\text{sphere}}$
图像外扩：使用ControlNet结合深度信息 $D_i$ 、模糊掩码 $\hat{M}_{j \to i}$ 和目标导航点图像的描述文本，生成输出 $Y_i$ 。如果邻接集合中有多个图像，则通过加权求和的方式合并引导图像和掩码。

实验在多个VLN数据集上进行，包括R2R、R4R、REVERIE和CVDN。使用标准的导航性能指标（如轨迹长度TL、导航误差NE、成功率SR、路径长度归一化的成功率SPL等）进行评估。

细粒度导航
- 在R2R和R4R数据集上，WCGEN显著提升了DUET和HAMT模型的性能。
- 例如，在R2R验证集未见环境中，DUET模型的SPL指标提升了5.8%，在R4R验证集未见环境中提升了3.4%。
粗粒度导航
- 在CVDN和REVERIE数据集上，WCGEN同样表现出色。
- 例如，在CVDN验证集未见环境中，目标进展（GP）指标比PanoGen提升了0.54%。
生成质量评估
- 通过Inception Score（IS）和Fréchet Inception Distance（FID）评估生成图像的质量。
- WCGEN在这些指标上优于其他数据增强方法，生成的图像更具真实感和物理一致性。
消融研究
- 证明了WCGEN中各个模块的有效性。
- 例如，去掉轨迹阶段的Forward Module会导致性能显著下降，表明轨迹阶段在确保空间一致性方面的重要性。