当前位置：首页 > news >正文

IJCV-2025 | 深圳大学记忆增强的具身导航！ESceme：基于情景记忆的视觉语言导航

news 来源：原创 2025/4/30 1:55:08

作者：Qi Zheng $^{1,2}$ , Daqing Liu $^{3}$ , Chaoyue Wang $^{3}$ , Jing Zhang $^{2}$ , Dadong Wang $^{4}$ , Dacheng Tao $^{2}$
单位： $^{1}$ 深圳大学电子与信息工程学院， $^{2}$ 悉尼大学计算机科学学院， $^{3}$ 京东探索研究院， $^{4}$ CSIRO，DATA61
论文标题：ESceme: Vision-and-Language Navigation with Episodic Scene Memory
论文链接：https://link.springer.com/article/10.1007/s11263-024-02159-8
代码链接：https://github.com/qizhust/esceme

主要贡献

论文首次提出Episodic Scene Memory（ESceme）场景记忆机制，通过记忆过去的访问场景来平衡泛化能力和效率。
通过Candidate Enhancing方法，论文提供了一个简单而有效的ESceme实现，通过在每个位置增强可访问的视图，并在导航过程中逐步完成记忆来实现。
在短视距（R2R）、长视距（R4R）和视觉-对话（CVDN）导航任务上验证了ESceme的优越性。实验结果表明，ESceme在这些任务中表现优异。
ESceme在CVDN排行榜上取得了第一名，展示了其在复杂导航任务中的强大能力。

研究背景

研究问题

论文主要解决的问题是如何在视觉语言导航（VLN）中平衡泛化能力和效率。
现有的方法在导航新环境方面取得了巨大进展，但在多步决策过程中，由于领域偏移和观察变化，VLN智能体的性能会受到显著影响。

研究难点

该问题的研究难点包括：

如何在多步决策中有效地利用历史信息，
如何在未见环境中进行有效的导航，
以及如何在保证效率的同时提高导航的准确性。

ESceme

问题表述

ESceme的目标是解决视觉-语言导航（VLN）中的问题，其中智能体需要根据自然语言指令在环境中导航。
给定一个指令和一个初始位置，智能体需要观察环境并选择合适的行动以达到目标。
ESceme通过引入场景记忆来增强智能体的导航能力。

场景记忆构建

初始化：场景记忆以空图的形式初始化，表示智能体从未访问过该场景。当智能体首次进入一个场景时，它会开始导航并逐步更新记忆。
$\mathcal{G}_{Y}^{(0)} = (\mathcal{V}_{Y}^{(0)} = \emptyset, \mathcal{E}_{Y}^{(0)} = \emptyset)$
其中 $\mathcal{V}_{Y}^{(0)}$ 和 $\mathcal{E}_{Y}^{(0)}$ 分别表示场景 $Y$ 的节点集合和边集合。
更新机制：在每个时间步，智能体会更新其场景记忆。如果智能体到达一个新的位置，它会在记忆图中添加这个位置及其邻居。节点特征是其邻居特征的池化结果，池化函数可以是最大池化或平均池化。
$m_{V_{1}} = \text{pooling}(f_{V_{1, i}})$
其中 $f_{V_{1, i}}$ 是第 $i$ 个邻居视点的特征， $m_{V_{1}}$ 是节点 $V_{1}$ 的特征。

场景记忆导航

候选增强（Candidate Enhancing, CE）：在每个决策步骤中，智能体会检索其当前位置的记忆表示，并将其与原始观察特征结合，以增强候选视点的表示。
$m_{k} = \left\{\begin{array}{ll}m_{V_{j}} & \text{if the } k\text{-th view is } V_{j}\in\mathcal{V}^{(t-1)}\\ 0 & \text{otherwise.}\end{array}\right.$
这里的 $m_{k}$ 是从记忆中检索的表示， $f_{k}$ 是原始观察特征。通过拼接和多层感知机（MLP）投影，生成增强的候选视点表示。
$o_{k} = \text{MLP}([\text{[}m_{k}; f_{k}\text{]}])$
其中 $[\cdot;\cdot]$ 表示特征维度的拼接。
输入到导航网络：增强的候选视点表示与历史特征和指令文本一起输入到交叉模态编码器中，以预测下一步的行动。智能体预测行动的概率分布如下：
$P\left(a_{t}=k\in\{1,\ldots, K, s\}\right)=\frac{e^{MLP\left(o_{k}^{\prime}\odot x_{cl s}^{\prime}\right)}}{\sum_{j\in\{1,\ldots, K, s\}} e^{MLP\left(o_{j}^{\prime}\odot x_{cl s}^{\prime}\right)}},$
其中 $\odot$ 表示向量逐元素乘法， $o_{k}^{\prime}$ 和 $x_{cls}^{\prime}$ 是编码后的特征。

训练目标

ESceme通过模仿学习和强化学习的混合目标进行端到端训练。目标是最大化模仿学习的目标概率和最小化强化学习的回报与状态值的差异。
$\mathcal{L}=-\alpha\sum_{t=1}^{T^{*}}\log P\left(a_{t}=a_{t}^{*}\right)-\sum_{t=1}^{T}\log P\left(\tilde{a}_{t}\right)\left(r_{t}-v_{t}\right),$
其中 $T^{*}$ 是标注路径的长度， $T$ 是预测路径的长度， $\tilde{a}_{t}$ 是采样的动作， $r_{t}$ 是折扣奖励， $v_{t}$ 是状态值。

实验

实验设置

数据集和指标

R2R数据集：用于评估短视距导航任务，包含7,189条直接到目标的轨迹。评估指标包括轨迹长度（TL）、导航误差（NE）、成功率（SR）和路径长度加权成功率（SPL）。
R4R数据集：用于评估长视距导航任务，通过连接R2R中的轨迹生成。评估指标包括NE、SR、SPL、覆盖率加权得分（CLS）、归一化动态时间规整（nDTW）和SDTW。
CVDN数据集：用于评估视觉-对话导航任务，要求智能体根据目标物体和对话历史进行导航。主要评估指标是目标进度（GP）。

实现细节

模型架构：默认采用Chen等人（2021b）的编码器。单视图特征使用Chen等人（2021b）发布的微调ViT-B/16提取。
训练参数：设置特征维度 $d = 768$ ，模仿学习损失比例 $\alpha=0.2$ ，训练迭代次数为100,000次，批量大小为8，学习率为1e-5。
硬件：所有实验在单个NVIDIA V100 GPU上进行。