当前位置：首页 > news >正文

RefFormer论文精读

news 来源：原创 2025/4/26 13:48:29

基本信息

标题：Referencing Where to Focus: Improving Visual Grounding with Referential Query
作者：Yabing Wang¹, Zhuotao Tian², Qingpei Guo³, Zheng Qin¹, Sanping Zhou¹, Ming Yang³, Le Wang¹*
机构：¹ 西安交通大学 ² 哈尔滨工业大学（深圳） ³ 蚂蚁集团
会议：NIPS2024
github地址：无

摘要部分

Visual Grounding（视觉定位）旨在根据给定的自然语言表达，在图像中定位所提及的对象。近年来，基于DETR的视觉定位方法因其无需依赖额外的努力（例如预先生成的候选区域或预定义的锚框）即可直接预测目标对象的坐标而受到了广泛关注。然而，现有研究主要集中于设计更强大的多模态解码器，这些解码器通常通过随机初始化或使用语言嵌入来生成可学习的查询（queries）。这种原始的查询生成方法不可避免地增加了模型的学习难度，因为它在解码开始时没有包含任何与目标相关的信息。此外，它们在查询学习过程中仅使用最深层的图像特征，忽略了其他层特征的重要性。
为了解决这些问题，我们提出了一种名为RefFormer的新方法。它包含一个查询适应模块，该模块可以无缝集成到CLIP中，并生成参照查询（referential query）以为解码器提供先验上下文，同时还有一个任务特定的解码器。通过将参照查询整合到解码器中，我们可以有效地降低解码器的学习难度，并准确地聚焦于目标对象。此外，我们提出的查询适应模块还可以充当适配器，在无需调整骨干网络参数的情况下保留CLIP中的丰富知识。大量的实验证明了我们提出方法的有效性和效率，在五个视觉定位基准测试上均优于最先进的方法。

提出的问题

The queries that are inputted to the decoder in these methods are typically generated through random initialization or by utilizing linguistic embeddings.（这些解码器通常通过随机初始化或使用语言嵌入来生成可学习的查询（queries））
这种与目标无关的查询不可避免地增加了解码器的学习难度。
在查询学习过程中，这些方法倾向于只关注骨干网络的最深层视觉特征，而忽略了对于定位任务至关重要且存在于低层和中层特征中的纹理信息。

动机和方案

我们能否为解码器生成与目标相关的参照查询（referential queries），以减轻解码器面临的学习难度？
我们如何有效地将多层视觉上下文信息融入查询学习过程？
考虑到 CLIP 携带着丰富的视觉-语言对齐知识，因此我们将其作为我们方法的骨干网络。
提出了一种名为 RefFormer 的新方法。我们的方法整合了一个查询适应（QA）模块，用于生成参照查询，它为解码器提供了与目标相关的上下文（如图 1 (b) 所示）
策略性地将 QA 模块插入到 CLIP 的不同层中，查询可以自适应地从多层图像特征图中学习目标相关信息，并逐层迭代地精炼所获取的信息。此外，我们提出的 RefFormer 还可以充当适配器（adapter），使得 CLIP 可以保持冻结（参数不更新，降低训练成本），并保留其原有的丰富知识。
它采用了双向交互机制，通过引入少量可训练的参数来执行多模态融合，并在整个特征提取过程中通过残差连接将新的任务特定知识注入到 CLIP 中。

特征提取部分

考虑到 CLIP 在视觉-语言对齐方面令人印象深刻的能力，我们将其作为我们方法的主干backbone，用于提取图像和文本表示，并在训练期间保持参数冻结。特征提取过程表示如下：

图片特征提取

图像编码器： 对于一个输入图像 $\in \mathbb{R}^{H \times W \times 3}$ ，它被分割成 $N$ 个不重叠的图像块（patch），每个块的大小为 $\times P$ ，其中 $N_v = \frac{H \times W}{P^2}$ 。接下来，这些图像块被展平（flattened）为一组向量，表示为 $\{x_v^i \in \mathbb{R}^{P^2 \cdot 3}\}_{i=1}^N$ 。然后，这些向量通过一个线性投影层 $\phi_e(\cdot)$ 变换为 token 嵌入（token embeddings）。此外，一个分类 token $x_{cls} \in \mathbb{R}^D$ 被添加到 token 嵌入的开头。随后，位置嵌入 $E^v$ 被加入，并应用层归一化（layer normalization, LN）。这个过程可以表示如下：

$Z_v^0 = LN([x_{cls}, \phi_e(X_v)] + E^v) \tag{1}$

其中 $[;]$ 表示连接（concatenate）操作。然后，token 序列 $Z_v^0$ 被输入到 $L$ 个 transformer 层。每个 transformer 层包含两个子模块：多头自注意力（multi-head self-attention, MHSA）和多层感知器（multilayer perceptron, MLP），每个子模块之前都进行了层归一化。

$\bar{Z}_v^i = MHSA(LN(Z_v^{i-1})) + Z_v^{i-1}, \quad i=1,...,L \tag{2}$
$Z_v^i = MLP(LN(\bar{Z}_v^i)) + \bar{Z}_v^i \tag{3}$

其中 $Z_v^i \in \mathbb{R}^{N \times D}$ 表示第 $i$ 个 transformer 层的输出。

文本特征提取

文本编码器： 给定一个指代表达 $T_t$ ，它首先使用小写字节对编码（lower-cased byte pair encoding）表示 $X_t$ 转换为一系列词嵌入（word embeddings）。词嵌入会用 [SOS] 和 [EOS] token 包围起来，生成一个长度为 $N_t$ 的序列。与图像编码器类似，这些 token 会与位置嵌入 $E_t$ 相加，并通过 $L$ 个 transformer 层来提取文本表示：

$\bar{Z}_t^i = MHSA(LN(Z_t^{i-1})) + Z_t^{i-1}, \quad i=1,...,L \tag{4}$
$Z_t^i = MLP(LN(\bar{Z}_t^i)) + \bar{Z}_t^i \tag{5}$

其中 $Z_t^0 = [x_{sos}; X_t; x_{eos}] + E_t$ ，表示文本编码器中的词嵌入层。

方法部分

Query Adaptation Module 查询自适应模块 (QA)

QA 模块：（如图 3 所示），该模块可以生成参照查询，为解码器提供与目标相关的上下文，从而增强解码器的 grounding 能力。重要的是，我们的方法将多级特征整合到查询学习过程中，使查询能够捕获更全面的目标对象信息，并可以逐层细化。此外，QA 还可以作为适配器，无需对整个骨干网络的参数进行微调。

降维投影：考虑到从骨干网络的第 $i$ 层获得的图像和语言表示 $Z_v^i$ 和 $Z_t^i$ ，我们首先使用 MLP 层 $\phi_{vd}^i(\cdot)$ 和 $\phi_{td}^i(\cdot)$ 将它们投影到较低维度的特征，以减少计算内存：
$F_v^i = \phi_{vd}^i(Z_v^i), \quad F_t^i = \phi_{td}^i(Z_t^i) \tag{6}$

条件聚合和多模态融合 (CAMF)： 我们随机初始化 $N_q$ 个可学习查询 $\in \mathbb{R}^{N_q \times D_l}$ ，其中 $D_l$ 表示投影后的维度。这些查询经过专门设计，用于捕获潜在目标对象的上下文。接下来，我们将这些查询与图像特征连接起来，并将它们连同语言特征一起输入到 CAMF 块中。具体来说，CAMF 块主要由一个交叉注意力层组成，该层分别以图像和查询特征 $Q; F_v]$ 和语言特征 $F_t$ 作为查询和键/值。这种方法不仅使我们能够将表达条件融入可学习查询 $Q$ ，还可以从其他模态中提取相关信息，从而促进目标相关跨模态特征的融合。此外，我们引入了两个可学习的调节 token $r_v, r_t \in \mathbb{R}^{D_l}$ 来调节每个 QA 的最终输出。这个过程可以形式化如下：

$\bar{r}_v, \bar{Q}_c^i, \bar{F}_v^i = \text{MHCA}([[r_v; Q; F_v]], F_t^i, F_t^i) \tag{7}$

$\hat{Q}_c^i = \text{LN}(\bar{Q}_c^i) + Q^{i-1}, \quad \hat{F}_v^i = \text{LN}(\bar{F}_v^i) + F_v^i \tag{8}$

$\bar{r}_t, \bar{F}_t^i = \text{MHCA}([[r_t; F_t]], F_v^i, F_v^i), \quad \hat{F}_t^i = \text{LN}(\bar{F}_t^i) + F_t^i \tag{9}$

其中 $Q^{i-1}$ 表示从前一个 QA 输出的可学习查询，而 $Q^0$ 是随机初始化的。符号 $[;]$ 表示连接concat操作，而 $\text{MHCA}(\cdot, \cdot, \cdot)$ 和 $\text{LN}(\cdot)$ 分别表示多头交叉注意力层和层归一化。

目标相关上下文细化 (TR)： 接下来，我们将查询 $\hat{Q}_c$ 和多模态增强特征图 $\hat{F}_v^i$ 和 $\hat{F}_t^i$ 输入到 TR 块中。首先，我们使用聚合了条件的查询 $\hat{Q}_c$ 与多模态增强图像特征图 $\hat{F}_v^i$ 进行交互，以细化其中的目标相关视觉上下文。
$Q_v^i = \text{MHCA}(\hat{Q}_c^i, \hat{F}_v^i, \hat{F}_v^i), \quad Q^i = \text{LN}(\text{MLP}(Q_v^i)) + \hat{Q}_c^i \tag{10}$

此外，对于聚合了其他模态信息的特征图 $\hat{F}_v^i$ 和 $\hat{F}_t^i$ ，我们使用自注意力进一步增强它们的目标相关上下文语义：
$\bar{r}_v, \tilde{F}_v^i = \text{MHSA}([\bar{r}_v; \hat{F}_v], \hat{F}_v^i, \hat{F}_v^i), \quad G_v^i = \text{LN}(\text{MLP}(\tilde{F}_v^i)) + \hat{F}_v^i \tag{11}$

$\bar{r}_t, \tilde{F}_t^i = \text{MHSA}([\bar{r}_t; \hat{F}_t], \hat{F}_t^i, \hat{F}_t^i), \quad G_t^i = \text{LN}(\text{MLP}(\tilde{F}_t^i)) + \hat{F}_t^i \tag{12}$

上采样投影： 最后，我们利用 MLP 将图像和语言特征的通道维度恢复到其原始大小。然后，这些特征以残差方式作为输入传递给骨干网络的下一层。在此之前，我们利用调节 token 来调节特征 $G_v$ 和 $G_t$ ，这有助于防止多模态信号 overpowering 原始信号。

$\hat{Z}_v^i = \phi_{vu}^i (G_v^i \times \sigma(\tilde{r}_v)) + Z_v^i, \hat{Z}_t^i = \phi_{tu}^i (G_t^i \times \sigma(\tilde{r}_t)) + Z_t^i \tag{13}$

其中 $\phi_{vu}^i (\cdot)$ 和 $\phi_{tu}^i (\cdot)$ 表示 MLP 层，而 $\sigma (\cdot)$ 表示 sigmoid 函数。

最后，通过迭代执行上述过程，查询 $Q$ 可以逐步聚焦于目标相关上下文，并生成参照查询，为解码器提供先验上下文。

上采样投影这一步是把之前经过处理（融合了图像和语言信息）的特征，通过一种叫做 MLP（多层感知机，可以简单理解为一个小型神经网络）的方式，把它们的维度或大小恢复到和原始特征一样的水平。
然后，这些恢复后的特征并不会直接替换掉原始特征，而是以一种叫做“残差连接”的方式加回到骨干网络（主网络）的对应层中。这就像是把处理过的信息作为一种“补充”或“调整”加到原始信息上，保留了原始信息的底子。
关键点是“调节 token”： 在把处理过的特征加回原始特征之前，会用一个叫做“调节 token”的东西去调整（modulate）这些处理过的特征 ( $G_v$ 和 $G_t$ )。
为什么需要这个调节 token？ 这是为了控制经过多模态融合后的信息对原始信息的影响程度。有时候，多模态信息可能会太“强”，直接加回去会压制或破坏原始的图像/语言信息。调节 token 就像一个“门控”或“权重”，它可以学习如何适当地调整多模态信号的强度，确保它能有效地融入原始信号，而不是完全取代或干扰原始信号。这样可以更好地平衡不同来源的信息。
总的来说：这一步就是将融合了多模态信息的特征，通过维度恢复和残差连接的方式加回主网络，并且利用调节 token 来精细控制这种融合的强度，以达到更好的效果。

Decoding with Referential Query 使用参照查询进行解码

语言引导的多级融合： 通过在 CLIP 的不同层插入 QA 模块，可以使用多级图像特征图自适应地更新参照查询。此外，为了增强解码器中的图像特征，我们在语言引导下聚合多级视觉特征，以获得语言感知的多级图像特征。具体来说，给定一个多级图像特征集 $\{ \hat{Z}_v^k \}$ (包括低、中和高层)，其中 $\in \mathcal{K}$ 表示选定的层索引，我们使用 MHCA 将语言特征 $Z_t^{last}$ (文本编码器的最终输出) 注入到每个级别的图像特征中：
$H_{sos} = \phi_{mt}(Z_t^{last}), \quad H_v^k = \phi_{mv}(\hat{Z}_v^k) \tag{14}$

$\hat{H}_v^k = \text{MHCA}(H_v^k, H_{sos}, H_{sos}) + H_v^k, \quad k \in \mathcal{K} \tag{15}$

其中 $\phi_{mt}(\cdot)$ 和 $\phi_{mv}(\cdot)$ 表示用于将特征映射到相同维度的线性投影函数。此外， $H_{sos}$ 表示 $H_t$ 中的 [SOS] token，它提取文本的全局信息。随后，通过简单的连接concat生成多级语言感知图像特征，然后通过线性投影函数 $\phi_{vml}(\cdot)$ 映射到原始维度：
$\bar{H}_{vml} = \text{Concat}(\{ \hat{H}_v^k \}), \quad k \in \mathcal{K} \tag{16}$

$H_{vml} = \phi_{vml}(\bar{H}_{vml}) \tag{17}$

解码： 接下来，我们首先初始化与参照查询 Q 大小相同的查询 Q’，并将它们相加以利用 Q 中的先验上下文。请注意，为了避免在初始阶段来自 Q’ 的干扰，我们将 Q’ 初始化为一个全零矩阵。然后，我们将查询与图像特征连接起来，与语言特征进行交互，以聚合条件信息并生成多模态特征图 $H_{mm}$ 。这可以表示为：
$\bar{O}_c, \bar{H}_{mm} = \text{MHCA}([\phi_q(Q) + Q'; H_{vml}], H_t, H_t) \tag{18}$

$O_c = \text{LN}(\bar{O}_c) + \bar{O}_c, \quad H_{mm} = \text{LN}(\bar{H}_{mm}) + \bar{H}_{mm} \tag{19}$

其中 $\phi_q(\cdot)$ 是 MLP 层，用于调节查询 Q 的重要性。当重要性趋近于零时，查询退化为普通查询。然后，我们将查询 $O_c$ 和多模态特征图 $H_{mm}$ 输入到 MHCA 层中，以提取目标嵌入 $\in \mathbb{R}^{N_q \times D}$ 。这可以表示为：
$\bar{O} = \text{MHCA}(O_c, H_{mm}, H_{mm}) \tag{20}$

$\text{LN}(\phi_r(\bar{O})) + \bar{O} \tag{21}$

其中 $\phi_r(\cdot)$ 表示线性投影函数。

Grounding Head： 我们在目标嵌入 $O$ 之上构建了两个 MLP ( $\phi_{box}(\cdot)$ 和 $\phi_{cls}(\cdot)$ )。最终输出包括目标对象的预测中心坐标，表示为 $\in \mathbb{R}^4$ ，以及包含目标对象的预测置信度分数 $\in \mathbb{R}^2$ ：

$\phi_{box}(O), y = \phi_{cls}(O)\tag{22}$

训练目标

与 DETR 类似，我们采用二分匹配来找到预测 ${b, y\}$ 与地面真实目标 ${b_{tgt}, y_{tgt}\}$ 之间的最佳匹配。在我们的例子中，类别预测是包含目标对象的查询的置信度预测。为了监督训练，我们使用框预测损失 (L1 和 GIoU) 以及匹配后的交叉熵损失。

$\mathcal{L}_{det} = \lambda_{iou} \mathcal{L}_{iou}(b_{gt}, b) + \lambda_{L1} ||b_{gt} - b|| + \lambda_{ce} \mathcal{L}_{ce}(y_{gt}, y)\tag{23}$

其中 $\lambda$ 表示相应的损失权重。此外，为了鼓励每个 QA 模块中的参照查询有效地聚焦于目标相关上下文，我们还引入了类似于上述目标函数的辅助损失 $\mathcal{L}_{aux}$ 来对其进行监督。最终的训练目标可以定义为：

$\mathcal{L}_{final} = \mathcal{L}_{det} + \lambda_{aux} \mathcal{L}_{aux}\tag{24}$

其中 $\lambda_{aux}$ 表示辅助损失的权重。

${b, y\}$ ：模型的预测

$b$ : 这是模型“预测”出来的边界框 (bounding box)。所以 $\in \mathbb{R}^4$ 表示这是一个四维向量。模型会预测出多个这样的边界框，因为在“解码”部分，模型会根据多个查询 (Queries) 生成多个潜在的目标位置预测。
$y$ : 这是模型对这个预测框的置信度 (confidence score)。这里的 $y$ 是一个关于“这个查询（以及它对应的预测框）是否包含目标物体”的置信度预测。它表示模型有多确定这个框里确实是语言描述的目标物体。 $\in \mathbb{R}^2$ 可能表示一个二分类的输出，比如一个数值表示是目标物体的概率，另一个表示不是的概率。
所以， ${b, y\}$ 就代表了模型做出的一组预测：一个边界框和它对应的置信度。因为模型会预测多个潜在目标，所以实际上模型会输出多组 ${b, y\}$ 。

二分匹配 (Bipartite Matching)

模型一次会输出多个预测框 $\{b_1, y_1\}, \{b_2, y_2\}, \dots, \{b_N, y_N\}$ (其中 $N$ 是模型预测框的数量)。但图片中只有一个真实的目标框 $b_{tgt}$ 。怎么知道哪个预测框对应的是这个真实目标呢？
二分匹配就是用来解决这个问题的。它会找到一个最佳的匹配方式，将模型的预测框与真实的目标框（或“无目标”这个类别）一一对应起来。这样，我们才能知道应该用哪个预测框 $b$ 和哪个预测置信度 $y$ 去和真实的 $b_{tgt}$ 和 $y_{tgt}$ 计算损失。

主要损失 $\mathcal{L}_{det}$ ：检测损失

这是用来衡量模型最终预测（也就是 Grounding Head 输出的 ${b, y\}$ ）与地面真实目标 ${b_{tgt}, y_{tgt}\}$ 之间的差异。它由三部分组成：
$\mathcal{L}_{iou}(b_{gt}, b)$ ：GIoU 损失。衡量预测框 $b$ 和真实框 $b_{gt}$ 的重叠程度和相对位置。越接近，损失越小。这有助于模型预测出更准确的框的位置和形状。
$b_{gt} - b||_{L1}$ ：L1 损失。直接计算预测框坐标和真实框坐标之间的绝对差值之和。也是用来惩罚框位置和大小的偏差。
$\mathcal{L}_{ce}(y_{gt}, y)$ ：交叉熵损失。衡量预测置信度 $y$ 和真实置信度 $y_{tgt}$ 之间的差异。如果模型预测的置信度与真实情况（比如，被匹配到真实目标时预测高分，未匹配到时预测低分）相符，损失就小。

公式中的 $\lambda_{iou}, \lambda_{L1}, \lambda_{ce}$ 是权重，用来调整这三部分损失在总损失中的重要性。

辅助损失 $\mathcal{L}_{aux}$

作用： 主要损失 $\mathcal{L}_{det}$ 只监督模型最后的输出。但这个模型有很多中间层（特别是 QA 模块），这些中间层也在处理信息并生成查询。辅助损失的作用就是给这些中间层的输出也提供监督信号。
为什么需要辅助损失？ 如果只看最终结果，中间层可能会学到一些对最终预测没有直接贡献，甚至是有害的东西。通过在中间层也计算一个损失，并让它向着正确方向优化，可以确保模型从早期阶段就开始学习聚焦于目标相关的上下文，使得整个模型的训练过程更稳定、更有效，并可能提升最终性能。
具体内容： 论文中提到 $\mathcal{L}_{aux}$ “类似于上述目标函数”，这意味着可能在每个 QA 模块的输出（或者某种基于 QA 输出的预测）上，也计算一个类似于 $\mathcal{L}_{det}$ 的损失，比如预测一个临时的框和置信度，并与地面真实目标进行比较。这强制要求每个 QA 层产生的查询都能更好地指向目标物体。
$\lambda_{aux}$ ：辅助损失的权重，用来平衡它与主要损失的重要性。

扩展到密集 Grounding

除了对象级别的 Grounding，我们的方法可以通过加入一个分割头轻松扩展到密集 Grounding 任务。具体来说，类似于 MaskFormer，我们利用 MLP 将目标嵌入 $O$ 转换为掩码嵌入 $\in \mathbb{R}^{N_q \times D}$ 。二值掩码预测 $\in [0, 1]^{H \times W}$ 然后通过掩码嵌入 $M$ 和多模态特征图 $H_{mm}$ 之间的点积计算得到，接着是一个 sigmoid 激活。在训练过程中，我们使用掩码预测损失 (Focal loss 和 Dice loss)，其定义如下：

$\mathcal{L}_{seg} = \lambda_{focal} \mathcal{L}_{focal}(s_{gt}, s) + \lambda_{dice} \mathcal{L}_{dice}(s_{gt}, s) \tag{25}$

其中 $s_{gt}$ 表示地面真实掩码。

“密集 Grounding”（Dense Grounding）是一个更精细的任务。它的目标不仅仅是用一个框把目标物体围起来，而是要预测出一个像素级别的掩码（segmentation mask）。这个掩码就像是把目标物体的精确轮廓勾勒出来，指出图片中的每一个像素点是属于目标物体还是背景。

增加“分割头”（Segmentation Head）： 原来的模型有一个“Grounding Head”，用来预测边界框 $b$ 和置信度 $y$ 。现在为了做分割，模型在 Grounding Head 的位置又增加了一个专门负责预测分割掩码的模块，就叫做“分割头”。
利用“目标嵌入 $O$ ”： 之前的步骤中，模型通过一系列计算，最后得到了“目标嵌入” $O$ 。这些 $O$ 是模型对目标物体的高度抽象表示，包含了它认为目标物体可能在哪里、长什么样等信息。现在，这个新的分割头就利用了这些已经学到的目标嵌入 $O$ 作为输入。
将 $O$ 转换为“掩码嵌入” $M$ ： 分割头里的第一步是使用一个 MLP将目标嵌入 $O$ 转换成“掩码嵌入” $M$ 。这是一个专门为生成掩码而准备的特征表示。虽然 $O$ 包含了目标信息，但 $M$ 是把这些信息调整和组织成最适合用来预测像素级别掩码的形式。
计算掩码预测 $s$ ： 这是核心步骤。模型通过计算掩码嵌入 $M$ 和之前生成的多模态特征图 $H_{mm}$ 之间的点积（dot product）来得到像素级别的预测 $s$ 。
- 多模态特征图 $H_{mm}$ ： 这个 $H_{mm}$ 是融合了图像信息和语言信息的特征图，它保留了图像的空间结构（特征的位置对应图片中的位置）。
- 点积的意义： 点积可以看作是一种相似度计算。模型对每个潜在的目标（对应一个掩码嵌入 $M$ ），会拿着这个 $M$ 和 $H_{mm}$ 中的每一个像素位置对应的特征计算点积。如果某个像素位置的特征与这个目标对应的掩码嵌入 $M$ “很相似”，点积的值就会比较高，说明这个像素很可能属于这个目标物体。反之则点积值低。
- Sigmoid 激活： 点积计算出来的原始值可能很大或很小，通过 sigmoid 函数将其压缩到 [0, 1] 的范围内。这样，每个像素位置的输出值就表示该像素属于目标物体的概率。这就是最终的二值掩码预测 $s$ ，它的尺寸和原始图像（或某个尺度的特征图）相同（ $\times W$ ），每个位置的值代表属于目标的概率。
训练时的损失函数 $\mathcal{L}_{seg}$ ： 既然现在预测的是像素掩码，训练时用来衡量好坏的标准也不同了。不再使用边界框损失，而是使用专门用于分割任务的损失函数。
- 真实掩码 $s_{gt}$ ： 这是数据集中为密集 Grounding 任务提供的真实标注，是一个像素级别的图，准确地标出了目标物体的每一个像素。
- 掩码预测损失 $\mathcal{L}_{seg}$ ： 包括两种常用的分割损失：
  - Focal Loss ( $\mathcal{L}_{focal}$ ): 这种损失函数特别适合处理像素类别不平衡的问题（比如图像中背景像素远多于目标物体像素）。它可以让模型更关注那些难以区分的像素。
  - Dice Loss ( $\mathcal{L}_{dice}$ ): 这种损失函数衡量预测掩码 $s$ 和真实掩码 $s_{gt}$ 之间的重叠程度。重叠得越多，损失越小。
- 总的掩码预测损失 $\mathcal{L}_{seg}$ 是这两种损失的加权求和 ( $\lambda_{focal}, \lambda_{dice}$ 是权重)。训练时，模型会尝试最小化这个 $\mathcal{L}_{seg}$ ，以便预测的掩码 $s$ 尽可能接近真实的 $s_{gt}$ 。

总结一下： 扩展到密集 Grounding 并不是重新设计一个模型，而是在原来模型的基础上，利用它已经学到的目标特征 $O$ 和多模态融合特征 $H_{mm}$ ，增加一个专门的分割头。这个分割头通过 MLP 将 $O$ 变成掩码嵌入 $M$ ，然后用 $M$ 和 $H_{mm}$ 计算点积来预测像素级别的掩码。同时，训练时改用或增加专门的分割损失来指导模型学习预测准确的像素掩码。本质上，它是复用了模型前面学习到的理解图像和语言的能力，并在这个基础上，通过一个额外的模块和相应的损失函数，将其应用于更精细的像素级别预测任务。

讨论

如图 5 所示，QA 模块中的注意力图展示了参照查询如何捕获目标相关上下文的细化过程。最初，注意力图看起来比较嘈杂，但逐渐聚焦于目标相关上下文，例如图 (a) 中的沙发。通过引入参照查询，解码器中的注意力图准确地集中在目标对象上。此外，需要注意的是，由于 QA 模块中的特征维度较低，参照查询可能不会精确地聚焦在目标对象上，但它仍然捕获了目标相关信息。

在这项工作中，我们的目标是探索如何进一步优化查询的学习过程。为了减少由普通查询带来的学习困难，我们引入了一个简单的查询自适应模块，以自适应地捕获目标相关上下文并迭代地对其进行细化。如图 5 所示，每个查询自适应模块产生的注意力图与我们的目标一致：逐步聚焦于目标相关上下文，并为解码器提供先验上下文。值得注意的是，虽然“多级”、“适配器”和“自注意力”可能在其他研究领域得到广泛应用，但我们的方法旨在整合它们来解决视觉 Grounding 任务中的挑战，而不是设计一个特定的模块来单独实现上述功能。

实验部分

数据集和评估指标

RefCOCO/RefCOCO+/RefCOCOg： RefCOCO [53] 包含 19,994 张图片，其中有 50,000 个参照对象，分为训练集、验证集、testA 集和 testB 集。类似地，RefCOCO+ [53] 包含 19,992 张图片，其中有 49,856 个参照对象和 141,564 个参照表达。与 RefCOCO 相比，它包含更多属性而非绝对位置，并且具有相同的划分。RefCOCOg [31] 包含 25,799 张图片，其中有 49,856 个参照对象和表达。遵循一种常见的划分版本 [32]，即训练集、验证集和测试集。

Flickr30k： Flickr30k Entities [33] 包含 31,783 张图片和 158k 个带有 427k 标注短语的字幕。我们按照 [7] 的方法将图片分为 29,783 张用于训练，1000 张用于验证，1000 张用于测试，并在测试集上报告性能。

ReferItGame： ReferItGame [18] 包含 20,000 张图片，其中有 120,072 个参照表达，对应 19,987 个参照对象。我们按照 [7] 的方法将数据集分为训练集、验证集和测试集，并在测试集上报告性能。

评估指标： 对于参照表达理解 (REC)，我们使用 Prec@0.5 评估协议来评估准确率，这与之前的工作一致。在这种评估中，如果预测的边界框与其地面真实边界框的 Intersection-over-Union (IoU) 大于 0.5，则认为该预测是正确的。对于参照表达分割 (RES)，我们报告预测的分割掩码和地面真实掩码之间的 Mean IoU (MIoU)。

实现设置细节

根据 Transvg(2021年)和Dynamic mdetr(2023年)，输入图像的分辨率被调整为 640 × 640。我们使用预训练的 CLIP 作为骨干网络来提取图像和语言特征，并在训练期间冻结其参数。模型使用 AdamW 优化器进行端到端优化，训练 40 个 epoch，批大小为 32。我们将学习率设置为 1e-4，权重衰减设置为 1e-2。实验在 V100 GPU 上进行。损失权重 $\lambda_{iou}$ 、 $\lambda_{L1}$ 、 $\lambda_{ce}$ 和 $\lambda_{aux}$ 分别设置为 3.0、1.0、1.0 和 0.1。对于密集 Grounding，我们将参数 $\lambda_{focal}$ 和 $\lambda_{dice}$ 分别设置为 5.0 和 1.0。

主实验结果

table1
table2

消融实验结果

在 RefCOCOg 数据集上进行消融研究，以验证我们提出的方法中每个部分的有效性。
在这里插入图片描述

QA 位置的影响： 如表 5 所示，首先，我们可以观察到移除 QA 会导致性能急剧下降，这表明了 QA 的有效性。然后我们探索了 QA 在 CLIP 中不同位置的影响，以确定 QA 应该放置在哪里进行消融研究：{4, 8, 12} 和 {4, 6, 8, 10, 12}，以及 {2, 4, 6, 8, 10, 12}。结果表明，当我们使用 {4, 6, 8, 10, 12} 配置时性能最佳。因此，我们在实验中默认使用此位置。
多级融合层的影响： 在表 4 中，我们分析了融合层在解码器中的影响。我们首先进行了只使用单级图像特征的实验，然后进行多级特征的实验。结果表明，利用多级特征显著提高了性能，这表明低级和中级特征对高级特征形成了补充。此外，使用 {4, 8, 12} 实现了最佳性能，这也是我们在实验中采用的配置。
辅助损失的影响： 在表 6 的第二行，我们通过有无辅助损失进行实验，结果证明了辅助损失的有效性。通过使用辅助损失，参照查询可以更有效地捕获目标相关的视觉上下文。
可学习查询的影响： 在表 6 的第三行，我们验证了可学习查询的有效性。我们用 QA 模块生成的随机初始化查询或自然语言embedding替换了可学习查询，同时保持其他模块不变。我们可以观察到引入先验查询带来了显著的性能提升。这一结果表明，先验查询有助于解码器更准确地定位目标对象。此外，我们研究了参照查询的准确性，它们旨在为解码器提供先验信息。由于 QA 模块的通道维度较低，参照查询可能无法准确预测目标的坐标。

在这里插入图片描述

收敛曲线： 图 4 展示了我们提出的方法与开源 DETR 类视觉 Grounding 方法的收敛曲线。值得注意的是，我们的方法展示了加速的训练收敛速度，将训练时间缩短了一半，同时性能也优于其他现有方法。
RefFormer 方向的影响： 在 RefFormer 中，QA 模块可以作为适配器，将特定知识注入到冻结的 CLIP 模型中。在表 7 中，我们研究了 QA 模块的特征流方向。我们发现使用双向方法可以实现最佳性能。通过 QA 模块，语言特征逐步聚合相关的视觉上下文信息。正如 CARIS: Context-aware referring image segmentation 所指出的，将丰富的视觉上下文整合到语言特征中有助于实现强大的视觉-语言对齐，并更好地指示目标对象。
可学习查询数量的影响： 我们在图 6 中展示了根据可学习查询数量 $N_q$ 的 Prec@0.5 性能。当我们采用 $N_q = 3$ 时，性能最佳。然而，进一步增加只会使指标略有改善，因为大量的 $N_q$ 增加了模型的难度。因此，我们在实验中默认将 $N_q = 3$ 。

在这里插入图片描述

可视化实验

由于篇幅限制，我们在此展示额外的可视化结果。如图 7 所示，参照查询逐渐聚焦于目标对象，并有效地为解码器提供了目标相关的上下文。这些结果证明了我们提出方法的有效性。
在这里插入图片描述

总结

总结与讨论

本文提出了一种新颖的方法，称为 RefFormer，它可以无缝地集成到 CLIP 中。RefFormer 不仅可以生成参照查询，为解码器提供与目标相关的上下文，还可以作为适配器，保留 CLIP 的原始知识并降低训练成本。大量的实验证明了我们方法的有效性，可视化结果展示了我们提出的 RefFormer 的细化过程。

局限性： 尽管我们的方法是专门为 REC 任务设计的，并在 REC 中超越了现有的 SOTA（State-Of-The-Art，最新水平）方法，但在 RES 任务方面仍有很大的改进空间。这是因为我们尚未针对 RES 任务对我们的方法进行专门优化。

其他知识附录

附1：在预定义锚框上使用滑动窗口进行密集预测

在一张照片里找到所有的猫。你并不知道猫可能在哪里，也不知道猫是大是小，是躺着（长宽比大）还是蹲着（长宽比接近1:1）。

传统两阶段目标检测框架通常包括候选区域生成阶段（Region Proposal Stage）和目标分类与定位阶段（Detection Stage）。在第一阶段，模型使用如选择性搜索（Selective Search）或区域建议网络（Region Proposal Network, RPN）等方法，从整幅图像中快速生成一组具有较高目标可能性的候选区域（Region Proposals）（即坐标、置信度分数（objectness score）：表示该区域包含某种目标的可能性；锚框（anchor boxes）索引：表示该候选框是从哪个预设锚框偏移出来的）），这些区域可能包含目标物体的轮廓或结构特征。在第二阶段，检测器对这些候选区域进行进一步的特征提取与分类，同时回归出更精确的目标边界框，从而实现目标的最终识别与定位。

“单阶段 + 锚框 + 滑动窗口 + 密集预测”的方法：

与两阶段方法不同，检测器只经过一次前向传播，直接输出最终结果（边界框 + 类别），无需候选区域生成。

每个特定位置预设多个不同尺寸与长宽比的框，称为锚框（anchors）或默认框（default boxes），模型需要为每个锚框预测：

是否包含目标（分类分支）
如果有，目标类别是什么
该锚框需要偏移多少才能拟合真实目标（回归分支）
类似于每个锚框都问：“如果我这里有个物体，我该变成什么形状、属于哪一类？”

预定义锚框 (Pre-defined Anchor Boxes)：
- 不同大小和形状的矩形框（比如一个小的正方形模板，一个大的正方形模板，一个高的长方形模板，一个宽的长方形模板等等）。
- 在开始找猫之前，你先把这些模板密密麻麻地铺满整张照片。你可以在照片上每隔一定的距离（比如每10个像素）就放一套这样的模板。所以整张照片上会有非常多非常多的、各种大小和形状的模板框。这些就是“预定义锚框”。因为对象的大小和形状变化很大，提前准备好各种可能的尺寸和比例，是为了能“套住”各种不同的对象。
滑动窗口 (Sliding Window)：
- 虽然实现上是卷积网络全图处理，但本质上可以看作在特征图上以滑动窗口的方式遍历每个位置，并在这些位置做预测：
- 每个位置相当于一个小区域（感受野）在“观察图像”
- 每个区域对应多个锚框，每个锚框输出一组预测
密集预测 (Dense Predictions)：
- 当这个“滑动窗口”或者说网络的处理区域移动到图片上的某个位置时，它会同时检查覆盖在这个位置上的所有预定义锚框。
- 对于这个位置上的每一个预定义锚框，网络都会进行预测：
  - 预测 1： 这个锚框里有没有我们要找的对象（比如猫）？如果有，它是猫的概率有多大？
  - 预测 2： 如果里面有猫，这个锚框的位置和大小需要调整多少，才能更精确地框住这只猫？
- 因为这个检查和预测过程发生在图片上所有被锚框覆盖的位置，并且在每个位置都要检查所有预设的锚框，所以产生的预测结果数量非常庞大，几乎覆盖了图片上的每一个角落和各种可能的形状。这就是“密集预测”。典型的做法是在不同层级的特征图上进行预测（多尺度特征融合，如 FPN）。换句话说，相比于“精挑细选”候选框，两阶段方法的“少量精看”，单阶段是“眼睛到处看，每个地方都问一句”。

做什么？ 就是在图片上密密麻麻地放一堆各种大小形状的模板（锚框），然后网络系统地（通过滑动窗口的方式）检查图片上的每一个地方，对于每个地方的每一个模板，都预测一下“这里有没有猫，这个模板需要怎么改才能准确框住猫”。
为什么要这么做？
- 系统地搜索： 这种方法的好处在于它非常系统和全面。通过预设各种尺寸和比例的锚框并检查图片上的每一个位置，它几乎穷尽了对象可能出现的所有位置和大小的可能性。
- 单阶段： 相比于需要先找候选区域的两阶段方法，这种方法将“找可能区域”和“判断是不是对象并精修”合并成了一个步骤，通常可以更快一些，流程也更简单。

特性	两阶段（Faster R-CNN）	单阶段（YOLO/SSD）
检测速度	慢（多阶段）	快（端到端）
检测精度	高（尤其是小目标）	相对略低
推理复杂度	高	低
工程部署	相对复杂	更轻量、适合实时场景

局限性：
这种方法有个缺点：它主要是在处理局部信息（看每个小窗口里的锚框），很难有效地理解对象之间的关系（比如猫和椅子是“坐”的关系，两只猫是“挨着”的关系），或者对象与大背景的联系。在视觉定位任务中，语言描述常常包含这些复杂的对象关系，如果方法不能理解这些关系，就很难准确地找到指定的对象，所以性能会受到影响，被称为“次优”。而像 DETR 那样不依赖锚框，使用全局注意力机制的方法，就更容易捕捉到这些复杂的关系。

附2：注意力池化（Attention Pooling）

注意力池化就像一个“智能”的筛选器，它会“阅读”序列中的所有向量，然后根据每个向量的内容判断它的重要性，最后把它们“混合”起来，但重要的向量在混合中占的比例更高。

注意力池化是一种加权平均的方法，用来将一个包含多个向量的序列（比如语言编码器输出的每一个词元的上下文嵌入向量序列）压缩成一个单一的固定长度向量。它的核心思想是：不是简单地平均所有向量，而是学习给序列中不同的向量分配不同的重要性权重，然后根据这些权重进行加权求和。

为什么需要它？

当你有一系列向量（比如，句子中每个词经过编码后的向量），你想用一个单一的向量来代表整个序列的意义。简单的做法可以是取平均值或最大值（这就是前面提到的平均池化和最大池化）。但这样做的缺点是，它们对序列中的所有元素一视同仁（平均池化）或者只关注最突出的元素（最大池化），无法灵活地根据上下文或任务需求来动态地决定哪些元素更重要。

注意力池化解决了这个问题，它让模型自己学习去“注意”序列中哪些部分更关键，从而在生成最终表示时给予这些关键部分更高的权重。

具体是如何做的？

假设我们有一个由 $n$ 个向量组成的输入序列 $H = [h_1, h_2, ..., h_n]$ ，其中 $h_i$ 是序列中第 $i$ 个元素的向量表示（比如第 $i$ 个词的上下文嵌入）。注意力池化生成一个输出向量 $O$ 的过程如下：

计算每个向量的“得分” (Scoring):
- 对于序列中的每一个向量 $h_i$ ，通过一个小型的神经网络层（通常是一个全连接层）计算出一个标量值 $s_i$ 。这个 $s_i$ 可以被看作是 $h_i$ 对于最终表示的原始重要性得分。
- 这个计算过程可以简单表示为： $s_i = \text{score}(h_i)$ 。 $\text{score}$ 函数通常包含一些可学习的权重和偏置。一个常见的形式是先进行线性变换和非线性激活，再映射到单个得分： $s_i = v^T \text{tanh}(W h_i + b)$ ，其中 $W, b, v$ 都是模型需要学习的参数。
将得分转换为“注意力权重” (Normalizing Scores into Attention Weights):
- 原始得分 $s_1, s_2, ..., s_n$ 的值范围是不定的，也不能直接作为权重。我们需要将它们转换成一组正数，并且这些正数加起来等于 1。
- 这通常通过 Softmax 函数来实现。Softmax 函数会将所有得分进行指数化，然后除以它们的总和，得到每个向量的注意力权重 $\alpha_i$ ：
  $\alpha_i = \frac{\exp(s_i)}{\sum_{j=1}^{n} \exp(s_j)}$
- 这样得到的 $\alpha_i$ 就是归一化后的注意力权重。 $\alpha_i$ 值越大，说明对应的向量 $h_i$ 越重要。
进行加权求和 (Weighted Sum):
- 最后，用计算出的注意力权重 $\alpha_i$ 对原始输入向量 $h_i$ 进行加权求和，得到最终的输出向量 $O$ ：
  $\sum_{i=1}^{n} \alpha_i h_i$
- 这个输出向量 $O$ 就是通过注意力机制从整个序列中提取出的固定长度的表示，它倾向于包含那些被赋予更高注意力权重的向量的信息。