CONDA:用于 Co-Salient 目标检测的压缩深度关联学习(翻译)
摘要
图像间关联建模对于共同显著目标检测至关重要。尽管先前的方法性能不错,但在充分的图像间关联建模方面仍存在局限。因为大多数方法都聚焦于在通过启发式计算得到的原始图像间关联的引导下进行图像特征优化。它们直接依赖原始关联,而这些原始关联在复杂场景中并不可靠,并且其图像特征优化方法对于图像间关联建模来说并不明确。 为了缓解这些局限,本文提出了一种深度关联学习策略,在原始关联的基础上部署深度网络,将其明确地转化为深度关联特征。具体而言,我们首先创建超关联来收集密集的像素对原始关联,然后在这些超关联上部署深度聚合网络。为此,我们设计了一个渐进式关联生成模块,进一步增强超关联的计算。更重要的是,我们提出了一个对应诱导关联凝聚模块,引入了一个前置任务,即语义对应估计,来凝聚超关联,从而减轻计算负担并消除噪声。我们还设计了一种基于目标感知的循环一致性损失,用于高质量的对应估计。在三个基准数据集上的实验结果表明,我们提出的方法在各种训练设置下都具有显著的有效性。代码可在以下网址获取:https://github.com/dragonlee258079/CONDA 。
关键词:共同显著目标检测;深度关联学习
一 介绍
共同显著目标检测(CoSOD)旨在分割一组相关图像中共同出现的显著目标。与传统的显著目标检测(SOD)[19 - 23, 26, 49, 50, 52]相比,共同显著目标检测是一项更具挑战性的任务,因为它需要充分的图像间关联建模[9]。
图1:基于原始关联的图像特征优化策略(a)与我们提出的深度关联学习策略(b)的差异。我们的深度关联学习在原始关联上部署深度学习网络,以获得深度关联特征。我们还在(c)中展示了我们计算得到的原始关联(原始关联)、优化后的图像特征(优化特征)以及生成的深度关联特征(关联特征)的可视化样本。
最近,涌现出许多先进的研究成果[8,13,16,33,38,41,46,47,51],并取得了令人瞩目的性能表现。这些方法首先利用相关图像特征获取原始图像间关联(也称为一致性表示),然后将其作为指导来优化每个图像的特征,如图1(a)所示。这种方法能使最终的图像特征隐含地捕捉图像间的线索,从而达到图像间关联建模的目的。然而,我们发现这种基于原始关联的特征优化策略仍存在两个局限性:其一,它们直接依赖以启发式方式获取的原始关联,例如逐像素[8,33,41,51]、逐区域[16,46]或逐图像[13]的相似性度量。尽管可以从图像特征中的高级语义信息推导出高质量的原始关联,但它们对共同显著区域的揭示仍依赖于相似性度量,在遇到复杂场景时,比如共同显著物体之间差异显著或前景与背景相似度较高的情况,这些相似性度量并不可靠。其二,构建深度模型时主要关注的是优化图像特征。与直接对关联关系进行建模相比,图像特征优化并非一种明确的图像间关联建模方法,这会增加学习的难度。
为了缓解这些限制,我们提出了一种用于共同显著目标检测(CoSOD)的深度关联学习策略,如图1(b)所示。我们没有直接使用原始关联来优化图像特征,而是在原始关联上部署深度网络来学习深度关联特征。这是一种更明确的图像间关联建模策略。此外,我们的深度关联特征可以捕捉更高级的图像间关联知识,使其在复杂场景中比原始关联更具鲁棒性,如图1(c)所示。 从技术层面上讲,我们首先收集整个图像组中所有逐像素的原始关联,将其作为超关联。然后,我们提出了一个渐进式关联生成(PAG)模块,用于将超关联转换为深度关联特征。渐进式关联生成(PAG)模块在不同尺度上逐步生成关联特征,使我们能够利用先前尺度的关联特征来增强下一尺度的超关联计算,从而从一开始就提高关联质量。
尽管深度关联学习策略能够实现更充分的图像间关联建模,但它显著增加了计算负担,降低了这种方法的实用性。此外,本研究发现,并不需要利用所有的像素关联来生成深度关联特征。实际上,甚至存在一些噪声像素,会对深度关联特征的质量产生负面影响。因此,我们提出了一种基于对应诱导关联凝聚(CAC)的方法,来对原始的全像素超关联进行凝聚。这不仅减轻了计算负担,还进一步提高了深度关联特征的质量。
具体而言,对应诱导关联凝聚(CAC)通过有选择地关联在其他图像中具有语义对应关系的像素,以及这些像素周围的上下文像素来执行凝聚操作,从而创建出轻量级但更精确的超关联。在这里,我们将一个前置任务,即语义对应估计引入到共同显著目标检测(CoSOD)中,这不仅提高了模型的性能,还更深入地探究了共同显著目标检测的本质。共同显著目标本质上具有目标级别的语义对应关系。然而,在本文中,我们旨在进一步探索更精细的像素级对应关系。尽管实现高度精确的对应估计仍然是一个挑战,但我们相信这将为共同显著目标检测的研究开辟一条新道路。我们还提出了一种基于目标感知的循环一致性(OCC)损失,以辅助学习共同显著像素内的对应关系。
综上所述,本文的贡献如下:
我们首次为共同显著目标检测(CoSOD)引入了一种深度关联学习方法,运用深度网络将原始关联转化为深度关联特征,以实现充分的图像间关联建模。具体而言,我们开发了一种凝聚式深度关联(CONDA)学习模型。
我们提出了一个渐进式关联生成(PAG)模块,用于逐步生成深度关联特征。该模块利用先前的关联特征来增强图像特征,从而改进超关联的计算。
实验结果表明,在不同的训练设置下,我们的模型在三个基准数据集上显著提升了当前的最优性能,达到了领先水平。
二 有关工作
2.1 共同定位对象检测
最近,出现了大量优秀的共同显著目标检测(CoSOD)方法[8,10,13,16,33,38,41-43,45-47,51]。这些方法首先利用相关的图像特征获取原始的图像间关联,然后利用这些关联来优化每一幅图像的特征。大多数方法通过基于相似度的方式,例如图像特征之间的内积计算,来生成逐像素[8,33,41,51]、逐区域[16,46]和逐图像[13]的原始关联。即使是基于Transformer的方法[16,33],它们也依赖内积计算来生成注意力图[36]作为原始关联。图像特征优化方式包括空间或通道校准[8,13,51]、动态卷积[41,46]、特征融合[16,41]以及交叉注意力[16,33]等等。然而,这些方法缺乏对高级关联知识的学习,并且过于侧重于优化图像特征。与它们不同的是,本文提出了一个新的研究方向,即在关联上部署深度网络,以实现用于共同显著目标检测(CoSOD)的深度关联特征。
2.2 图像间关系建模
除了共同显著目标检测(CoSOD)之外,还有其他一些需要考虑图像间关系的任务,比如少样本分割[25,27,28,39]、立体匹配[2,40]、视频语义分割[34]等等。这些任务最近通过对图像间关系进行有效的建模,取得了显著的进展。这些方法中的大多数[2,4,12,27,39,40]首先创建代价体来捕捉密集的图像间逐像素相似性,然后使用各种模块将这些超体转换为特定任务的特征。 我们的方法在三个方面与先前的方法有所不同。首先,它们中的大多数是在两张图像之间创建四维代价体,而我们是在所有相关图像之间创建六维超关联。其次,它们是基于原始图像特征来计算超体,而我们提出了渐进式关联生成(PAG)模块来逐步增强图像特征,以便进行更好的超关联计算。最后也是最重要的一点是,它们依赖于全像素代价体。而我们考虑利用语义对应关系对超关联进行凝聚,以消除有噪声的像素关联。
2.3 语义对应估计
语义对应估计[24]旨在在同一物体类别的不同实例之间建立可靠的像素对应关系。大多数相关研究是通过全监督训练来完成这一任务的[14, 24]。最近的一些研究则利用了无监督学习,采用了光度损失、前后向一致性损失以及扭曲监督损失等方法[30, 35, 48]。然而,他们是在整幅图像上应用这些损失函数,这样背景像素可能会对性能产生影响。在本文中,我们引入了这一任务,用于为共同显著目标检测(Co-SOD)凝聚超关联,并对循环一致性损失进行了调整,仅将其应用于共同显著像素,从而有效地避免了背景和无关物体的影响。
三 提出的方法
图2:我们的凝聚式深度关联(CONDA)模型的整体流程图。具体来说,凝聚式深度关联(CONDA)模型首先利用图像特征来计算超关联。然后,全像素超关联由对应诱导关联凝聚(CAC)模块进行凝聚,并输入到聚合网络中,以获得深度关联特征。这些特征随后在特征金字塔网络(FPN)解码器过程中用于最终的预测。为简洁起见,图中仅展示了三张相关图像。
如图2所示,凝聚式深度关联(CONDA)模型将深度关联学习过程集成到了特征金字塔网络(FPN)框架中。具体而言,给定一组相关图像,我们首先将它们输入到VGG-16 [32]主干网络中,以收集其中间特征,用于渐进式关联生成(PAG)模块和特征金字塔网络(FPN)解码。详细来说,我们收集最后三个阶段的所有特征用于渐进式关联生成(PAG)模块,并收集每个阶段的最后一个特征用于特征金字塔网络(FPN)解码器,具体如下:
其中,分别是用于渐进式关联生成(PAG)模块和特征金字塔网络(FPN)解码器的特征集合。
表示第s阶段中第l层的VGG特征。第s阶段总共有
层。
分别表示第s阶段的高度、宽度和通道数。
然后,我们将输入到渐进式关联生成(PAG)模块中,以计算超关联并生成深度关联特征
。最后,这些关联特征将与
融合,用于特征金字塔网络(FPN)的解码过程,其公式表示为:
其中是一个卷积层。
是用于最终共同显著性预测的最终特征。我们采用二元交叉熵(BCE)损失和交并比(IoU)损失来进行监督。
本节的剩余部分将介绍具有全像素超关联的渐进式关联生成(PAG)模块,以及通过将对应诱导关联凝聚(CAC)模块插入到渐进式关联生成(PAG)模块中,来实现对超关联的凝聚操作。
3.1 渐进的协会生成
我们的深度关联学习包括两个步骤:1)从三个阶段获取原始超关联;2)在
上使用聚合网络,以获得关联特征
。
早期的方法[4, 11, 31]直接利用原始的主干网络特征,即,来计算图像间的相互作用,比如所谓的代价体。我们认为,直接从主干网络特征中推导出来的超关联可能会阻碍深度关联学习的进一步提升,因为当前的主干网络是在完全没有考虑图像间关联的情况下进行预训练的。
为了缓解这个问题,我们提出了渐进式关联生成(PAG)模块,用于逐步生成金字塔关联特征。这样一来,我们就能够利用高级关联特征,例如来自第s + 1阶段的,来增强
中相邻的低级VGG特征,比如
,从而得到关联增强特征
。基于这些特征,我们可以在第s阶段计算出高质量的超关联
。在这之后,我们对
执行后续的聚合网络操作,以获得关联特征
,该特征将继续增强下一阶段的VGG特征,并进行渐进式关联生成。我们的渐进式关联生成(PAG)模块的整个过程可以用以下公式表示:
其中s的取值范围是从5到3,并且。这里的HAC、Agg和Enh分别表示超关联计算、聚合网络以及关联诱导的特征增强。接下来,我们将详细解释它们。
超关联计算。对于每个阶段,我们首先使用N张相关图像的经过l - 2归一化的关联增强特征之间的内积,来计算每一层的原始关联。之后,我们将所有层的原始关联堆叠起来,形成该阶段的最终超关联。第s阶段的超关联,即,可以通过以下方式计算:
其中
。符号
表示对最后一个维度和前三个维度进行转置操作。
表示l - 2范数。我们使用修正线性单元(ReLU)函数来抑制有噪声的关联值。
聚合网络。原始超关联是一个具有嵌套结构的超立方体,其中每个像素位置由一个四维张量
来表征。每个四维张量记录了相应像素与N张相关图像中所有其他像素的关联。为表述清晰,我们将
中的第一个和第二个
维度分别指定为源维度和目标维度。 尽管这些四维张量对于挖掘共同显著性检测所需的共识信息至关重要,但本质上它们由像素对像素的相似度值组成(如公式(4)所示),在复杂场景下,这些值可能不是最优的,并且不太可靠。因此,我们提议使用深度网络将这些逐像素的相似度转换为具有上下文信息和高阶关联知识的深度关联特征。此前的共同显著目标检测(CoSOD)方法从未对这一点进行过探索。这是通过对
进行上下文聚合,将这些四维张量压缩为
维向量来实现的,其公式表示为:
详细来说,我们首先在上部署几个关联聚合层,以逐步聚合上下文信息,将
扩展为
,并消除四维张量中的目标\
维度。每个聚合层由二维卷积层和下采样操作组成。具体而言,以第一个聚合层为例进行技术说明,我们首先通过对所有四维张量应用二维卷积层,在目标
维度上聚合上下文信息。在图像
中像素位置
处对四维张量的操作可以表示为:
其中是一个\(3\times3\)的二维卷积层。这里,j是四维张量中其他相关图像的索引,并且
表示图像
中像素
与图像
中所有像素之间的关联。这种解释适用于其他类似的符号。
然后,对应用下采样操作D,即双线性插值,以按照一定的缩放因子来降低四维张量的空间维度:
其中,
是下采样后的高度和宽度,
是经过卷积
之后的通道数。
最后,我们还在源维度上聚合上下文信息。具体来说,我们沿着
中的源维度和通道维度提取数值,以形成四维张量,并在这些张量上应用二维卷积层。例如,
就是这样一个四维张量,其中
是目标维度中的一个像素位置。这可以用公式表示为:
其中是一个
的二维卷积层。i是相关图像的索引。
经过几个如公式(6)-(8)所示的关联聚合层处理后,我们能够得到消除了目标维度的聚合关联特征,记为
。随后,我们对
在其第二个N维度上取平均值,从而得到最终的关联特征
,其公式表示为:
关联诱导的特征增强。一旦我们获得了第s阶段的关联特征,我们将使用它来增强第
阶段的VGG特征,即
。具体而言,我们对
进行上采样,使其空间尺寸与第s - 1阶段的特征相匹配,然后将其与
相加,之后再经过一个卷积层,其公式表示为:
其中分别表示一个二维卷积层和双线性上采样操作。
3.2 对应诱导的关联凝结
尽管基于全像素超关联的渐进式关联生成(PAG)模块在共同显著目标检测(CoSOD)中能够取得令人满意的性能,但它也带来了巨大的计算开销。此外,我们认为,对于图像中的每个像素而言,没有必要收集它与其他相关图像的所有像素之间的关联来形成超关联。某些像素关联甚至可能会降低最终的性能,比如模糊区域之间的像素关联。为此,本小节尝试对原始的全像素超关联进行凝聚处理,以便只保留那些包含有用信息的像素关联。
本小节将着重解释如何将一个像素(例如图像)的像素关联凝聚为与其他图像(例如图像
)的像素关联,即
,如图3所示。为方便起见,在后续内容中我们会将符号
简化为
。
具体来说,凝聚式关联计算(CAC)选择从\(a_{js}\)中挑选出个包含有用信息的像素关联,以形成其凝聚表示,即
。因此,整个凝聚后的超关联可以表示为
。为了确保正确选择K×K个像素,我们引入了一个前置任务,即语义对应估计[14,24]。这使我们能够首先在图像
中定位像素
的对应像素,即
,然后将
与其周围的像素组合成K×K的像素集。 我们设计这种方法是基于这样一个观察结果:在N张相关图像中的共同显著目标属于同一语义类别,并且这些目标内的像素彼此之间应该存在语义对应关系,如图4所示。因此,在凝聚式关联计算(CAC)中引入语义对应关系,不仅提高了共同显著目标检测(CoSOD)的性能,还更深入地探究了共同显著目标检测任务的核心本质。据我们所知,这是首次在共同显著目标检测任务中使用语义对应关系的工作。
对应关系估计。为了估计图像中与像素
对应的像素
,我们首先通过启发式方法确定一个初始像素
。随后,我们生成一个空间偏移量,将
。为了实现这一目标,所有的初始对应像素都应被用来形成初始的凝聚超关联,利用这些初始凝聚超关联可以生成初始的深度关联特征,以便进行空间偏移量的预测。
具体而言,我们挑选出与具有最大特征相似度值的
。由于我们已经在
中计算了特征相似度,
可以通过以下方式得到:
其中是一个相似度矩阵,它是通过对
的最后一维进行求和操作,从而消除该维度后得到的。
返回最大值的坐标。
接下来,我们在以初始像素(例)为中心的正方形区域内选择K×K个像素,以构建初始的凝聚超关联。然后,我们可以将其输入到第3.1节中描述的聚合网络中,并得到初始的聚合关联特征
。它可以被看作是每个像素与其他N张相关图像之间的关联特征。我们利用
相对于图像
的特征,即
,通过一个线性层来预测
的偏移量,其公式表示为:
其中O是用于生成偏移量的线性层。由K × K个偏移量组成,除了用于对应关系估计的中心偏移量
(即将
优化为
)之外,我们还为周围像素的选择生成了其他偏移量。因此,通过将偏移量加到初始像素
上,就可以得到对应的像素
,其公式表示为:
其中正方形的中心位置。
凝聚操作。给定估计得到的对应像素中的其他偏移量,我们能够得到周围的像素,并将它们与
组合起来,形成K×K的像素集。这些像素的坐标存储在
中。这一过程可以用公式表示为:
其中
正方形的中心位置。
最后,我们可以通过对进行索引选择来执行凝聚操作,其公式表示为:
其中的凝聚表示形式,也就是
之间的像素关联。此外,我们还在图2中展示了
与所有图像之间像素关联(
的凝聚过程。通过将这样的凝聚过程应用于所有的像素关联,我们能够得到最终的凝聚超关联
。
3.3 对象感知周期的一致性损失
为了实现准确的对应关系估计,对其施加有效的监督是很有必要的。由于不存在明确的语义对应关系标注,我们只能通过对估计出的对应关系施加与对应关系相关的约束来依靠无监督损失。以往的无监督方法对所有像素都施加约束(如文献[30, 35, 48]中的方法),这其中包括背景以及没有相互对应关系的无关物体上的像素,因此会降低模型的有效性。为了避免这个问题,我们提出了一种基于目标感知的约束,只对共同显著像素计算损失。
我们提出了一种目标感知循环一致性(OCC)损失,用于在共同显著目标检测(CoSOD)中对对应关系估计进行监督。循环一致性可以解释为:如果图像中的一个共同显著像素
对应于图像
中的像素
,那么像素
在语义上也应该对应于像素
。
基于这种循环一致性约束,我们采用图像变形操作来计算目标感知循环一致性(OCC)损失。具体而言,我们首先利用从的对应关系估计结果,将图像
(将
调整大小以匹配第s阶段的尺度)变形为
。接着,我们利用从
的对应关系估计结果,将
反向变形回
。最后,我们可以利用
之间的结构相似性指数(SSIM)损失,来衡量
中相互对应像素的循环一致性。此外,为确保仅对共同显著目标施加约束,我们使用真实标签掩码对图像进行掩膜处理,其公式表示为:
表1:对我们所提出模块的消融研究。SAG、SAC和FCC分别是针对渐进式关联生成(PAG)、凝聚式关联计算(CAC)和目标感知循环一致性(OCC)的消融模块。
其中调整大小后的真实标注。总的目标感知循环一致性(OCC)损失
是三个阶段损失的总和,公式表示为:
。更多详细信息可在补充材料中找到。
四 实验
4.1 评估数据集和指标
我们参照文献[8]的方法,在三个基准数据集上对我们的模型进行评估,这三个数据集分别是:CoCA数据集[47](80组共1295张图像)、CoSal2015数据集[44](50组共2015张图像)以及CoSOD3k数据集[7](160组共3316张图像)。我们采用了四种广泛使用的指标进行定量评估,分别是:结构度量()[5]、最大增强对齐度量(
)[6]、最大F值度量(
)[1]以及平均绝对误差(M)[3] 。
4.2 实施详细信息
为构建训练数据,我们参照文献[51]的做法,使用三个常用训练数据集的不同组合,即DUTS类数据集[47](291组共8250张图像)、COCO-9k数据集[18](65组共9213张图像)以及COCO-SEG数据集[37](78组共200,000张图像),以便与其他当前最优(SOTA)方法进行公平比较。我们还按照文献[46]的方法,对DUTS类数据集实施了合成策略。
关于训练细节方面,我们采用了文献[21]中的数据增强策略,并将网络的输入尺寸设置为256×256。我们使用Adam优化器[15],其中来优化网络。我们对我们的CONDA模型进行300个epoch的训练,初始学习率为
,在第60,000次迭代时将学习率除以10。我们的实验基于PyTorch[29]在单个特斯拉A40 GPU上进行,批量大小设置为N = 6。凝聚式关联计算(CAC)中的超参数K设置9。
4.3 消融研究
我们在最具挑战性的CoCA [47]数据集上进行了消融研究。为构建基线模型,我们使用特征金字塔网络(FPN)[17](以VGG-16作为编码器)作为基础分割网络,并通过区域到区域相关性模块(R2R)[16]对其进行增强,以便简单地捕捉图像间的联系。然后,如表1所示,我们逐步将渐进式关联生成(PAG)、凝聚式关联计算(CAC)和目标感知循环一致性(OCC)纳入基线模型中,以进行有效性分析。我们使用DUTS类数据集和COCO9k数据集对所有消融模型进行了训练。
图4:对应关系估计的可视化示例。对应关系I、II和III直观地展示了主图像与三张相关图像之间估计出的对应关系。为了清晰地进行可视化,我们选取了稀疏的共同显著像素,并使用彩色线条将它们与对应的像素连接起来。
渐进式关联生成(PAG)的有效性。PAG首先利用特征金字塔网络(FPN)编码器输出的中间图像特征来计算全像素超关联。然后,运用聚合网络生成用于解码器处理的深度关联特征。PAG有效地利用深度学习对成对像素关联进行建模,与以往的图像特征优化策略相比,能获得更高级别的关联知识。如表1第三行所示,与基线模型相比,PAG在性能上有显著提升,结构度量()、最大增强对齐度量(
)、最大F值度量(
)和平均绝对误差(M)分别提升了3.72%、4.80%、7.30%和1.31%。
此外,为了验证我们通过利用先前生成的关联特征逐步增强图像特征以改进超关联计算的方法,我们进行了一项名为“分离关联生成(SAG)”的消融实验。在该实验中,分三个阶段生成关联特征,但不进行图像特征增强。如表1的第二行和第三行所示,渐进式关联生成(PAG)的表现优于分离关联生成(SAG),这表明我们的渐进增强设计能够获得更好的超关联效果。
凝聚式关联计算(CAC)的有效性。CAC旨在通过选择对应像素及其周围的上下文信息,对渐进式关联生成(PAG)中的全像素超关联进行凝聚处理。表1中第三行和第五行的结果表明,引入CAC模块提升了模型性能。此外,它将聚合网络的乘累加运算(MACs)从全像素PAG中的913.8亿次降低到了771.9亿次 。这表明利用对应关系估计来凝聚超关联,不仅能有效地减轻计算负担,还有助于获得更准确的像素关联。
我们还对凝聚式关联计算(CAC)进行了详细分析。由于深度关联特征对于可靠的对应关系估计是必不可少的,CAC首先使用最大相似度方法对超关联进行预凝聚,以获得初始的深度关联特征,然后基于这些初始深度关联特征预测的对应关系进行进一步的凝聚处理。仅进行预凝聚操作的超关联凝聚过程被称为相似性诱导关联凝聚(SAC)。在表1中,由于其对应关系估计的启发式性质,SAC仅带来了轻微的性能提升。不过,SAC可以为CAC提供初始关联特征,以便预测可靠的对应关系。
表2:我们的模型与其他当前最优(SOTA)方法的定量比较。DC、C9和CS分别代表DUTS类、COCO9k和COCO-SEG训练数据。粗体和下划线分别标记出最佳和次佳的优异结果。
目标感知循环一致性(OCC)的有效性。OCC为凝聚式关联计算(CAC)提供了自监督,以使对应关系估计更加精确。表1中第五行和第七行的结果表明,OCC通过利用更精确的对应关系估计来有效地凝聚超关联,进一步提升了模型性能。此外,我们进行了一项消融实验,用全像素循环一致性(FCC)损失替代OCC,以此来验证我们在CAC中基于目标感知的设计。对比表1中的第五行和第六行,由于背景像素干扰了对应关系的学习,FCC导致了模型性能的显著下降。
对应关系估计的可视化。我们在图4中展示了一些共同显著像素的对应关系估计的可视化示例。我们的语义对应关系估计是有意义的,并且能够在像素层面上有效地描绘出共同显著目标的共同属性。
4.4 与最先进的方法进行比较
我们将我们的模型与八种近期的当前最优(SOTA)方法进行了比较,这些方法分别是:GICD [47]、ICNet [13]、GCoNet [8]、CADC [46]、DCFM [41]、DMT [16]、UGEM [38] 以及 GCoNet+ [51]。我们直接使用它们官方发布的显著图来进行比较。为确保公平性,我们参照文献[51]的做法,使用三个训练数据集的不同组合来训练我们的模型,以便与其他对比方法保持一致。为方便起见,我们将三个训练数据集,即DUTS类数据集 [47]、COCO9k数据集 [18] 和 COCO-SEG数据集 [37],分别记为DC、C9和CS。我们的训练集包括DC、C9、DC + C9、DC + CS。如表2所示,我们可以观察到,在大多数基准数据集中,我们的模型在每种训练集下都取得了最佳性能。更令人兴奋的是,我们在最具挑战性的CoCA数据集中取得了优异的成绩,大幅超越了排名第二的模型,例如,在使用DC + CS训练集时,结构度量(S_m)提升了2.5%、最大增强对齐度量((E_{\xi})提升了2.5%、最大F值度量((F_{\beta})提升了4.8% 。
图5:我们的模型与其他当前最优(SOTA)方法的定性比较。
我们还在图5中展示了可视化的对比结果。我们的模型能够在复杂场景中准确检测出共同显著目标,例如在有无关物体(人)存在的情况下,对于形状不规则的手风琴这类目标也能准确检测。然而,其他模型很容易无法准确分割出共同显著目标。
五 结论
本文提出了一种用于共同显著目标检测(CoSOD)的深度关联学习策略,该策略将超关联直接嵌入到深度关联特征中。同时引入了对应关系估计来凝聚超关联,从而能够针对 CoSOD 探索像素级别的对应关系。我们还利用基于目标感知的循环一致性损失来进一步优化对应关系估计。大量的实验已经验证了我们方法的有效性。