Vision-Language Dual-Pattern Matching for Out-of-Distribution Detection
1. 动机:
仍然是利用CLIP来做OOD的检测,但是之前的基于CLIP的方法之利用了单模态的特征,比如MCM(上一篇阅读的论文的方法)利用的就是输入图像和ID的类别的文本特征做相似度计算,然后设置阈值来决定是ID/OOD。这篇工作则是处理利用CLIP的文本编码器,还额外的利用视觉编码器的信息来帮助OOD的检测,从视觉和文本两个双向的角度来实现OOD的检测,提出的方法称为DPM(Dual-Pattern Matching)。DPM存储了ID的每个类别的文本特征,以及融合的ID视觉信息分别作为文本模式和视觉模式。
2. 介绍:
实际上这个的工作原理包括之前的CLIP的OOD检测的方法都可以简单称为“存储和比较”的过程,存储指的就是将ID的信息保存成某种模式,然后比较就是将输入的样本去和这些存储的信息做对比然后决定是ID/OOD。所以关键点就在于如何计算和存储ID的模式。
之前的这类的CLIP实现OOD检测的方法只利用了图像和ID文本特征之间的相似度关系,但是忽略了ID图像的视觉特征。本工作发现实际上下游的各种ID数据集的特征空间很狭窄,从而不同的ID类之间的距离很小,使得ID和OOD的分离性很差,为此本工作提出了一种不需要训练的特征增强模块来增强ID类之间的特征的分离性。直接将ID类通过template得到文本经过文本编码器得到的text pattern,然后通过计算ID的图像和文本之间的相似度计算ID的image pa