当前位置：首页 > news >正文

Vision-Language Dual-Pattern Matching for Out-of-Distribution Detection

news 来源：原创 2025/4/25 7:13:05

1. 动机：

仍然是利用CLIP来做OOD的检测，但是之前的基于CLIP的方法之利用了单模态的特征，比如MCM（上一篇阅读的论文的方法）利用的就是输入图像和ID的类别的文本特征做相似度计算，然后设置阈值来决定是ID/OOD。这篇工作则是处理利用CLIP的文本编码器，还额外的利用视觉编码器的信息来帮助OOD的检测，从视觉和文本两个双向的角度来实现OOD的检测，提出的方法称为DPM（Dual-Pattern Matching）。DPM存储了ID的每个类别的文本特征，以及融合的ID视觉信息分别作为文本模式和视觉模式。

2. 介绍：

实际上这个的工作原理包括之前的CLIP的OOD检测的方法都可以简单称为“存储和比较”的过程，存储指的就是将ID的信息保存成某种模式，然后比较就是将输入的样本去和这些存储的信息做对比然后决定是ID/OOD。所以关键点就在于如何计算和存储ID的模式。

之前的这类的CLIP实现OOD检测的方法只利用了图像和ID文本特征之间的相似度关系，但是忽略了ID图像的视觉特征。本工作发现实际上下游的各种ID数据集的特征空间很狭窄，从而不同的ID类之间的距离很小，使得ID和OOD的分离性很差，为此本工作提出了一种不需要训练的特征增强模块来增强ID类之间的特征的分离性。直接将ID类通过template得到文本经过文本编码器得到的text pattern，然后通过计算ID的图像和文本之间的相似度计算ID的image pa