NEGATIVE LABEL GUIDED OOD DETECTION WITH PRETRAINED VISION-LANGUAGE MODELS
1. 介绍:
这篇论文也是基于CLIP通过后处理的方法实现的OOD的检测,但是设计点在于,之前的方法是使用的ID的类别,这篇工作是通过添加一些在语义上非常不同于ID的类别的外分布类来做的OOD检测。
CLIP做OOD检测的这个系列里面我看的以及记录的第一篇就是MCM的方法,这也是确实是借助CLIP做zero-shot OOD detection的最早的办法,但是MCM之利用了ID的类别的语义信息,这对于VLM本身对于文本强大而丰富的表达能力来说没有得到充分的开发利用。所以这篇论文设计的方法的出发点之一就是为了更好地利用VLM中的丰富的知识来做OOD的检测,具体就是引入了很多的负样本类别来更好地区分ID和OOD,本论文的方法的简称为NegLabel,主要是利用OOD的输入图像样本和ID的类别及我们引入的负样本之间的亲密度来判定。
根据基本的方法逻辑首先是要从丰富的语料数据库中得到一群负样本类别,通过利用负类别和ID类别之间的语义差距的距离差作为他们的评价指标,选择的负类别应该要和ID 的类别之间有足够的语义差距,从而确保ID和OOD样本之间的分离度。同时他们还设计了一种新的OOD评定的分数,这个分数结合了ID空间和负类别空间的知识,因此能够更好的利用VLM的强大的文本理解能力,且和图像与类别标签之间的亲密度非常相关。最后他们还提供了这个方法的理论依据。