当前位置：首页 > news >正文

【第三十二周】CLIP 论文阅读笔记

news 来源：原创 2025/4/24 20:35:45

CLIP

摘要
Abstract
文章信息
引言
方法
- 预训练
- 推理
- Q&A
关键代码
实验结果
总结

摘要

本篇博客介绍了CLIP（Contrastive Language-Image Pre-training），这是OpenAI于2021年提出的多模态预训练模型，其核心思想是通过对比学习将图像与文本映射到统一的语义空间，从而摆脱传统视觉模型对固定类别标签的依赖，实现零样本（zero-shot）迁移。该模型针对传统视觉模型泛化能力受限、依赖人工标注数据的问题，提出基于互联网海量图文对（4亿组）的自监督学习框架：利用双编码器结构（图像编码器采用ViT/ResNet，文本编码器采用Transformer）分别提取特征，通过归一化投影层对齐模态，并以对比损失函数最大化配对图文相似度，同时抑制非配对样本的关联。这一方法在30多个数据集上验证了其零样本迁移能力。其局限性包括依赖超大规模数据集、计算成本高昂，以及对细粒度视觉语义和长尾数据泛化不足。

Abstract

This blog introduces CLIP (Contrastive Language-Image Pre-training), a multimodal pre-training model proposed by OpenAI in 2021, which maps images and text into a unified semantic space through contrastive learning. By eliminating traditional vision models’ reliance on fixed category labels, CLIP achieves zero-shot transfer capabilities. To address the limitations of conventional visual models—such as constrained generalization and dependence on manually annotated data—CLIP introduces a self-supervised framework trained on 400 million web-scale image-text pairs. It leverages a dual-encoder architecture (ViT/ResNet for images and Transformer for text) to extract features, aligns modalities via normalized projection layers, and employs a contrastive loss function to maximize similarity between matched image-text pairs while minimizing correlations for unmatched pairs. Validated across over 30 datasets. However, limitations remain, such as reliance on ultra-large datasets, high computational costs, and insufficient generalization for fine-grained visual semantics and long-tail data distributions.

文章信息

Title：Learning Transferable Visual Models From Natural Language Supervision
Author：Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever.
Source：https://arxiv.org/abs/2103.00020

引言

计算机视觉领域长期依赖人工标注数据集（如ImageNet）进行监督学习，这种方法存在一下缺陷：

标注成本高，高质量的标注数据获取困难，且无法覆盖所有可能的视觉概念。
泛化能力有限，模型被限制在固定的类别标签中，无法动态适应新任务或新概念。
分布偏移敏感：传统模型在数据分布变化时性能显著下降，例如风格、光照或场景的差异。

自然语言处理（NLP）领域通过大规模无监督预训练（如BERT、GPT）实现了突破，表明从海量文本数据中学习语义关联是可行的。
另外，互联网上存在海量的图像-文本对（如网页、社交媒体），这些数据天然包含丰富的语义关联，可作为无需人工标注的监督来源。
CLIP（Contrastive Language-Image Pre-training）主要围绕如何突破传统计算机视觉模型的局限性，并探索自然语言作为监督信号的可能性。

方法

CLIP的核心目标是将图像和文本映射到同一语义空间，通过对比学习最大化匹配图像-文本对的相似性，最小化不匹配对的相似性。这种设计使模型能够理解图像内容与文本描述的语义关联，而非依赖固定类别标签。CLIP模型的架构如下图所示：
在这里插入图片描述
其中，左侧（1）是预训练部分，右侧（2）和（3）是推理部分。

与其他训练方法相比，从自然语言中学习有以下优势：

自然语言标签的自由度大，与用于图像分类的标准标签相比，扩展自然语言监督要容易得多，因为它不要求标注遵循某种特定的格式。
与大多数无监督或自监督学习方法相比，从自然语言中学习可以不仅“只是”学习表征，而且还将该表征与语言联系起来，从而实现灵活的zero-shot迁移。

预训练

用于预训练CLIP的数据集是互联网上各种公开可用的资源中搜集到的4亿对(图像，文本)对。
论文中给的训练流程伪代码如下：
在这里插入图片描述
假设每个 training batch 都有 n 个图像文本对，则每个图像和文本分别通过图像、文本编码器，得到对应的 n 个视觉特征（visual_embedding， $I_1,I_2,I_3...I_n$ ）和 n 个文本特征（text_embedding）。但不同模态的数据表示之间可能存在 gap，无法直接进行比较，因此先将不同模态的数据映射到同一个多模态空间（joint multimodal sapce），有利于后续的相似度计算等操作。
视觉特征和文本特征被投身到同一多模态空间后，就可以进行对比学习了，多模态中的所有图片与所有其他文本进行都进行一次匹配（计算相似度，做内积），可得到一个 $n\times n$ 的相似度（cosine 相似度）矩阵，其中只有对角线的图像文本对是正样本（实际的图像文本对），剩下的 $n^2-n$ 个匹配方式都是负样本。
有了正负样本后，模型就可以通过对比学习进行无监督训练。
如果图像和对应的文本嵌入越相似，那么他们的内积便越大。然后通过交叉熵损失函数进行训练，将来自于同一个图片文本对的图像和文本嵌入映射到相近的位置，而将来自不同样本的嵌入映射到较远的位置。这使得模型能够学习到图像和文本之间的共同特征。

推理

CLIP 的推理任务是对图片进行分类，其要判断的类别是我们感兴趣的类别，并不是固定的。

对于输入的图像，首先通过训练好的图像编码器，得到图像特征（ $I_1$ ）
对于类别，首先需要确定我们感兴趣的N个类别，然后使用 CLIP 提出的 prompt template ，将感兴趣的类别词（如图中的“plane”、“car”、“dog”…“bird”）扩展成描述性的句子，如图中展示的模板为“A photo of a {object}” ，就是要将模板中的 object 替换为类别词，得到该类别对应的句子。最后将所有句子分别通过预训练好的文本编码器，得到 N 个文本特征（ $T_1,T_2...T_N$ ）
最后，计算需要分类的图像的特征与感兴趣的所有类别的文本特征之间的 cosine similarity（余弦相似度），相似度最高文本对应的类别就是最终分类的类别。

注意：编码器里包括了多模态嵌入，与预训练时一样，不然无法做相似度计算。

说明：在将单模态特征投射到多模态时，CLIP并没有使用非线性的投射层，而是用的线性投射层，作者发现在多模态的训练过程中，模型的效果与投射层是否是非线性基本无关，作者猜测非线性的投射层应该只是用来适配出图片的单模态学习的。
另外，因为CLIP用到的数据集足够大，所以除了用到随机裁剪，并没有用到其他的数据增强方法。

Q&A

Q1: 为什么要用对比学习？
A1:
对于同一张图片来说，可以有许多不同的描述，如果用预测型的任务来训练模型，就会有太多可能的结果，导致模型训练的过程会很慢。
但若使用对比的任务来训练模型，也就是说只需要判断图片和文本间是不是匹配的关系，不需要逐字逐句去预测文本，那么这个任务就会简单很多，这种监督信号在实际中也更合理。
论文中对比了预测和对比两种方式的效率：
在这里插入图片描述
上图中的蓝线代表open ai的GPT类的模型，基于Transformer做预测任务，橘黄色的线代表基于Bag of words的方式，不用逐字逐句去预测文本，文本已经全局化地提取成了特征，相应的约束被放宽，训练效率提高了三倍，绿色线代表CLIP所使用的对比学习的方式，其训练效率又进一步提高了四倍。说明基于对比学习的方法的拥有很好的训练效率。

Q2: 在推理的时候为什么要做 prompt engineering 和 prompt ensembling
A2：
基于prompt的学习方法主要是在做微调或者直接推理的时候使用的一种方法，而不是在预训练阶段，因此不需要太多的训练资源，但对效果的提升比较显著。prompt顾名思义，起到的是一个提示的作用，也就是文本引导的作用。
用prompt engineering 和 prompt ensembling 的原因：
首先是多义性（polysemy），一个单词可以有很多个含义，若在做图片和文本的匹配的任务时只用一个单词去做文本的特征提取，就可能面临多义性的问题，比如在ImageNet数据集里同时包含了construction cranes 和 cranes 两个类，在相应的语境下，两个cranes对应的语义并不一样，若只用一个单词的话就会有歧义，算出的相似度可能也是错的。
其次，在做预训练的时候，图片所匹配的文本一般都是一个句子，但推理时用一个单词的话，可能就会出现 distribution gap 的问题，提取出的特征可能不佳。
所以文中提出了prompt template的方法将单词扩充为句子，而且若提前知道一些信息，可以在提示时多加一些限定，以缩小解的空间，对zero-shot的推理很有帮助。prompt ensembling是说多用一些提示模板，做多次推理，最后将结果综合起来，一般会得到更好的结果。

关键代码

CLIP模型(https://github.com/openai/CLIP)实现的核心代码在clip/models.py文件中定义的CLIP类。
初始化函数：

    def __init__(self,embed_dim: int,# visionimage_resolution: int,vision_layers: Union[Tuple[int, int, int, int], int],vision_width: int,vision_patch_size: int,# textcontext_length: int,vocab_size: int,transformer_width: int,transformer_heads: int,transformer_layers: int):super().__init__()self.context_length = context_length# 图像编码器的两种形式# 当输入的vision_layer 的格式是(tuple,list), 则用ResNet实现if isinstance(vision_layers, (tuple, list)): vision_heads = vision_width * 32 // 64self.visual = ModifiedResNet(layers=vision_layers,output_dim=embed_dim,heads=vision_heads,input_resolution=image_resolution,width=vision_width)else: # 否则用Vision Transformer对图像进行编码vision_heads = vision_width // 64self.visual = VisionTransformer(input_resolution=image_resolution,patch_size=vision_patch_size,width=vision_width,layers=vision_layers,heads=vision_heads,output_dim=embed_dim)# 文本编码器用Transformer实现self.transformer = Transformer(width=transformer_width,layers=transformer_layers,heads=transformer_heads,attn_mask=self.build_attention_mask())self.vocab_size = vocab_sizeself.token_embedding = nn.Embedding(vocab_size, transformer_width) # vocab_size 表示词汇表的大小，transformer_width 表示每个 token 被映射成的向量的维度。self.positional_embedding = nn.Parameter(torch.empty(self.context_length, transformer_width))self.ln_final = LayerNorm(transformer_width)self.text_projection = nn.Parameter(torch.empty(transformer_width, embed_dim))self.logit_scale = nn.Parameter(torch.ones([]) * np.log(1 / 0.07))self.initialize_parameters()

图像编码器，调用self.visual对图像进行编码：

    def encode_image(self, image):return self.visual(image.type(self.dtype)) # 先转换image的数据类别，然后再输入到图像编码器中进行编码

其中self.dtype的实现如下, 用于获取图像编码器中conv1的权重的数据类别。

    @propertydef dtype(self):return self.visual.conv1.weight.dtype

文本编码器：

    def encode_text(self, text):# 每个句子前面有两个特殊符号 [CLS] 和 [Seq]x = self.token_embedding(text).type(self.dtype)  # [batch_size, n_ctx, d_model]x = x + self.positional_embedding.type(self.dtype) # 添加位置编码x = x.permute(1, 0, 2)  # NLD -> LNDx = self.transformer(x)x = x.permute(1, 0, 2)  # LND -> NLD [batch_size, n_ctx, d_model]x = self.ln_final(x).type(self.dtype) # LayerNorm# x.shape = [batch_size, n_ctx, transformer.width]# take features from the eot embedding (eot_token is the highest number in each sequence)x = x[torch.arange(x.shape[0]), text.argmax(dim=-1)] @ self.text_projectionreturn x

前向传播：首先编码图像和文本信息，然后对图像和文本特征进行归一化，将归一化后的特征计算相似度得分。

    def forward(self, image, text):image_features = self.encode_image(image) # 编码图像特征text_features = self.encode_text(text) # 编码文字特征# 对特征进行归一化image_features = image_features / image_features.norm(dim=1, keepdim=True)text_features = text_features / text_features.norm(dim=1, keepdim=True)# cosine similarity as logitslogit_scale = self.logit_scale.exp() # 可学习参数logits_per_image = logit_scale * image_features @ text_features.t() # 每个图像与每个文本之间的相似度得分。logits_per_text = logits_per_image.t() # 每个文本与每个图像之间的相似度得分。# shape = [global_batch_size, global_batch_size]return logits_per_image, logits_per_text

实验结果

由于CLIP学习的是文本语义信息，而不是one-hot编码的单类别信息，这使CLIP具有更好的迁移能力。文中在多个数据集上对比了zero-shot的CLIP与在做linear probe的resnet50（有监督），（linear probe是把一个预训练好的模型冻结，用其提取特征，只训练最后一层 fc 分类头层去做分类任务），结果如下：
在这里插入图片描述
结果显示，zero-shot 的 CLIP 在大多数数据集上的效果比有监督的 resnet50 的效果好。
对于普通的物体分类来说，CLIP的zero-shot的表现很好，但对于一些更难、更抽象的任务和数据集，CLIP模型表现不好。
作者认为对于特别难的任务来说，CLIP上做zero-shot的迁移并不合理，可能做few-shot的迁移更合理一些。所以作者做了few-shot的实验，结果如下：
在这里插入图片描述
few-shot CLIP就是将训练好的图片编码器冻结，然后再做 linear probe，图中横坐标表示数据集中每个列别用了多少训练样本，0就表示的是zero-shot，纵坐标是平均分类准确度。
结果表明，zero-shot CLIP 不弱于 few-shot 里表现最好的 Bit 。另外，few-shot的linear probe CLIP在训练样本较少时，其效果还不如 zero-shot CLIP ，但随着训练样本的增多，few-shot CLIP的效果越来越好，超越了 zero-shot CLIP。
CLIP不仅在ImageNet 常规数据集上表现优秀，对于ImageNet Sketch 素描图、ImageNet-R 动漫图等非常规图像上的迁移学习能力要远远优于Resnet101。
在这里插入图片描述

总结

CLIP（Contrastive Language-Image Pre-training）作为多模态预训练领域的里程碑模型，基于双编码器结构（图像编码器如ViT/ResNet与文本编码器如Transformer），通过对比学习将图像和文本特征映射到同一语义空间，其核心工作流程包括：分别提取图像和文本特征后进行归一化处理，利用可学习的温度参数缩放相似度矩阵，并通过交叉熵损失函数最大化正样本对（匹配的图文对）的相似度，同时抑制负样本对（非匹配对）的关联。CLIP的优势在于其强大的零样本迁移能力，可灵活应用于图像分类、跨模态检索等任务，且摆脱了传统模型对固定类别标签的依赖；但其局限性在于训练依赖超大规模数据集（如4亿图文对），计算成本高昂，且对细粒度视觉理解和未覆盖领域的数据泛化能力有限。