当前位置：首页 > news >正文

Federated Weakly Supervised Video Anomaly Detection with Multimodal Prompt

news 来源：原创 2025/4/22 12:31:30

在这里插入图片描述
标题：联邦弱监督视频异常检测的多模态提示方法
原文链接：https://ojs.aaai.org/index.php/AAAI/article/view/35398
源码链接：https://github.com/wbfwonderful/Fed-WSVAD
发表：AAAI-2025

摘要（Abstract）

视频异常检测（Video Anomaly Detection, VAD）旨在定位视频中的异常事件。近年来，弱监督视频异常检测（Weakly Supervised VAD）取得了显著进展，其在训练时仅需视频级标签。在实际应用中，不同机构可能拥有不同类型的异常视频。然而，出于隐私保护的考虑，这些异常视频无法在互联网上流通。为了训练一个能够识别多种异常类型的更具泛化能力的异常检测器，将联邦学习引入 WSVAD 是合理的。在本文中，我们提出了一种基于全局与局部上下文驱动的联邦学习方法，这是一种新的隐私保护弱监督视频异常检测范式。具体而言，我们利用 CLIP 的视觉-语言关联能力来检测视频帧是否异常。不同于使用人工设计的文本提示，我们提出了一种文本提示生成器。所生成的提示同时受到文本和视觉的影响：一方面，文本提供与异常相关的全局上下文，增强模型的泛化能力；另一方面，视觉提供个性化的局部上下文，因为不同客户端可能拥有不同类型的异常视频或场景。该提示能够在处理来自不同客户端的个性化数据时，同时保持全局泛化性。大量实验证明，所提出的方法具有显著性能。

代码链接：https://github.com/wbfwonderful/Fed-WSVAD

引言（Introduction）

视频异常检测（Video Anomaly Detection, VAD）是计算机视觉领域中的一项重要任务（Zhang, Qing, and Miao 2019; Huang et al. 2021, 2022b,c）。例如，VAD 可应用于智能监控系统，用于检测异常事件以减少财产损失。此外，VAD 还可用于视频内容审查系统，以更好地检测不良内容。弱监督视频异常检测（WSVAD）（Sultani, Chen, and Shah 2018; Huang et al. 2022a; Zhang et al. 2022; Wu et al. 2023）是 VAD 的一个重要分支。对于 WSVAD，模型会同时以正常视频和异常视频作为输入，但仅提供视频级标签。现有方法通常通过多实例学习（Multiple Instance Learning, MIL）（Sultani, Chen, and Shah 2018）将帧级异常分数适配到视频级标签。WSVAD 在标注成本极低的前提下取得了良好性能。然而，传统的 WSVAD 仅利用单一模态信息。

近年来，以 CLIP（Contrastive Language-Image Pretraining）（Radford et al. 2021）为代表的大规模视觉-语言预训练模型在多个下游任务中展现出强大性能，如目标检测（Du et al. 2022; Zhao et al. 2022; Kim et al. 2024）、图像分割（Xu et al. 2022; Yun et al. 2023; Luo et al. 2024）和视频理解（Wu, Sun, and Ouyang 2023; Jin et al. 2024）。CLIP 的核心思想是通过对比学习在嵌入空间中对齐图像和文本。一些研究尝试将 CLIP 应用于 WSVAD（Wu et al. 2024a,b,c; Yang, Liu, and Wu 2024）。尽管这些基于 CLIP 的方法由于利用了视觉-语言关联性而优于传统方法，但它们仅适用于集中式训练，即所有视频必须上传至中心服务器，这将无法保证数据隐私。

联邦学习（Federated Learning, FL）（McMahan et al. 2017）是一种分布式机器学习方法，其目标是在不共享原始数据的前提下，在多个客户端之间训练统一模型，以实现隐私保护。近年来，一些研究已将联邦学习应用于计算机视觉任务，如图像分类（Hsu, Qi, and Brown 2020; Su et al. 2024）和识别（Liu et al. 2020; Dutto et al. 2024）。在 VAD 场景中，异常视频可能分布于不同机构或数据拥有者之间。由于视频内容的敏感性或隐私保护，难以将这些视频集中收集用于训练。例如，交通部门可能拥有交通事故的监控视频，但为了保护事故当事人，该类视频禁止在互联网上传播。此外，公安部门可能拥有执法记录仪拍摄的视频，由于其中包含暴力或恐怖画面，也无法传播。因此，将 WSVAD 引入联邦学习环境以训练统一的异常检测模型是合理的选择。

为了在联邦学习环境中实现隐私保护的 WSVAD，并激活 CLIP 在该任务中的潜力，需解决以下三个挑战：

如何将 CLIP 适配到 WSVAD 任务；
如何在联邦学习环境中利用 CLIP；
如何提升联邦模型的性能。

在本文中，我们提出了一种基于全局与局部上下文驱动的联邦学习框架，用于隐私保护的视频异常检测。图 1 展示了我们提出的方法与传统联邦 WSVAD 方法之间的差异。具体而言，对于第一个挑战，我们提出了一个时序建模模块，用于捕捉异常事件的时间依赖性，因为视频中的异常帧通常是连续相关的。之后，引入文本来利用 CLIP 的视觉-语言关联性。类似于 CLIP 的零样本图像分类方式，我们计算文本和视觉特征之间的相似度。最终，该相似度图表示了多类别的帧级异常置信度。同时，由于 WSVAD 仅有视频级标注，我们采用 MIL 策略选取最具异常性的帧来代表整段视频。

对于第二个挑战，CLIP 由于其强大的表征能力，能够适配来自不同客户端的多样数据，因此适用于联邦学习（Cui et al. 2024b）。然而，在联邦学习中完整训练 CLIP 计算与传输代价过高。Prompt Learning 技术（如 Context Optimization, CoOp）（Zhou et al. 2022b）通过引入可训练参数适配 CLIP 于下游任务，从而在保持 CLIP 原有能力的同时提取任务相关信息。一些研究（Zhao et al. 2023; Yang, Wang, and Wang 2023; Li et al. 2024）已将 Prompt Learning 扩展至联邦学习环境，在保留 CLIP 能力的同时为每个客户端学习个性化 Prompt。然而，这些 Prompt 的表达仍存在局限。因此，我们提出了一种生成器，能够根据上下文动态生成唯一的 Prompt。

对于第三个挑战，我们提出的 Prompt 生成器由全局与局部上下文共同驱动：一方面，全局上下文由来自所有客户端的异常类别构成，具备全局任务相关性；在全局聚合过程中，受到全局上下文调节的 Prompt 生成器能够保持尽可能快的泛化能力，也就是说，生成的 Prompt 可泛化至其他客户端的异常类别。另一方面，局部上下文来自于客户端间不同特征的视频。例如，客户端 $i$ 拥有街道监控视频，而客户端 $j$ 拥有商店监控视频。局部上下文引导生成的 Prompt 关注来自不同客户端视频的平均分布，即模型在保持泛化的前提下，适度地识别客户端特有的特征。总之，全局与局部上下文的结合，在全局最优与局部最优之间取得平衡。

所提方法（Proposed Method）

在本节中，我们将详细介绍本文提出的方法，如图 2 所示。我们的方法通过全局与局部上下文驱动的 Prompt，适配 CLIP 于联邦弱监督视频异常检测（WSVAD）任务。
在这里插入图片描述

图2：所提方法的框架示意图。客户端1拥有街道录制的视频，而客户端N拥有商店录制的视频。每个客户端均配备一个冻结的CLIP模型。我们提出一个生成器，用于动态生成由局部视觉上下文和全局文本上下文驱动的提示，供CLIP文本编码器使用。

将 CLIP 适配至 WSVAD（Adapting CLIP for WSVAD）

在训练阶段，WSVAD 仅提供视频级别的标签。给定一个视频 $v$ ，若至少存在一个帧包含异常，则该视频被定义为异常，标签 $y = 1$ ；反之，若所有帧均为正常，则标签为 $y = 0$ 。WSVAD 的目标是训练一个异常检测器 $f(\cdot)$ ，在仅有视频级标签的情况下预测帧级异常置信度。

以往研究通常使用预训练的 C3D（Tran et al., 2015）或 I3D（Carreira and Zisserman, 2017）提取视频特征。为了获得更好的特征表示并利用视觉-语言关联性，我们采用 CLIP 的图像编码器提取视频帧特征。具体而言，提取的特征可表示为：

$\in \mathbb{R}^{T \times D}$

其中 $T$ 表示帧数， $D$ 是嵌入维度。CLIP 在大规模图文对上训练，在多种图像处理任务中表现优异。然而，若仅使用 CLIP 处理视频帧，则会忽略时间上的依赖性。对于 WSVAD，异常事件往往持续一段时间，若仅以独立帧检测异常将难以奏效。

为了解决 CLIP 缺乏时间建模的问题，一些研究（Huang et al. 2022a；Wu et al. 2024c）提出了各种时序建模模块。类似地，我们引入一个轻量级的时序建模模块，具体做法为：在 CLIP 图像编码器提取特征后，接入一个 Transformer 编码器 $\phi(\cdot)$ ，得到具有时序信息的视频特征：

$\phi(I), \quad V \in \mathbb{R}^{T \times D}$

然后，文本标签通过 CLIP 的文本编码器进行编码，得到：

$\in \mathbb{R}^{K \times D}$

其中 $K$ 表示标签类别数量。随后，计算帧特征与文本特征之间的对齐图（alignment map）如下：

$\cdot L^\top \tag{1}$

其中 $\in \mathbb{R}^{T \times K}$ 表示每帧与各类别文本之间的相似度。

接下来，我们对齐图 $M$ 进行处理，以适配视频级标签。具体而言， $M$ 的每一列表示视频帧与某一类别的相似度。我们取每列中前 $k$ 大值的平均，衡量视频与该类别的匹配程度，得到：

$\{s_1, s_2, \dots, s_K\}$

最终，计算多类别预测结果：

$p_i = \frac{\exp(s_i / \tau)}{\sum_j \exp(s_j / \tau)} \tag{2}$

其中， $p_i$ 表示视频属于第 $i$ 类的概率， $\tau$ 为温度超参数。最终采用交叉熵损失训练模型。

在推理阶段，对于对齐图 $M$ ，我们关注其与“正常”类别之间的相似度。若相似度越高，说明当前帧越可能是正常的，对应的异常置信度应越低。因此，我们将其相似度从 1 中减去，作为异常置信度输出。

联邦 WSVAD 中的 Prompt 生成（Generating Prompts in Federated WSVAD）

CoOp（Zhou et al. 2022b）通过将手工设计的文本提示替换为可学习的向量，有效提升了 CLIP 在下游任务中的性能。类似地，我们为 CLIP 文本编码器引入文本 Prompt，以适配多种异常类别。但在联邦学习环境下，单纯可学习的 Prompt 表达能力受限。

为更好适配联邦 WSVAD，我们提出一种 Prompt 生成器，用于动态生成文本 Prompt。具体过程如下：

首先，原始类别标签 $l$ 经过 CLIP 的分词器处理：

$\text{tokens} = \text{Tokenizer}(l)$
然后，将生成的 Prompt 表示为 $P = \{p_1, ..., p_n\}$ ，与分词后的类别标签拼接，作为 CLIP 文本编码器的输入：

$\{p_1, ..., \text{token}, ..., p_n\}$

接下来我们讨论 Prompt 生成器在联邦 WSVAD 中的训练过程。设联邦学习包含 $N$ 个客户端，每个客户端 $i$ 拥有本地数据集 $D_i$ ，且配备预训练的 CLIP 模型。每个客户端的可训练参数包括上一节提到的时序建模模块和 Prompt 生成器，而 CLIP 本体始终被冻结。

第 $r$ 轮训练的交互流程如下：

步骤 I：每个客户端从服务器接收并加载全局模型参数 $\theta_r$ ；
步骤 II：每个客户端 $i$ 利用 Prompt 与类别标签拼接后输入文本编码器，按公式（2）计算预测 $P$ ，并使用以下损失函数训练模型：

$\mathcal{L}_i = - \mathbb{E}_{(v, Y) \in D_i} \, Y \log P \tag{3}$

其中 $\in \mathbb{R}^K$ 为多标签表示。
步骤 III：客户端在本地训练若干轮后，将本地参数 $\theta_r^i$ 发送至服务器，服务器按加权平均规则聚合为全局参数：

$\theta_{r+1} = \sum_i \frac{|D_i|}{\sum_j |D_j|} \theta_r^i \tag{4}$

全局与局部上下文驱动的 Prompt（Global and Local Context-driven Prompt）

联邦学习旨在利用分布式数据训练统一模型。但实际中，各客户端间数据分布通常不同。例如，不同机构可能拥有风格各异的异常视频。因此，为同时实现局部个性化和全局泛化，我们提出一种全局与局部上下文驱动的 Prompt 学习策略。

全局上下文：受 FedTPG（Qiu et al. 2024）启发，任务相关文本可为联邦 Prompt 学习提供语义上下文。在 WSVAD 中，来自各客户端的异常类别文本构成的全局上下文，包含了对整个任务的概括性描述。即使某些客户端未见过某些异常类别，全局上下文也能激活冻结的 CLIP，赋予其一定的识别能力。
局部上下文：本地视觉特征提供客户端特有的视频平均语义，引导模型学习本地数据分布，从而避免模型偏向某个具体类别。

两者结合后，Prompt 学习可在个性化与泛化之间取得平衡。

具体而言，Prompt 生成器由一个 Cross-Attention 模块组成：

对于全局上下文，类别文本首先编码为：

$\in \mathbb{R}^{K \times D}$

然后映射为 Key 和 Value：

$K_T = T \times W_K,\quad V_T = T \times W_V$
对于局部上下文，考虑一批视频帧特征 $\in \mathbb{R}^{B \times T \times D}$ ，对 batch 维度进行平均得到：

$\bar{V} \in \mathbb{R}^{T \times D}, \quad Q_{\bar{V}} = \bar{V} \times W_Q$

最终，Prompt $P$ 通过 Cross-Attention 融合得到：

$\text{CrossAttention}(Q_{\bar{V}}, K_T, V_T) \tag{5}$

实验（Experiment）

在这里插入图片描述

实验设置（Experimental Settings）

数据集与评估指标（Datasets and Evaluation Metrics）

我们在两个大规模数据集上进行了大量实验：UCF-Crime（Sultani, Chen, and Shah 2018）和 XD-Violence（Wu et al. 2020）。此外，我们还在未见过的数据集 ShanghaiTech（Luo, Liu, and Gao 2017）的测试集上评估了方法的泛化能力。ShanghaiTech 最初设计用于半监督 VAD，我们采用 Zhong 等人（Zhong et al. 2019）重构后的测试集。

参考 CLAP（Al-Lahham et al. 2024），我们对 UCF-Crime 和 XD-Violence 进行了三种数据划分策略：

随机划分（Random Split）：作为基线设定，每个客户端持有数量相同的视频；
基于事件划分（Event-Based Split）：每个客户端拥有不同类型异常的视频。例如，客户端 $i$ 包含爆炸类视频，而客户端 $j$ 包含打斗类视频；
基于场景划分（Scene-Based Split）：最贴近真实应用场景，每个客户端的视频来自特定场景。例如，客户端 $i$ 拥有商店中发生如抢劫、偷窃等异常的视频，而客户端 $j$ 拥有街道上发生如交通事故、枪击事件的视频。

更多划分细节见附录材料。

评估指标方面，遵循以往工作（Wu et al. 2020, 2024c），我们在 UCF-Crime 和 ShanghaiTech 上采用帧级 ROC 曲线的 AUC（Area Under Curve）作为指标，而在 XD-Violence 上使用帧级 PR 曲线的 AP（Average Precision）作为指标。

训练设定（Training Settings）

我们在以下三种训练设定下对所提方法与现有 SOTA 方法进行比较：

集中式训练（Centralized Training）：将所有数据集中训练异常检测器，不考虑隐私问题；
本地训练（Local Training）：每个客户端仅在本地数据上训练自身模型，隐私安全但可能损失全局性能；
联邦训练（Federated Training）：多个客户端共同训练一个联合异常检测器，同时保障本地数据隐私。本论文中仅使用全局测试集，即每个客户端仅持有本地训练集。

实现细节（Implementation Details）

我们使用预训练的 CLIP（ViT-B/16）提取视觉与文本特征，嵌入维度 $D = 512$ 。Prompt 生成器由一个四头 Cross-Attention、LayerNorm 以及一个线性投影层组成，嵌入维度同样为 512。我们在单张 NVIDIA RTX 3090 GPU 上使用 PyTorch 进行训练，batch size 设为 128，学习率为 $1\times10^{-5}$ 。全局聚合轮数为 15，每轮本地训练 epoch 为 10。

在不同划分策略上的对比（Comparisons on Different Data Splits）

表 1 显示了在 UCF-Crime 和 XD-Violence 上，分别以随机划分、事件划分和场景划分进行测试的结果。我们的方法相较于手工 Prompt 的 ZS-CLIP（Radford et al. 2021）和使用可学习 Prompt 向量的 FedCoOp（Guo et al. 2023）性能更优，说明我们提出的 Prompt 生成器在联邦学习环境中更具灵活性。

此外，我们的方法相比于其他联邦 WSVAD 方法如 PPVU（Doshi and Yilmaz 2023）和 CLAP（Al-Lahham et al. 2024）表现更佳。PPVU 基于 Transformer，在联邦环境中仅训练分类器；CLAP 利用聚类生成伪标签，但只考虑视觉信息，忽视联邦学习中泛化与个性化的平衡。而我们的方法结合视觉-语言关联性与上下文调控，在全局泛化与局部个性化之间做出更优权衡。

在不同训练设定下的对比（Comparisons on Different Training Settings）

表 2 显示了我们方法在集中式、本地和联邦训练三种设定下的性能。为保证公平性，我们对比方法均在三种设定下重新实现。

一方面，希望联邦训练尽可能逼近集中式训练性能，后者具有全局泛化能力；
另一方面，虽然本地训练具有隐私保护优势，但若每个客户端只训练本地模型，则其在全局测试集上的表现通常不佳。

作为折中方案，联邦训练既聚合了全局性能，又保留了本地数据隐私。与本地训练相比，我们在 UCF-Crime 和 XD-Violence 上分别获得了 2.89% AUC 和 10.44% AP 的提升。由于我们的 Prompt 生成器同时受全局和局部上下文驱动，特别适合联邦学习，因此在集中式训练中可能略显劣势。

泛化能力评估（Generalization to Unseen Datasets）

我们评估了模型对未见数据集的泛化能力。具体做法是在 UCF-Crime 或 XD-Violence 上进行联邦训练，在 ShanghaiTech 测试集上进行测试。

表 3 显示在 XD-Violence 上训练后，在未见数据集上的测试结果；
表 4 显示在 UCF-Crime 上训练后的测试结果。

我们方法在 ShanghaiTech 上分别取得了 54.62% 和 60.42% 的 AUC，平均超越 ZS-CLIP 与 Temporal-CLIP 分别为 3.83% 和 9.32%。这种泛化能力来自两个方面：

CLIP 的预训练模型提供了稳健的语义特征表示；
我们提出的 Prompt 生成器由全局与局部上下文共同驱动，其中全局上下文激活了模型对未见类别的识别能力。

好的，以下是论文的 消融实验（Ablation Studies） 和 可视化分析（Qualitative Analyses） 部分的完整翻译，继续保持学术风格和 KaTeX 格式。

消融实验（Ablation Studies）

在本节中，我们重点评估所提方法中各个模块的有效性，实验结果如表 5 所示。

首先，我们比较了**局部文本上下文（Local Text Context）与全局文本上下文（Global Text Context）**的差异。类似于 FedTPG（Qiu et al. 2024），当仅提供当前客户端所拥有的类别文本作为 Prompt 生成上下文时，在 UCF-Crime 和 XD-Violence 上的平均性能分别下降了 0.28%（AUC）和 4.16%（AP）。这是因为全局上下文能提供完整的任务相关信息，而局部上下文则相对有限，难以提供任务的全面语义表示。

需要注意的是，在**随机划分（random split）**下，局部上下文和全局上下文在本质上是一致的，因此这两种设置在该场景下没有差异。

其次，我们评估了**局部视觉上下文（Local Visual Context）**的作用。将局部视觉上下文替换为一组可学习向量时，在 XD-Violence 上平均性能下降了 1.89%（AP）。这是因为在缺乏局部视觉信息的引导下，模型难以适应本地数据分布。

可视化分析（Qualitative Analyses）

图 3 展示了我们在 UCF-Crime 数据集上四类异常事件的可视化异常置信度：纵火（Arson）、入室盗窃（Burglary）、爆炸（Explosion）和车祸（Car Accident）。

蓝色曲线表示不使用局部视觉上下文的模型；
红色曲线表示结合局部视觉上下文与全局文本上下文的模型；
灰色区域表示异常事件的真实发生区间（Ground Truth）。

从图中可以观察到：

未使用局部视觉上下文时，模型在正常帧上有时会产生较高的异常置信度，即误报率较高；
结合局部视觉上下文时，模型的异常置信度曲线更加平滑，对异常事件的定位更加准确，误报率显著降低。

这进一步验证了我们所提出的局部视觉上下文驱动 Prompt 生成器的有效性。

结论（Conclusion）

在本工作中，我们提出了一个基于全局与局部上下文驱动的联邦学习框架，用于隐私保护的视频异常检测。具体而言：

我们利用 CLIP 的视觉-语言关联能力进行异常检测；
为了在联邦学习环境中保留 CLIP 的强大表达能力，我们提出了一种动态 Prompt 生成器，替代手工设计的文本模板；
此外，为了在联邦环境下兼顾全局泛化能力与局部个性化适应性，我们设计了一个结合全局文本上下文与局部视觉上下文的 Prompt 学习策略。

在这两种上下文的共同驱动下，所生成的 Prompt 更适用于联邦环境，具备更强的表达力与适应性。

未来，我们将继续探索**隐私保护的视频异常检测（VAD）**方法。