当前位置：首页 > news >正文

多模态融合（十一）： SwinFusion——武汉大学马佳义团队（二）

news 来源：原创 2025/4/21 20:02:14

一.摘要

二. Introduction

三. Related Work

A. 特定任务图像融合方法

B. 通用图像融合方法

C. 视觉 Transformer

四.方法

A. 整体框架

B. 损失函数

C.解析

1. 整体框架

2. 特征提取

3. 注意力引导的跨域融合

五. 实验结果与讨论

A. 实验配置

B. 实现细节

C. 多模态图像融合结果

E. 全局信息的可视化

F. 图像融合在其他视觉任务中的应用

一.摘要

本研究提出了一种基于跨域长程学习和Swin Transformer的新型通用图像融合框架，命名为SwinFusion。一方面，我们设计了一个注意力引导的跨域模块，以实现互补信息的充分整合和全局交互。更具体地说，提出的方法包括基于自注意力的域内融合单元和基于跨注意力的域间融合单元，用于挖掘和整合同一域内和跨域的长程依赖关系。通过长程依赖建模，网络能够充分实现特定域信息的提取、跨域互补信息的整合，并从全局视角维持适当的表观强度。特别地，我们将移窗机制引入自注意力和跨注意力中，使模型能够处理任意尺寸的图像。另一方面，多场景图像融合问题被泛化为一个统一的框架，具有结构保持、细节保留和适当强度控制的特点。此外，一个精心设计的损失函数，包括SSIM损失、纹理损失和强度损失，驱动网络保留丰富的纹理细节和结构信息，同时呈现最佳的表观强度。在多模态图像融合和数字摄影图像融合的广泛实验中，SwinFusion相比于最先进的统一图像融合算法和特定任务的替代方案表现出优越性。实现代码和预训练权重可在 https://github.com/Linfeng-Tang/SwinFusion 访问。

二. Introduction

由于硬件设备的限制，单一类型传感器或单一拍摄设置捕获的信息无法全面表征成像场景 [1]。一方面，不同类型的传感器通常从多个视角捕获特定信息。例如，红外传感器收集热辐射信息，突出显著目标；可见光传感器通过捕捉反射光信息生成具有丰富纹理细节的数字图像 [2]；近红外传感器能够捕获可见光图像中可能丢失的互补细节 [3]。在医学成像领域，结构系统（如磁共振成像（MRI）和计算机断层扫描（CT））通常提供结构和解剖信息 [4]，而功能系统（如正电子发射断层扫描（PET））则提供血流和代谢变化的功能信息 [5]。另一方面，不同拍摄设置的传感器通常仅捕获成像场景的有限信息。具体来说，具有不同 ISO 和曝光时间的相机只能捕获动态范围内的信息，必然会丢失动态范围外的细节。同样，具有特定焦距的相机仅捕获深度范围（DOF）内的物体 [6]。值得注意的是，不同传感器或多种拍摄设置捕获的图像通常包含互补信息，这促使我们将这些互补特性整合到单一图像中。因此，图像融合技术应运而生。

根据成像设备的差异，图像融合可分为多模态图像融合和数字摄影图像融合。

图 1 展示了这两类图像融合场景的示意图。单一融合图像具有更好的场景表征和视觉感知，有助于后续实际视觉应用，如目标检测、跟踪、语义分割、场景理解等 [7]–[9]。在过去几十年中，提出了众多图像融合技术，可大致分为两类：特定任务图像融合方案 [11]–[14] 和通用图像融合算法 [10]、[15]、[16]。特定任务图像融合和通用图像融合均可进一步细分为四类：传统框架 [17]–[19]、基于卷积神经网络（CNN）的框架 [20]、[21]、基于自编码器（AE）的框架 [22]、[23] 和基于生成对抗网络（GAN）的框架 [24]–[26]。尽管上述框架能够生成较好的融合结果，但均无法充分挖掘和整合域内和跨域的全局上下文。特别地，本文假设不同传感器或多种光学设置拍摄的图像属于不同域。

一方面，传统框架通常在空间域 [17] 或变换域 [19]、[27] 实现互补信息聚合，但两者均无法在非相邻像素间交换信息，因此传统框架无法感知全局环境。另一方面，基于 CNN、AE 和 GAN 的框架的基本组件是卷积层，仅能挖掘感受野内的交互。然而，在利用局部信息进行图像融合时，这些框架无法利用域内或跨域的长程依赖关系进一步改进融合结果。作为 CNN 的替代方案，Transformer [28] 设计了自注意力机制来捕捉上下文之间的全局交互，并在多个视觉问题中表现出优异性能 [29]–[33]。图像融合领域也引入了 Transformer 来建模跨域长程依赖关系，并提供了具有竞争力的融合结果 [34]–[37]。然而，仍存在一些需要解决的缺点。首先，现有的基于 Transformer 的方法仅探索域内交互，未能整合跨域上下文，而这对图像融合任务至关重要。其次，用于图像融合的视觉 Transformer 通常要求输入图像被调整为固定尺寸（如 256×256），这会导致融合图像中的场景失真。第三，现有的融合 Transformer 针对特定融合场景设计，未考虑不同融合任务之间的内在联系。

为解决上述挑战，我们设计了一种基于跨域长程学习和 Swin Transformer 的通用图像融合框架，适用于多模态图像融合和数字摄影图像融合。我们的设计主要从以下方面展开。一方面，我们将所有图像融合场景建模为结构保持、纹理保留和适当强度控制。特别地，我们统一了损失函数形式，包括 SSIM 损失、纹理损失和强度损失，适用于所有融合问题。所有子损失项对不同融合任务采用相同的建模方式，唯独强度损失针对特定融合任务进行定制，以获得更合适的强度感知。另一方面，我们设计了一个联合 CNN-Transformer 图像融合框架，充分挖掘源图像中的局部和全局依赖关系。基于 CNN 的浅层特征提取单元挖掘源图像中的局部信息；基于 Transformer 的深层特征提取单元探索浅层特征之间的全局交互，生成包含高级语义信息的深层特征。然后，精心设计的注意力引导跨域融合模块有效整合域内和跨域交互。具体来说，域内融合单元通过自注意力机制聚合同一域内的全局上下文；域间融合单元通过交换不同域的查询、键和值，建模多个源图像之间的长程依赖关系，实现全局特征融合。最后，基于 Transformer 的深层特征重建单元和基于 CNN 的融合图像重建单元利用全局和局部信息重建具有优异视觉感知的融合图像。值得注意的是，自注意力和跨注意力均采用移窗机制（即 Swin Transformer [38]）实现，使我们的框架能够处理任意尺寸的输入图像。

总之，本工作的主要贡献可总结如下：

我们提出了一个联合 CNN-Transformer 融合框架，适用于多模态图像融合和数字摄影图像融合。该框架能充分挖掘局部和全局信息，实现更好的互补特性整合。
设计了基于自注意力的域内融合单元和基于跨注意力的域间融合单元，分别建模和整合同一域内及跨域的长程依赖关系。
将多模态图像融合和数字摄影图像融合泛化为结构保持、纹理保留和适当强度控制。特别地，定义了统一的损失函数形式，约束所有图像融合问题。
大量实验证明了我们的框架在多模态图像融合和数字摄影图像融合上优于最先进的特定任务和通用融合算法。

本文的组织结构如下。第 II 节总结了与所提框架相关的研究，包括特定任务图像融合、通用图像融合和视觉 Transformer。第 III 节详细讨论了我们的 SwinFusion。第 IV 节展示了多模态图像融合和数字摄影图像融合的定性和定量结果，并进行了消融研究以验证特定设计的有效性。第 V 节给出了结论。

三. Related Work

图像融合和视觉 Transformer 是与我们方法最相关的两种技术，以下我们回顾了一些代表性研究，以介绍它们的发展。

A. 特定任务图像融合方法

作为一种重要的图像增强技术，图像融合近年来持续吸引越来越多的关注。主流的图像融合方案，特别是针对特定任务的图像融合，可分为以下四类框架：

传统图像融合框架：传统融合框架通常在空间域和变换域实现图像融合。一方面，在空间域整合像素级信息是传统图像融合的主要方式之一。GTF [17] 将红外和可见光图像融合定义为在空间域内保持整体强度和保留纹理结构，并通过优化目标函数生成融合图像。Awad 等人开发了一种自适应的近红外和可见光融合方案，用于增强可见光图像细节 [3]。此外，刘等人基于形态学成分分析设计了卷积稀疏模型（CS-MCA），以实现医学图像的像素级融合 [39]。他们还将局部特征描述子（即 Dense SIFT）引入多焦点图像融合任务，以进行活动水平测量并匹配不同源图像之间的错位像素 [40]。另一方面，研究者也尝试通过相关数学变换将源图像映射到变换域，并手动设计变换域的融合规则以实现图像融合。马等人采用结构路径分解技术，将源图像转换为三个概念上独立的成分，即信号强度、信号结构和平均强度 [41]。然后，通过分别融合这三个成分实现多曝光图像融合。此外，李等人提出了一种基于变换域的多焦点图像融合算法，结合稀疏特征矩阵分解和形态学滤波技术 [42]。

基于 CNN 的图像融合框架：近年来，卷积神经网络（CNN）逐渐成为图像融合的主要工具，并展现出显著优势。一种形式的 CNN 参与图像融合是通过预训练网络实现活动水平测量并为手工特征生成权重图 [5], [43]。但整个融合过程仍基于传统融合框架，如拉普拉斯金字塔 [5] 和引导滤波 [43]。另一种基于 CNN 的图像融合框架是利用 CNN 以端到端的方式学习源图像与融合图像（或焦点图）之间的直接映射 [2], [44]。多项研究将特定任务的先验信息融入基于 CNN 的框架，设计损失函数和网络结构。具体来说，马等人提出了 α-matte 边界去焦模型，精确模拟去焦扩散效应，生成逼真的训练数据用于多焦点图像融合网络的训练 [45]。为解决焦点/去焦点边界附近模糊水平估计的困难，李等人引入了深度回归对学习，直接将整幅图像转换为二值掩码，无需任何分块操作 [46]。赵等人提出了基于深度线索的深度蒸馏多焦点图像融合方法 [47]。他们还关注特征的多样性以提升融合性能 [48], [49]。此外，韩等人设计了一种深度感知增强网络用于多曝光图像融合，包含两个独立模块，分别用于收集内容细节和校正颜色失真 [50]。对于可见光和红外图像融合，龙等人设计了一种聚合残差密集网络，结合了 ResNet 和 DenseNet 的结构优势 [51]。此外，SeAFusion [7] 首次将语义约束融入图像融合建模，并提出梯度残差密集块以增强对细粒度细节的描述能力。

基于自编码器（AE）的图像融合框架：与此同时，研究者也探索了基于自编码器的图像融合框架。具体来说，在大规模数据集上预训练的自编码器被用作特征提取器和图像重构器，然后为深层特征设计专门的融合策略以实现图像融合。DeepFuse [13] 是此类融合框架的先驱。随后，李等人引入了密集连接 [22] 和嵌套连接 [52], [53]，以增强编码器的特征提取能力。此外，简等人将注意力机制注入基于 AE 的融合框架，以增强编码器提取的显著特征 [54]。为了提取更具可解释性的特征，徐等人为基于 AE 的融合框架定制了解纠缠表示 [11]。然而，上述方法均采用手工设计的融合策略，如元素级加法 [13]、元素级加权求和 [22] 和元素级最大值 [20]，以合并深层特征，这阻碍了融合模型达到最优性能。为此，徐等人设计了一种基于像素级分类显著性和可解释重要性评估的可学习融合规则 [23]。

基于生成对抗网络（GAN）的图像融合框架：生成对抗网络（GAN）能够有效建模数据分布，即使没有监督信息，这与图像融合任务相吻合。马等人指导性地将图像融合问题定义为生成器与判别器之间的博弈。然后，他们将 GAN 应用于一系列融合任务，如红外和可见光图像融合 [55]、多曝光图像融合 [25]、多焦点图像融合 [56] 和全色锐化 [57]。然而，单一判别器无法考虑多域的数据分布。因此，徐等人提出了双判别器条件生成对抗网络（DDcGAN），利用两个判别器约束融合结果的分布。随后，洪等人设计了一种多生成器多判别器条件生成对抗网络（MGMDcGAN）用于医学图像融合 [26]。此外，李等人将多尺度注意力机制注入基于 GAN 的融合框架，鼓励生成器和判别器更关注有意义的区域 [58], [59]。

B. 通用图像融合方法

特定任务融合算法能够利用相关先验提升融合性能，但忽略了不同图像融合任务之间的内在联系。因此，越来越多的研究者致力于开发统一的图像融合框架。MST-SR 是首个通用图像融合框架，通过结合多尺度变换（MST）和稀疏表示（SR）技术实现互补信息聚合 [15]。随后，张等人 [20] 参考 DeepFuse [13] 设计了首个用于通用图像融合的卷积神经网络。此外，PMGI [16] 将不同的图像融合问题视为梯度和强度的比例保持，并设计了统一的损失函数形式。在 PMGI 的基础上，张等人提出了挤压分解网络和自适应决策块，以进一步提升融合性能 [60]。此外，赵等人通过学习特定域和通用域的特征表示，开发了一种用于多领域图像融合的通用框架 [61]。特别地，考虑到不同融合场景可以相互促进，徐等人通过结合可学习信息测量和弹性权重整合，开发了一种用于多融合任务的统一无监督图像融合模型 [10], [62]。值得强调的是，无论是特定任务还是通用融合方法，均无法充分利用图像的长程交互。换句话说，这些算法仅从局部视角合并互补信息，无法实现全局信息聚合。

C. 视觉 Transformer

最近，自然语言处理模型 Transformer [28] 在计算机视觉领域受到广泛关注。许多基于 Transformer 的模型在视觉任务中取得了令人印象深刻的性能，如视觉识别 [29], [63], [64]、目标检测 [30], [65], [66]、跟踪 [67]–[69]、分割 [31], [70] 和图像修复 [32], [33], [71]。由于其强大的长程建模能力，Transformer 也被引入图像融合 [34], [35], [37], [72]。基于 CNN 的融合框架，VS 等人设计了一种基于 Spatio-Transformer 的多尺度融合策略（即 IFT），同时关注局部和全局上下文 [35]。此外，在基于 AE 的融合框架基础上，傅等人用 Patch Pyramid Transformer 替换 CNN 架构，以提取整个图像的非局部信息 [37]。然而，仅由 Transformer 组成的自编码器无法有效提取局部信息。为此，赵等人提出了顺序 DenseNet 和双 Transformer 架构，称为 DNDT，以提取局部和全局信息，其中双 Transformer 在融合层之前增强特征中的全局信息 [72]。此外，曲等人开发了 TransMEF [34]，将并行 Transformer 和 CNN 架构注入基于 AE 的融合框架，并利用自监督多任务学习实现多曝光图像融合。随后，李等人提出了用于可见光和红外图像融合的卷积引导 Transformer 框架（即 CGTF），旨在结合 CNN 的局部特征和 Transformer 的长程依赖特征，生成更满意的融合结果 [73]。此外，饶等人还将 Transformer 引入基于 GAN 的融合框架，以实现可见光和红外图像融合 [36]。然而，上述融合 Transformer 仅挖掘同一域内的长程依赖（或全局交互）。实际上，跨域长程依赖与图像融合问题更相关。此外，大多数基于 Transformer 的融合算法，如 IFT [35]、DNDT [72]、TransMEF [34] 和 CGTF [73]，只能处理固定尺寸的输入图像（例如 256×256）。而且，现有的用于图像融合的视觉 Transformer 仅解决特定的图像融合问题，未能在一个统一融合框架内同时处理多模态图像融合和数字摄影图像融合场景。因此，我们充分探索了不同图像融合场景的共性。然后，将多模态图像融合和数字摄影图像融合统一建模为结构保持、纹理保留和适当强度控制。此外，设计了一个注意力引导的跨域融合模块，以有效挖掘和整合融合过程中的域内和域间全局交互。

四.方法

在本节中，我们将多模态图像融合和数字摄影图像融合推广到结构信息维护、纹理细节保留和适当的强度控制。首先，我们提供了整体框架。然后，介绍了统一损失函数的设计。

A. 整体框架

设 $I_1 \in \mathbb{R}^{H \times W \times C_{in}}$ 和 $I_2 \in \mathbb{R}^{H \times W \times C_{in}}$ 表示来自不同域的两个对齐源图像， $I_f \in \mathbb{R}^{H \times W \times C_{out}}$ 是具有完整场景表示的融合图像。H 、W 和 $C_{in}$ 分别是输入图像的高度、宽度和通道数。 $C_{out}$ 是融合图像的通道数。提出的 SwinFusion 旨在通过融合源图像 $I_1$ 、 $I_2$ 中的局部和全局互补信息生成融合图像 $I_f$ 。如图 2 所示，SwinFusion 可分为三部分：特征提取、注意力引导的跨域融合和重构。

特征提取：

首先，我们通过多层卷积层 $H_{SE}(\cdot)$ 从源图像 $I_1$ 和 $I_2$ 中提取浅层特征 $F^1_{{SF}}$ 和 $F^2_{{SF}}$ ，表示为：

$\{F^1_{{SF}}, F^2_{{SF}}\} = \{H_{SE}(I_1), H_{SE}(I_2)\}.$

卷积层擅长早期视觉处理，带来更稳定的优化和更好的结果。它还提供了一种简单而有效的方式来提取局部语义信息并将其映射到高维特征空间。浅层特征提取模块由两个卷积层组成，激活函数为 Leaky ReLU，卷积核大小为 $3 \times 3$ ，步幅为 1。

随后，我们从 $F^1_{SF}$ 和 $F^2_{SF}$ 中提取深层特征 $F^1_{DF}$ 和 $F^2_{DF}$ ，表示为：

$\{F_{1_{DF}}, F_{2_{DF}}\} = \{HDE(F_{1_{SF}}), HDE(F_{2_{SF}})\}.$

其中 $H_{DE}(\cdot)$ 是包含 N 个 Swin Transformer 层的深层特征提取单元。Swin Transformer 层的核心架构与跨域融合单元一致，下面将详细描述。在本文中，N 设为 4。

注意力引导的跨域融合：

在提取具有充分全局语义信息的深层特征后，我们设计了一个注意力引导的跨域融合模块（ACFM）来进一步挖掘和聚合域内和跨域的全局上下文。首先，我们设计了一个基于自注意力的域内融合单元，以有效整合同一域内的全局交互。基于移窗机制的注意力是设计域内融合单元的基本组成部分。给定特征 F，大小为 $H \times W \times C$ ，移窗机制首先通过将输入划分为非重叠的 $M \times M$ 局部窗口，将输入重塑为 $\frac{HW}{M^2} \times M^2 \times C$ 的特征，其中 $\frac{HW}{M^2}$ 是窗口总数。接下来，对每个窗口分别执行标准自注意力。对于一个局部窗口特征 $X \in \mathbb{R}^{M^2 \times C}$ ，使用三个可学习的权重矩阵 $W_Q \in \mathbb{R}^{C \times C}$ 、 $W_K \in \mathbb{R}^{C \times C}$ 、 $W_V \in \mathbb{R}^{C \times C}$ ，通过以下方式将其投影为查询 Q 、键 K 和值V：

$\{Q, K, V\} = \{XW_Q, XW_K, XW_V\}.$

然后，注意力函数计算查询与所有键的点积，并通过 softmax 运算符归一化以获得注意力分数。注意力机制定义为：

$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}} + B\right)V.$ .

其中 $d_k$ 是键的维度，B 是可学习的相对位置编码。参考文献 [28]，我们将自注意力扩展为多头自注意力（MSA），使注意力机制能够考虑不同的注意力分布，并使模型从不同角度捕捉信息。实际中，我们并行执行 h 次注意力函数并连接结果以实现多头自注意力，在本文中h 设为 6。接下来，部署一个由两个多层感知器（MLP）层和 GELU 激活层组成的前馈网络（FFN），以精炼 MSA 生成的特征标记。在 MSA 和 FFN 之后始终执行层归一化（LN），并对两个模块应用残差连接。因此，域内融合单元对局部窗口特征X 的完整过程表示为：

$\{Q, K, V\} = \{XW_Q, XW_K, XW_V\},$

$\tilde{Z} = \text{LN}(\text{MSA}(Q, K, V)) + X,$

$Z = \text{LN}(\text{FFN}(\tilde{Z})) + \tilde{Z}.$

其中 Z 是以 X 为输入的域内融合单元的输出。前馈网络（FFN）如下：

$\text{FFN}(X) = \text{GELU}(W_1X + b_1)W_2 + b_2.$

其中 GELU 是高斯误差线性单元。特别地，Swin Transformer 层遵循与域内融合单元相同的处理过程。我们还在图 3 中展示了两个连续 Swin Transformer 层的框架，以清楚说明其处理过程。

值得注意的是，如果不同层的窗口划分固定，则窗口之间没有连接。因此，参考文献 [33]、[38]，我们交替使用常规和移窗划分以实现跨窗口连接，其中移窗划分意味着在划分之前将特征移动 $\left( \lfloor \frac{M}{2} \rfloor, \lfloor \frac{M}{2} \rfloor \right)$ 像素。

图 4 显示了 Swin Transformer 层和域内融合单元中计算注意力的移窗机制示例。如图所示，在第 l层，采用常规窗口划分方案，并在每个窗口内计算注意力。在下一层（即第 l+1层），窗口划分发生偏移，导致生成新窗口。因此，新窗口中的注意力计算跨越了第 l 层窗口的边界，提供了它们之间的连接。

在域内融合单元之后，我们还设计了一个基于跨注意力的跨域融合单元，以进一步整合不同域之间的全局交互。域内融合单元和跨域融合单元遵循相似的基线。主要区别在于，跨域融合单元使用多头跨注意力（MCA）而不是 MSA 来实现跨域的全局上下文交换。因此，给定来自不同域的两个局部窗口特征 $X_1$ 和 $X_2$ ，跨域融合单元的整个过程定义为：

$\{Q_1, K_1, V_1\} = \{X_1W_{Q_1}, X_1W_{K_1}, X_1W_{V_1}\},$

$\{Q_2, K_2, V_2\} = \{X_2W_{Q_2}, X_2W_{K_2}, X_2W_{V_2}\},$

$\tilde{Z}_1 = \text{LN}(\text{MCA}(Q_1, K_2, V_2)) + Q_1,$

$\tilde{Z}_2 = \text{LN}(\text{MCA}(Q_2, K_1, V_1)) + Q_2,$

$Z_1 = \text{LN}(\text{FFN}(\tilde{Z}_1)) + \tilde{Z}_1,$

$Z_2 = \text{LN}(\text{FFN}(\tilde{Z}_2)) + \tilde{Z}_2.$

如公式 (7) 所示，对于来自域 1 的 $Q_1$ ，它通过与来自域 2 的 $K_2$ 和 $V_2$ 进行注意力加权来融入跨域信息，同时通过残差连接保留域 1 的信息，反之亦然。我们的模型部署了 L 个注意力引导的跨域融合模块，由级联的域内融合单元和跨域融合单元组成，以交替整合全局域内和跨域交互。为了平衡计算效率和融合性能，我们将 L 设为 2。

在注意力引导的跨域融合模块之后，部署一个具有空间不变滤波器的卷积层，以聚合同一域中的局部信息并增强 SwinFusion 的平移等变性，表示为：

$F_{F{DF}} = H_{\text{Conv}}(\text{Concat}(F^1_{AF}, F^2_{AF})).$

其中 $F^1_{AF}$ 和 $F^2_{AF}$ 分别表示以 $F^1_{DF}$ 和 $F^2_{DF}$ 为输入的 ACFM 聚合的输出特征。 $H_{\text{Conv}}(\cdot)$ 表示具有空间不变滤波器的卷积层， $\text{Concat}(\cdot)$ 指的是通道维度的拼接。 $F_{F_{DF}}$ 表示融合的深层特征，是特征重构模块的输入。

重构：

在充分融合不同域的互补信息后，我们设计了基于 Transformer 的深层特征重构单元和基于 CNN 的图像重构单元，将融合的深层特征映射回图像空间。首先，包含 P 个 Swin Transformer 层的深层特征重构单元 $H_{DR}(.)$ 被部署以从全局视角精炼融合的深层特征并恢复融合的浅层特征，表示为：

$F_{FSF} = H_{DR}(F_{FDF}).$

为了充分利用深层特征中的全局上下文恢复融合的浅层特征，P 设为 4。然后，部署基于 CNN 的图像重构单元 $H_{IR}(\cdot)$ 以减少通道数并生成融合图像 $I_f$ ，表示为：

$I_f = H_{IR}(F_{FSF}).$

融合图像重构单元包含三个卷积层，卷积核大小为 $3 \times 3$ ，步幅为 1，其中前两层后接 Leaky ReLU 激活函数。

B. 损失函数

为了统一建模多模态图像融合和数字摄影图像融合，我们将不同的图像融合问题推广到结构维护、纹理保留和适当的强度控制。因此，我们设计了 SSIM 损失、纹理损失和强度损失来约束网络。

SSIM 损失：

考虑到结构相似性（SSIM）指数是最广泛使用的指标，从光照、对比度和结构三个方面反映图像失真，我们采用 SSIM 损失 $L_{\text{ssim}}$ 来约束 $I_f$ 与 $I_1$ 、 $I_2$ 的结构相似性。具体来说，SSIM 损失定义为：

$L_{\text{ssim}} = w_1 \cdot (1 - \text{ssim}(I_f, I_1)) + w_2 \cdot (1 - \text{ssim}(I_f, I_2)).$

其中 $\text{ssim}(\cdot)$ 表示结构相似性操作，测量两幅图像的相似性。我们认为两幅源图像在结构信息方面对融合结果的贡献相同。因此，在本文中， $w_1 = w_2 = 0.5$ 。

纹理损失：

图像融合的目标之一是将源图像中的纹理细节整合到单一融合图像中。我们观察到，源图像中的纹理细节可以通过最大选择策略有效聚合。因此，设计了纹理损失 $L_{\text{text}}$ ，如公式 (12) 所示，以引导网络尽可能保留纹理细节：

$L_{\text{text}} = \frac{1}{HW} \left\| |\nabla I_f| - \max(|\nabla I_1|, |\nabla I_2|) \right\|_1.$

其中 ∇表示 Sobel 梯度算子，可测量图像的纹理信息。 $|\cdot|$ 表示绝对值操作， $\|\cdot\|_1$ 表示 $l_1$ -范数， $\max(\cdot)$ 指逐元素最大选择。

强度损失：

一个优秀的图像融合算法应根据源图像的全局表观强度信息生成具有适当强度的融合图像。为此，我们设计了以下强度损失 $L_{\text{int}}$ ，以引导融合模型捕获适当的强度信息：

$L_{\text{int}} = \frac{1}{HW} \left\| I_f - M(I_1, I_2) \right\|_1.$

其中 $M(\cdot)$ 是逐元素聚合操作，与特定的融合场景相关。受 IFCNN [20] 的启发，对于可见光与红外图像融合（VIF）、医学图像融合（Med）和多焦点图像融合（MFF），我们采用逐元素最大选择，即 $\max(\cdot)$ 。此外，对于可见光与近红外图像融合（VIS-NIR）和多曝光图像融合（MEF），我们利用逐元素均值聚合，即 \mean(⋅) \mean(\cdot) \mean(⋅)

最后，我们融合模型的完整目标函数是公式 (11) 到 (13) 中所有子损失项的加权和：

$L_{\text{total}} = \lambda_1 L_{\text{ssim}} + \lambda_2 L_{\text{text}} + \lambda_3 L_{\text{int}}.$

其中 $\lambda_1$ 、 $\lambda_2$ 和 $\lambda_3$ 是控制每个子损失项权衡的超参数。

-----------------------------------------------------------------------------------------

C.解析

1. 整体框架

SwinFusion 的目标是通过融合两个对齐的源图像 $I_1$ 和 $I_2$ （尺寸为 $H \times W \times C_{in}$ ），生成一个融合图像 $I_f$ （尺寸为 $H \times W \times C_{out}$ ），保留结构信息、纹理细节和适当的强度分布。整个框架分为三个阶段：

特征提取：从浅层到深层，提取局部和全局特征。
注意力引导的跨域融合：通过自注意力和跨注意力机制整合域内和跨域的全局上下文。
重构：将融合特征映射回图像空间，生成最终融合图像。

2. 特征提取

特征提取分为两步：浅层特征提取和深层特征提取。

浅层特征提取（公式 1）：

$\{F^1_{{SF}}, F^2_{{SF}}\} = \{H_{SE}(I_1), H_{SE}(I_2)\}.$

$H_{SE}(\bullet )$ 是一个由两层卷积网络组成的模块，卷积核大小为 $3 \times 3$ ，步幅为 1，使用 Leaky ReLU 激活函数。
卷积层擅长捕捉低层次的局部语义信息（如边缘、纹理），并将其映射到高维特征空间。Leaky ReLU 避免了梯度消失问题，适合早期特征提取。
文献 [74] 指出，卷积层在早期视觉处理中具有稳定性和鲁棒性，有助于优化。
深层特征提取（公式 2）：

$\{F^1_{{DF}}, F^2_{{DF}}\} = \{H_{DE}(F^1_{{DF}}), H_{DE}(F^2_{{DF}})\}.$

$H_{DE}(\bullet )$ 由 N=4个 Swin Transformer 层组成。Swin Transformer 是 Vision Transformer 的变种，通过移窗机制（shifted window）降低计算复杂度，同时捕捉全局信息。
Swin Transformer 的核心是基于窗口的自注意力机制，适合处理高分辨率图像。

3. 注意力引导的跨域融合

跨域融合模块（ACFM）是 SwinFusion 的核心，分为域内融合和跨域融合两个子模块，基于注意力机制实现全局上下文的挖掘和整合。

五. 实验结果与讨论

在本节中，我们通过定量和定性比较，将 SwinFusion 与多种最先进的算法在多模态图像融合和数字摄影图像融合场景下进行对比。首先，我们介绍实验配置和实现细节。随后，与最先进的替代方法进行定量和定性比较。此外，还在其他视觉任务上进行了扩展实验，以展示我们的方法在其他计算机视觉任务中的潜力。最后，通过一系列消融研究验证特定设计的有效性。

A. 实验配置

数据集：我们在多模态图像融合和数字摄影图像融合中验证了 SwinFusion。对于多模态图像融合，我们选择了三个代表性场景，即可见光与红外图像融合（VIF）、可见光与近红外图像融合（VIS-NIR）以及医学图像融合（Med）。对于数字摄影图像融合，选择了两个典型任务，即多曝光图像融合（MEF）和多焦点图像融合（MFF）。所有融合任务的训练和测试数据均来自公开数据集。

VIF：使用 MSRS 数据集 [76, 77]，包含 1,083 对训练图像对和 361 对测试图像对，用于训练和评估可见光与红外图像融合任务。
VIS-NIR：基于公开的 VIS-NIR Scene 数据集 [78] 构建训练和测试数据集，训练集和测试集分别包含 377 和 100 对图像。
Med：基于哈佛医学数据集 [3] 构建医学图像融合的训练和测试数据集。PET 和 MRI 图像融合（Med (PET-MRI)）的训练和测试图像对分别为 249 和 20 对；CT 和 MRI 图像融合（Med (CT-MRI)）的训练和测试图像对分别为 163 和 20 对。
MEF：使用 MEF 数据集 [79] 训练 MEF 模型，MEF 基准数据集 [80] 包含 100 对不同场景的图像对作为测试集。
MFF：使用 MFI-WHU 数据集 [56] 和 Lytro 数据集 [81] 分别进行 MFF 的训练和测试，Lytro 数据集包含 20 对 520×520 像素的彩色多焦点图像。

测试集大小不同的原因：

某些数据集（如 MEFB 和 Lytro）仅用于测试算法性能，因此测试集大小为整个数据集的大小（MEFB 为 100，Lytro 为 20）。
MSRS 数据集指定测试集大小为 361。
由于哈佛医学数据集的限制，所有医学图像融合任务随机选择 20 个测试图像，与 Lytro 数据集一致。
VIS-NIR Scene 数据集随机选择 100 个测试图像，与 MEFB 数据集保持一致。

比较算法：我们选择了七种最先进的方法作为比较算法，包括四种通用图像融合框架和三种特定任务方法：

通用图像融合算法：IFCNN [20]、PMGI [16]、SDNet [60]、U2Fusion [10]。
VIF 特定任务方法：GTF [17]、DenseFuse [22]、FusionGAN [55]。
VIS-NIR 特定任务方法：ANVF [3]、DenseFuse [22]、GANMcC [82]。
Med 特定任务方法：CSMCA [39]、EMFusion [4]、DDcGAN [24]。
MEF 特定任务方法：SPD-MEF [41]、MEFNet [83]、MEF-GAN [25]。
MFF 特定任务方法：SFMD [42]、DRPL [46]、MFF-GAN [56]。
除 GTF [17]、ANVF [3]、CSMCA [39]、SPD-MEF [41] 和 SFMD [42] 为传统方法外，其余均为基于深度学习的方法。

评估指标：选择四种指标进行定量评估，包括特征互信息（FMI）[84]、Qabf、结构相似性（SSIM）[75] 和峰值信噪比（PSNR）。

FMI 和 Qabf 分别衡量从源图像传输到融合图像的特征信息和边缘信息。
PSNR 揭示融合过程中像素级的失真。
SSIM 从亮度、对比度和结构角度反映图像失真。
FMI、Qabf、SSIM 和 PSNR 越高，表明融合性能越好。

B. 实现细节

批大小：设为 16，每个融合任务训练 10,000 步。
数据预处理：训练集图像随机裁剪为 128×128 的小块，并归一化到 [0, 1]。
优化器：使用 Adam 优化器，初始学习率为 2×10⁻⁴，呈指数衰减。
超参数：子损失项权衡的超参数经验设定为 λ₁ = 10、λ₂ = 20、λ₃ = 20。
窗口大小：参考 SwinIR [33]，设 M = 8。
平台：SwinFusion 在 PyTorch 平台 [85] 上实现，所有实验在 NVIDIA TITAN RTX GPU 和 2.60GHz Intel(R) Xeon(R) Platinum 8171M CPU 上进行。

处理 RGB 输入：

RGB 输入首先转换为 YCbCr 颜色空间。
Y（亮度）通道作为融合模型的输入，因为结构细节和强度信息主要集中在此通道。
对于多模态图像融合，融合的 Y 通道与可见光图像（或 PET 图像）的 Cb 和 Cr（色度）通道一起映射回 RGB 颜色空间，因为只有可见光和 PET 图像包含颜色信息。
对于数字摄影图像融合，Cb 和 Cr 通道按照以下公式传统融合：

其中 $C_1$ 和 $C_2$ 分别是源图像 $I_1$ 和 $I_2$ 的 Cb 或 Cr 通道， $C_f$ 是相应通道的融合结果， $\tau$ 设为 128。

随后，融合的 Y、Cb 和 Cr 通道通过逆转换转换为 RGB 颜色空间。因此，多模态图像融合和数字摄影图像融合统一为单通道图像融合问题。

处理序列输入：

实践中，鲁棒框架需要融合序列图像（即超过两张图像）。为此，我们按顺序融合源图像。
图 5 和图 6 展示了示意图：首先融合两张序列图像，然后将中间结果与另一张源图像融合，生成最终融合图像。
通过这种方式，SwinFusion 理论上能够融合任意数量的序列图像。

C. 多模态图像融合结果

定量比较：表 I 显示了 SwinFusion 与最先进算法的定量比较。SwinFusion 在多模态图像融合任务的几乎所有指标中均名列前茅：

最高的 FMI 和 Qabf 表明我们的方法从源图像中传输了最多的特征和边缘信息。
在 VIF、VIS-NIR 和 Med (PET-MRI) 上最佳的 SSIM 显示出结构信息维护的优势。
在 Med (CT-MRI) 的 SSIM 指标上仅略逊于 IFCNN。
在 VIS-NIR 上取得最佳 PSNR，表明融合过程中信息失真最少。
尽管 VIF 的 PSNR 落后于其他竞争者，但这是合理的：我们的模型通过充分整合源图像的全局交互，更加关注红外图像中的显著目标区域，导致非显著区域信息丢失。医学图像融合中也存在类似现象，因为融合网络更关注显著区域而忽略不重要区域。

视觉质量比较：我们在图 7 - 图 10 中提供了视觉结果，直观展示 SwinFusion 在全局上下文整合方面的优势：

VIF（图 7）：GTF、SDNet 和 U2Fusion 由于缺乏全局信息交互和不适当的强度控制，无法有效呈现可见光图像的场景信息。DenseFuse 和 IFCNN 保留了一些可见光图像的纹理细节，但仍受热辐射污染，削弱了红外图像的显著目标。SwinFusion 不仅保留了可见光图像的场景信息，还维护了显著目标，得益于有效的全局上下文感知和适当的强度控制。
VIS-NIR（图 8）：ANVF、DenseFuse 和 U2Fusion 无法将近红外图像的纹理细节整合到融合结果中。只有 IFCNN、SDNet 和 SwinFusion 的融合图像看起来像锐化的可见光图像。SwinFusion 凭借充分的全局信息聚合、有效的结构维护和纹理保留，在定量评估中表现优异。
Med (PET-MRI)（图 9）：其他融合算法不可避免地削弱了源图像中的关键信息。在 PET 图像不包含功能信息的区域，其他竞争者通常由于缺乏全局上下文整合和适当的强度控制，破坏了 MRI 图像中的软组织信息（见绿色框）。DDcGAN 和 SDNet 无法有效聚合源图像的互补信息，平滑了 MRI 图像的纹理细节（见红色框）。SwinFusion 能够保留 MRI 图像的丰富细节，并充分表征 PET 图像的功能信息。
Med (CT-MRI)（图 10）：其他方法的融合结果中，CT 图像的密集结构被不同程度削弱。CSMCA、IFCNN 和 U2Fusion 减弱了 MRI 图像的边缘。DDcGAN 无法维持源图像的强度分布和对比度。相比之下，SwinFusion 在损失较少软组织细节和解剖信息的前提下，保留了更多结构（纹理）信息。

D. 数字摄影图像融合结果

定量比较：表 II 展示了 SwinFusion 与其他方法在数字摄影图像融合场景中的定量比较：

SwinFusion 在多曝光图像融合和多焦点图像融合的 Qabf、SSIM 和 PSNR 指标中均排名第一。
在 MEF 中取得最佳 FMI，在 MFF 的 FMI 指标上仅略逊于 MADCNN。
这些结果表明我们的模型能有效整合互补信息，充分保留源图像的纹理和结构信息。

视觉质量比较：

MEF（图 11）：其他算法由于缺乏全局曝光感知能力，无法维持适当的曝光水平。SDNet 和 U2Fusion 无法照亮黑暗中隐藏的场景信息（见红色框）。MEF-GAN 的整体曝光水平略好，但由于建模过程中的下采样导致局部过曝光和模糊。SPD-MEF 和 IFCNN 在某些区域引入伪影。SPD-MEF 丢失了欠曝光图像的所有信息，导致严重过曝光。只有 SwinFusion 通过全局曝光感知有效融合源图像的互补信息，维持适当的曝光水平。
MFF（图 12）：所有方法都能从不同源图像的聚焦区域整合信息，生成全聚焦图像。然而，MFF-AGN、SDNet 和 U2Fusion 由于缺乏全局上下文交互，无法保留最佳强度分布。SwinFusion 通过全局上下文聚合实现自适应聚焦区域感知，维持适当的强度分布。

总结：在多模态图像融合和数字摄影图像融合的广泛客观和主观比较中，SwinFusion 在结构维护、纹理细节保留和适当强度控制方面表现出色。其优势体现在：

明确设计了对应的损失函数，分别实现结构保留、纹理保留和自适应强度控制。
注意力引导的跨域融合模块实现了域内和跨域的长程依赖建模和全局上下文聚合，使模型能够从全局视角建模强度分布。
基于 Transformer 的深层特征提取模块帮助模型从全局视角挖掘显著特征和信息。

E. 全局信息的可视化

我们的方法能够充分挖掘域内和跨域的全局信息。对于多模态图像融合，SwinFusion 通过结合全局信息准确感知显著特征（如红外图像中的热目标和 MRI 图像中的软组织信息），并有效整合到融合图像中。对于数字摄影图像融合，全局信息帮助模型从全局视角感知源图像的强度分布，以适当的强度呈现场景信息。

图 13 提供了示意图，第二列显示以局部小块作为输入的融合结果。当缺乏全局信息（即以局部小块为输入）时，模型无法有效保留红外图像中的显著目标，也无法在多曝光图像融合任务中以适当的曝光水平呈现场景信息，融合图像出现交替的欠曝光和正常曝光。相反，当使用整张图像作为输入，提供足够的全局信息时，SwinFusion 不仅有效保留红外图像中的显著目标，还以正常曝光水平呈现场景信息。

F. 图像融合在其他视觉任务中的应用

我们研究了图像融合在其他视觉任务中的积极作用，分析了以源图像和融合图像作为输入时，其他视觉任务（如语义分割、目标检测和深度估计）的性能。

VIF 用于语义分割：

实验配置参考 SeAFusion [7]。表 III 显示了以像素交并比（IoU）衡量的语义分割定量结果。
SwinFusion 通过充分整合域内和跨模态的互补信息以及全局上下文，有效促进分割模型 [86] 感知成像场景。
图 14 提供了视觉示例：红外图像为分割模型提供了行人和车辆的信息，但无法提供自行车的信息；可见光图像的分割模型能分割车辆和自行车，但无法完全分割行人。融合图像整合了两者的优势，使分割模型能够分割行人、车辆和自行车。在第二个场景中，可见光和红外图像均无法为分割模型提供足够信息以完全分割行人和车辆，而融合图像使分割网络能够充分感知场景信息，完整分割车辆和行人。

VIF 用于目标检测：

使用最先进的目标检测网络 YOLOv5 [87] 测量源图像和融合图像上的目标检测性能，测试集由 GAN-FM [88] 收集和标注。
表 IV 显示了目标检测的平均精度均值（mAP），其中 AP@0.5、AP@0.7 和 AP@0.9 表示 IoU 阈值为 0.5、0.7 和 0.9 时的 AP 值，mAP@[0.5:0.95] 表示不同 IoU 阈值（从 0.5 到 0.95，步长 0.05）的平均 AP 值。
可见光和红外图像仅为检测器提供特定目标信息，可见光图像在车辆检测上表现更好，红外图像在行人检测上表现更优。这种互补特性使检测器在融合图像上具有更好的性能，融合图像为车辆提供了更全面的描述，从而提升了车辆检测性能。尽管行人检测在融合图像上的性能略逊于红外图像，但这是合理的：红外图像仅收集显著目标的热辐射信息，忽略周围环境，导致显著目标（如行人）的对比度更高，便于检测器检测行人。图 15 提供了可视化示例。