当前位置：首页 > news >正文

[U-Net]DA-TRANSUNET

news 来源：原创 2025/4/25 10:30:21

论文题目：DA-TRANSUNET: INTEGRATING SPATIAL AND CHANNEL DUAL ATTENTION WITH TRANSFORMER U-NET FOR MEDICAL IMAGE SEGMENTATION ∗

中文题目：DA-TRANSUNET：结合空间和通道双注意力与Transformer U-NET的医学图像分割算法

0摘要

精确的医学图像分割对疾病定量和治疗评估至关重要。尽管传统的U-Net架构及其集成Transformer的变种在自动分割任务中表现出色，但它们无法充分利用图像的内在位置特征和通道特征。现有模型在参数效率和计算复杂度方面也面临困难，尤其是在广泛使用Transformer的情况下。为了解决这些问题，本研究提出了一种新颖的深度医学图像分割框架——DA-TransUNet，旨在将Transformer和双重注意力块（DA-Block）集成到传统的U形架构中。与早期的基于Transformer的U-Net模型不同，DA-TransUNet利用Transformer和DA-Block集成了图像的全局和局部特征，同时还融合了图像特有的位置特征和通道特征，从而提升了医学图像分割的性能。通过在嵌入层和每个跳跃连接层中引入DA-Block，我们显著增强了特征提取能力，并提高了编码器-解码器结构的效率。DA-TransUNet在医学图像分割任务中表现出色，在多个数据集上始终优于现有的最先进技术。总之，DA-TransUNet在医学图像分割方面提供了重要的进展，为现有技术提供了一种有效且强大的替代方案。我们的架构以其提高分割精度的能力脱颖而出，从而推动了自动医学图像诊断领域的发展。我们的模型代码和参数将公开发布，网址为：https://github.com/SUN-1024/DA-TransUnet。

关键词：U-net ，医学图像分割，双重注意， Transformer

1 引言

医学图像分割是指在医学图像中划定感兴趣区域的过程，用于诊断和治疗计划。它是医学图像分析的基础。精确地划分病变区域在量化疾病、评估疾病预后和治疗效果方面起着至关重要的作用。手动分割在病理诊断中既准确又经济，但在标准化临床环境中至关重要。相反，自动化分割确保了可靠和一致的过程，提高了效率，减少了劳动力和成本，同时保持了准确性。因此，临床诊断领域对极为精确的自动化医学图像分割技术有着巨大的需求。

在过去的十年中，传统的U-Net结构已广泛应用于众多分割任务，取得了显著的成果。值得注意的是，U-Net模型[1]及其各种增强版本取得了显著成功。ResUnet[2]就是在这一时期出现的，受残差概念的影响。类似地，UNet++[3]强调跳跃连接的改进，而DAResUnet[4]则在U-Net中加入了残差块（Res-Block）和双重注意力块（Dual Attention Block）。这些架构都受到了编码器-解码器思想的影响，跳跃连接为解码器提供初始特征，弥合了编码器和解码器之间的语义差距。然而，感知领域的局限性和卷积操作中的偏差可能会影响分割准确性。此外，无法建立长距离的依赖关系和全局上下文也进一步限制了性能的提升。

变压器（Transformer）[5]最初是为自然语言处理（NLP）中的序列到序列建模开发的，但它在计算机视觉（CV）领域也找到了应用。视觉变压器（ViTs）将图像划分为块，并将它们的嵌入输入到变压器网络中，以实现强大的性能[6]。ViTs在计算机视觉中的应用，尤其是在医学图像分割中，进一步增强了其分割效果。受到ViTs启发，TransUNet[7]结合了ViTs的功能与U-Net在医学图像分割中的优势。具体而言，它采用变压器的编码器处理图像，并使用CNN和跳跃连接实现准确的上采样特征恢复，但忽略了图像特有的特征，如位置和通道信息。通过利用ViTs的能力，TransUNet[7]将ViTs和U-Net架构的优点融合在一起，推动了医学图像分割性能的提升。TransUNet利用基于变压器的编码器进行强大的图像特征提取，同时结合传统的卷积神经网络和跳跃连接，精准地进行特征图的上采样。但它忽略了图像特有的空间定位和通道信息。Swin-Unet[8]则将Swin变压器块与U-Net结构结合，取得了不错的效果。然而，加入大量变压器块会增加参数量，但并未显著提高结果。然而，以上提到的医学图像分割研究在利用U-Net和变压器特性方面取得了一定进展，但它们也存在一些局限性：

尽管将 Transformer 与传统的 U-Net 架构相结合在医学图像分割中取得了一定的成果，但 Transformer 缺乏内置的机制来考虑图像特有的位置和通道特征。这一功能上的缺口需要进一步的研究。
在 U-Net 模型中，跳跃连接作为一个重要元素，弥合了编码器和解码器之间的语义鸿沟。尽管跳跃连接有望改善分割性能，但迄今为止，关于跳跃连接的优化工作仍然较少。
许多研究仅仅通过堆叠多个 Transformer 来增强模型，这会导致参数膨胀和计算复杂度增加，而性能提升却微乎其微。Transformer 和 U-Net 架构的集成设计复杂，因此值得进一步研究。

为了解决上述挑战，我们提出了 DA-TransUNet，它引入了专门设计的 DA-Blocks，用于提取图像特定的位置信息和通道特征，从而提高了参数效率和性能。我们认为，广泛使用 Transformer 并不如利用一组经过精确校准的 DA-Blocks 来优化图像特征的效果更为显著。Transformer 层中的 DA-Block 具有强大的专业能力，用于提取图像特有的位置信息和通道特征。这个块结合了双重注意力网络（Dual Attention Network for Scene Segmentation）中的位置注意力块（PAM）和通道注意力块（CAM）[9]。该双重注意力块被置于 DA-TransUNet 的嵌入层中，提供了强大的特征提取能力。我们还将 DA-Block 集成到三层跳跃连接中，以优化编码器传递的特征。这缩小了语义差距，帮助构建统一的特征表示。通过这种融合方法，最大化了在注意力机制中对位置和通道特征的使用，优化了模型。此外，U-Net 结构中的跳跃连接通过引入 DA-Blocks 得到了增强，能够过滤无关信息，改善图像重建质量。凭借这些增强，解码和医学图像分割能力得到了显著提升。

我们主要在多个医学图像数据集上评估了 DA-TransUNet 的有效性，包括 Synapse [10]、CVC-ClinicDB [11]、ISIC2018 [12, 13]、kvasir-seg [14]、Kvasir-Instrument 数据集 [15] 和 Chest X-ray 病例数据集 [16, 17]。DA-TransUNet 展示了显著的效果，得到了可量化的指标证明。我们的主要贡献总结如下：

我们提出了 DA-TransUNet，一种新颖的架构，将双重注意力机制集成到 Transformer U-net 框架中，用于处理位置和通道信息。这一设计提高了编码器-解码器结构的灵活性和功能，从而提升了医学图像分割任务的性能。
提出了一个精心设计的双重注意力编码机制，该机制被置于编码器中 Transformer 层之前。这样可以增强其特征提取能力，丰富 U-net 结构中编码器的功能。（第 3 节）
通过将双重注意力块集成到每一层跳跃连接中，增强了跳跃连接的有效性。通过消融实验验证，这一修改提高了特征传递到解码器的准确性，从而改善了图像分割性能。（第 4.4 节）
我们提出的 DA-TransUNet 方法在多个医学图像数据集上取得了最先进的性能，证明了我们方法的有效性，并为推动医学图像分割的发展做出了贡献。

本文的其余部分安排如下：第 II 节回顾了自动医学图像分割的相关工作，第三节给出了我们提出的 DA-TransUNet 的描述。接下来，第 IV 节进行了综合实验和可视化分析。最后，第 V 节对整个工作进行了总结。

2 相关工作

2.1 U-net 模型

近年来，注意力机制在 U-net 架构中得到了广泛应用[1]。例如，Attention U-net 引入了注意力机制，以增强胰腺定位和分割性能[18]；DAResUnet 将双重注意力和残差机制整合到 U-net 中[4]；Attention Res-UNet 探讨了将硬注意力替换为软注意力的方法[19]；Sa-unet 在 U-net 中集成了空间注意力机制[20]。在此基础上，TransUNet 创新性地将 Transformer 与 U-net 结构相结合[7]。基于 TransUNet，TransU-Net++ 将注意力机制引入跳跃连接和特征提取中[21]。Swin-Unet[8] 通过用 Swin-Transformer 替换 U-net 中的每个卷积块来进行改进[22]。DS-TransUNet 提出了将 tif 模块引入跳跃连接以改进模型的方案[23]。AA-transunet 采用了块注意力模型（CBAM）和深度可分离卷积（DSC）来进一步优化 TransUNet[24]。TransFuse 使用双重注意力双重融合块和 AG 来融合 CNN 和 Transformer 的不同部分的特征[25]。尽管许多注意力机制已被添加到 U-net 和 TransUNet 模型中，但仍需要进一步探索。与以往的方法不同，我们的实验将双重注意力机制和 Transformer 模块引入传统的 U 型编码器-解码器架构和跳跃连接，取得了令人满意的结果。

2.2 跳跃连接在医学图像分割模型中的应用

U-net 中的跳跃连接旨在弥合编码器和解码器之间的语义差距，有效地恢复细粒度的目标细节[26][27][28]。跳跃连接的主要修改有三种：首先，增加其复杂性[29]。U-Net++ 重新设计了跳跃连接，引入了类似 Dense 结构的跳跃连接[3]，而 U-Net3++[30] 则将跳跃连接改为全尺度跳跃连接。其次ÿ