顶会idea:Mamba+CNN暴力涨点新突破!
2025深度学习发论文&模型涨点之——Mamba+CNN
卷积神经网络(CNN)凭借其局部感知、权重共享和平移不变性等特性,在计算机视觉领域长期占据主导地位。然而,随着Transformer架构的兴起,其全局建模能力和动态注意力机制在多项任务中展现出显著优势,但也因二次计算复杂度面临长序列应用的瓶颈。在此背景下,状态空间模型(State Space Models, SSMs)尤其是Mamba架构的提出,通过选择性状态机制和线性复杂度特性,为长序列建模提供了新的范式。
值得注意的是,CNN与Mamba的融合正逐渐成为研究热点:一方面,CNN的局部特征提取能力能有效弥补纯SSM模型在细粒度视觉特征捕获上的不足;另一方面,Mamba的全局上下文建模和序列依赖性处理能力可突破CNN感受野的固有局限。这种混合架构在医学图像分析、视频理解、高分辨率遥感等任务中已表现出显著优势,例如通过CNN骨干网络提取多层次空间特征后,由Mamba模块进行跨区域关系建模,或在频域中结合两者的归纳偏置。
我整理了一些Mamba+CNN【论文+代码】合集,需要的同学公人人人号【AI创新工场】发525自取。
论文精选
论文1:
CM-UNet: Hybrid CNN-Mamba UNet for Remote Sensing Image Semantic Segmentation
CM-UNet:用于遥感图像语义分割的混合CNN-Mamba UNet
方法
CNN编码器:使用ResNet作为编码器,提取多尺度局部特征。
Mamba解码器:引入基于Mamba的解码器,用于聚合和整合全局信息。
CSMamba块:设计了CSMamba块,结合通道和空间注意力机制,增强特征交互和全局-局部信息融合。
多尺度注意力聚合(MSAA)模块:用于合并不同尺度的特征,优化特征融合。
多输出监督:在解码器的各个阶段引入中间监督,逐步生成语义分割结果。
创新点
性能提升:在ISPRS Potsdam数据集上,CM-UNet的mF1为93.05%,OA为91.86%,mIoU为87.21%,相比UNetformer分别提升了0.25%、0.56%和0.41%。
全局-局部信息融合:通过CSMamba块和MSAA模块,有效整合全局和局部信息,提升分割精度。
计算效率:利用Mamba架构的线性时间复杂度,提高了处理大规模遥感图像的效率。
多尺度特征学习:通过MSAA模块,增强了对多尺度特征的融合能力,进一步提升分割性能。
论文2:
Weak-Mamba-UNet: Visual Mamba Makes CNN and ViT Work Better for Scribble-based Medical Image Segmentation
Weak-Mamba-UNet:视觉Mamba让CNN和ViT在基于涂鸦的医学图像分割中表现更好
方法
CNN-UNet:使用基于CNN的UNet进行局部特征提取。
SwinUNet:使用基于Swin Transformer的SwinUNet进行全局上下文理解。
Mamba-UNet:使用基于Mamba的Mamba-UNet进行长距离依赖建模。
多视图交叉监督学习:通过伪标签实现不同网络之间的协作和迭代学习。
伪标签生成:结合三个网络的预测生成密集伪标签,用于密集信号监督。
创新点
性能提升:在MRI心脏分割数据集上,Weak-Mamba-UNet的Dice系数为0.9171,准确率为0.9963,相比仅使用UNet或SwinUNet的框架,分别提升了约1.8%和1.3%。
多视图交叉监督:通过CNN、ViT和Mamba三种架构的协作,增强了在有限监督下的分割性能。
伪标签机制:利用伪标签实现从稀疏标签到密集信号的转换,提升了网络的泛化能力。
Mamba架构的应用:首次将Mamba架构应用于基于涂鸦的医学图像分割任务,验证了其在弱监督学习中的有效性。
论文3:
On the low-shot transferability of [V]-Mamba
关于[V]-Mamba的低样本迁移能力
方法
线性探测(LP):通过线性分类器对预训练模型进行微调,适应下游任务。
视觉提示(VP):通过输入变换和输出映射层对预训练模型进行调整,适应下游任务。
模型比较:对比Vision Transformers(ViTs)和State Space Models(SSMs)在不同低样本数据预算下的迁移性能。
实验设置:在多个下游数据集(如CIFAR-10、SVHN等)上进行实验,评估不同模型的迁移能力。
创新点
性能提升:在使用线性探测(LP)时,[V]-Mamba在多数数据集上的性能优于或等于ViTs。
迁移能力:在使用视觉提示(VP)时,[V]-Mamba的性能弱于或等于ViTs。
模型规模相关性:观察到[V]-Mamba模型规模越大,LP和VP之间的性能差距越明显。
迁移方法的对比:通过对比LP和VP两种迁移方法,揭示了[V]-Mamba在不同迁移策略下的表现差异,为后续研究提供了新的视角。