当前位置：首页 > news >正文

顶会idea：Mamba+CNN暴力涨点新突破！

news 来源：原创 2025/4/29 11:39:10

2025深度学习发论文&模型涨点之——Mamba+CNN

卷积神经网络（CNN）凭借其局部感知、权重共享和平移不变性等特性，在计算机视觉领域长期占据主导地位。然而，随着Transformer架构的兴起，其全局建模能力和动态注意力机制在多项任务中展现出显著优势，但也因二次计算复杂度面临长序列应用的瓶颈。在此背景下，状态空间模型（State Space Models, SSMs）尤其是Mamba架构的提出，通过选择性状态机制和线性复杂度特性，为长序列建模提供了新的范式。

值得注意的是，CNN与Mamba的融合正逐渐成为研究热点：一方面，CNN的局部特征提取能力能有效弥补纯SSM模型在细粒度视觉特征捕获上的不足；另一方面，Mamba的全局上下文建模和序列依赖性处理能力可突破CNN感受野的固有局限。这种混合架构在医学图像分析、视频理解、高分辨率遥感等任务中已表现出显著优势，例如通过CNN骨干网络提取多层次空间特征后，由Mamba模块进行跨区域关系建模，或在频域中结合两者的归纳偏置。

我整理了一些Mamba+CNN【论文+代码】合集，需要的同学公人人人号【AI创新工场】发525自取。

论文精选

论文1：

CM-UNet: Hybrid CNN-Mamba UNet for Remote Sensing Image Semantic Segmentation

CM-UNet：用于遥感图像语义分割的混合CNN-Mamba UNet

方法

CNN编码器：使用ResNet作为编码器，提取多尺度局部特征。

Mamba解码器：引入基于Mamba的解码器，用于聚合和整合全局信息。

CSMamba块：设计了CSMamba块，结合通道和空间注意力机制，增强特征交互和全局-局部信息融合。

多尺度注意力聚合（MSAA）模块：用于合并不同尺度的特征，优化特征融合。

多输出监督：在解码器的各个阶段引入中间监督，逐步生成语义分割结果。

创新点

性能提升：在ISPRS Potsdam数据集上，CM-UNet的mF1为93.05%，OA为91.86%，mIoU为87.21%，相比UNetformer分别提升了0.25%、0.56%和0.41%。

全局-局部信息融合：通过CSMamba块和MSAA模块，有效整合全局和局部信息，提升分割精度。

计算效率：利用Mamba架构的线性时间复杂度，提高了处理大规模遥感图像的效率。

多尺度特征学习：通过MSAA模块，增强了对多尺度特征的融合能力，进一步提升分割性能。

论文2：

Weak-Mamba-UNet: Visual Mamba Makes CNN and ViT Work Better for Scribble-based Medical Image Segmentation

Weak-Mamba-UNet：视觉Mamba让CNN和ViT在基于涂鸦的医学图像分割中表现更好

方法

CNN-UNet：使用基于CNN的UNet进行局部特征提取。

SwinUNet：使用基于Swin Transformer的SwinUNet进行全局上下文理解。

Mamba-UNet：使用基于Mamba的Mamba-UNet进行长距离依赖建模。

多视图交叉监督学习：通过伪标签实现不同网络之间的协作和迭代学习。

伪标签生成：结合三个网络的预测生成密集伪标签，用于密集信号监督。

创新点

性能提升：在MRI心脏分割数据集上，Weak-Mamba-UNet的Dice系数为0.9171，准确率为0.9963，相比仅使用UNet或SwinUNet的框架，分别提升了约1.8%和1.3%。

多视图交叉监督：通过CNN、ViT和Mamba三种架构的协作，增强了在有限监督下的分割性能。

伪标签机制：利用伪标签实现从稀疏标签到密集信号的转换，提升了网络的泛化能力。

Mamba架构的应用：首次将Mamba架构应用于基于涂鸦的医学图像分割任务，验证了其在弱监督学习中的有效性。

论文3：

On the low-shot transferability of [V]-Mamba

关于[V]-Mamba的低样本迁移能力

方法

线性探测（LP）：通过线性分类器对预训练模型进行微调，适应下游任务。

视觉提示（VP）：通过输入变换和输出映射层对预训练模型进行调整，适应下游任务。

模型比较：对比Vision Transformers（ViTs）和State Space Models（SSMs）在不同低样本数据预算下的迁移性能。

实验设置：在多个下游数据集（如CIFAR-10、SVHN等）上进行实验，评估不同模型的迁移能力。

创新点

性能提升：在使用线性探测（LP）时，[V]-Mamba在多数数据集上的性能优于或等于ViTs。

迁移能力：在使用视觉提示（VP）时，[V]-Mamba的性能弱于或等于ViTs。

模型规模相关性：观察到[V]-Mamba模型规模越大，LP和VP之间的性能差距越明显。

迁移方法的对比：通过对比LP和VP两种迁移方法，揭示了[V]-Mamba在不同迁移策略下的表现差异，为后续研究提供了新的视角。

相关文章：

一种在使用Kaggle并遇上会话中断时强行保存数据的方法

国标云台控制状态

C语言-指针（一）

Paramiko 完全指南

2020南京区域赛vp

InnoDB对LRU算法的优化

LangChain入门（二）安装开发环境

MCP 模型上下文协议配置MCP Server开发实践

Spark知识总结

AI在Java中的场景面试题深度解析

c++之使用 libdl.so 和＜dlfcn.h＞实现动态链接

MySQL 的ANALYZE与 OPTIMIZE命令

【基础篇】static_config采集配置详解

《无刷空心杯电机减速机选型及行业发展趋势》

邮件分类特征维度实验分析

QT事件Trick

临床试验概述：从定义到实践的关键要素

Docker的常用命令

为什么MySQL推荐使用自增主键？

密码杂凑算法HaoLooog512设计原理详解

央行召开落实金融“五篇大文章”总体统计制度动员部署会议

民生访谈｜规范放生活动、提升供水品质……上海将有这些举措

看展览｜建造上海：1949年以来的建筑、城市与文化

法治日报调查直播间“杀熟”乱象：熟客越买越贵，举证难维权不易

普京发表声明感谢协助俄军收复库尔斯克州的朝鲜军人

国家卫健委：工作相关肌肉骨骼疾病、精神和行为障碍成职业健康新挑战