当前位置: 首页 > news >正文

顶会idea:Mamba+CNN暴力涨点新突破!

2025深度学习发论文&模型涨点之——Mamba+CNN

卷积神经网络(CNN)凭借其局部感知、权重共享和平移不变性等特性,在计算机视觉领域长期占据主导地位。然而,随着Transformer架构的兴起,其全局建模能力和动态注意力机制在多项任务中展现出显著优势,但也因二次计算复杂度面临长序列应用的瓶颈。在此背景下,状态空间模型(State Space Models, SSMs)尤其是Mamba架构的提出,通过选择性状态机制和线性复杂度特性,为长序列建模提供了新的范式。

值得注意的是,CNN与Mamba的融合正逐渐成为研究热点:一方面,CNN的局部特征提取能力能有效弥补纯SSM模型在细粒度视觉特征捕获上的不足;另一方面,Mamba的全局上下文建模和序列依赖性处理能力可突破CNN感受野的固有局限。这种混合架构在医学图像分析、视频理解、高分辨率遥感等任务中已表现出显著优势,例如通过CNN骨干网络提取多层次空间特征后,由Mamba模块进行跨区域关系建模,或在频域中结合两者的归纳偏置。

我整理了一些Mamba+CNN【论文+代码】合集,需要的同学公人人人号【AI创新工场】发525自取。

论文精选

论文1:

CM-UNet: Hybrid CNN-Mamba UNet for Remote Sensing Image Semantic Segmentation

CM-UNet:用于遥感图像语义分割的混合CNN-Mamba UNet

方法

      CNN编码器:使用ResNet作为编码器,提取多尺度局部特征。

      Mamba解码器:引入基于Mamba的解码器,用于聚合和整合全局信息。

      CSMamba块:设计了CSMamba块,结合通道和空间注意力机制,增强特征交互和全局-局部信息融合。

      多尺度注意力聚合(MSAA)模块:用于合并不同尺度的特征,优化特征融合。

      多输出监督:在解码器的各个阶段引入中间监督,逐步生成语义分割结果。

      图片

        创新点

        性能提升:在ISPRS Potsdam数据集上,CM-UNet的mF1为93.05%,OA为91.86%,mIoU为87.21%,相比UNetformer分别提升了0.25%、0.56%和0.41%。

        全局-局部信息融合:通过CSMamba块和MSAA模块,有效整合全局和局部信息,提升分割精度。

        计算效率:利用Mamba架构的线性时间复杂度,提高了处理大规模遥感图像的效率。

        多尺度特征学习:通过MSAA模块,增强了对多尺度特征的融合能力,进一步提升分割性能。

        图片

        论文2:

        Weak-Mamba-UNet: Visual Mamba Makes CNN and ViT Work Better for Scribble-based Medical Image Segmentation

        Weak-Mamba-UNet:视觉Mamba让CNN和ViT在基于涂鸦的医学图像分割中表现更好

        方法

        CNN-UNet:使用基于CNN的UNet进行局部特征提取。

        SwinUNet:使用基于Swin Transformer的SwinUNet进行全局上下文理解。

        Mamba-UNet:使用基于Mamba的Mamba-UNet进行长距离依赖建模。

        多视图交叉监督学习:通过伪标签实现不同网络之间的协作和迭代学习。

        伪标签生成:结合三个网络的预测生成密集伪标签,用于密集信号监督。

        图片

        创新点

          性能提升:在MRI心脏分割数据集上,Weak-Mamba-UNet的Dice系数为0.9171,准确率为0.9963,相比仅使用UNet或SwinUNet的框架,分别提升了约1.8%和1.3%。

          多视图交叉监督:通过CNN、ViT和Mamba三种架构的协作,增强了在有限监督下的分割性能。

          伪标签机制:利用伪标签实现从稀疏标签到密集信号的转换,提升了网络的泛化能力。

          Mamba架构的应用:首次将Mamba架构应用于基于涂鸦的医学图像分割任务,验证了其在弱监督学习中的有效性。

          图片

          论文3:

          On the low-shot transferability of [V]-Mamba

          关于[V]-Mamba的低样本迁移能力

          方法

            线性探测(LP):通过线性分类器对预训练模型进行微调,适应下游任务。

            视觉提示(VP):通过输入变换和输出映射层对预训练模型进行调整,适应下游任务。

            模型比较:对比Vision Transformers(ViTs)和State Space Models(SSMs)在不同低样本数据预算下的迁移性能。

            实验设置:在多个下游数据集(如CIFAR-10、SVHN等)上进行实验,评估不同模型的迁移能力。

            图片

            创新点

            性能提升:在使用线性探测(LP)时,[V]-Mamba在多数数据集上的性能优于或等于ViTs。

            迁移能力:在使用视觉提示(VP)时,[V]-Mamba的性能弱于或等于ViTs。

            模型规模相关性:观察到[V]-Mamba模型规模越大,LP和VP之间的性能差距越明显。

            迁移方法的对比:通过对比LP和VP两种迁移方法,揭示了[V]-Mamba在不同迁移策略下的表现差异,为后续研究提供了新的视角。

            图片

            相关文章:

          • 一种在使用Kaggle并遇上会话中断时强行保存数据的方法
          • 国标云台控制状态
          • C语言-指针(一)
          • Paramiko 完全指南
          • 2020南京区域赛vp
          • InnoDB对LRU算法的优化
          • LangChain入门(二)安装开发环境
          • MCP 模型上下文协议配置MCP Server开发实践
          • Spark知识总结
          • AI在Java中的场景面试题深度解析
          • c++之使用 libdl.so 和 <dlfcn.h> 实现动态链接
          • MySQL 的ANALYZE与 OPTIMIZE命令
          • 【基础篇】static_config采集配置详解
          • 《无刷空心杯电机减速机选型及行业发展趋势》
          • 邮件分类特征维度实验分析
          • QT事件Trick
          • 临床试验概述:从定义到实践的关键要素
          • Docker的常用命令
          • 为什么MySQL推荐使用自增主键?
          • 密码杂凑算法HaoLooog512设计原理详解
          • 央行召开落实金融“五篇大文章”总体统计制度动员部署会议
          • 民生访谈|规范放生活动、提升供水品质……上海将有这些举措
          • 看展览|建造上海:1949年以来的建筑、城市与文化
          • 法治日报调查直播间“杀熟”乱象:熟客越买越贵,举证难维权不易
          • 普京发表声明感谢协助俄军收复库尔斯克州的朝鲜军人
          • 国家卫健委:工作相关肌肉骨骼疾病、精神和行为障碍成职业健康新挑战