当前位置: 首页 > news >正文

YOLO11改进-Backbone-使用MobileMamba替换YOLO backbone 提高检测精度

轻量化模型的技术瓶颈

        CNN 的局限性:传统 CNN(如 MobileNet)依赖局部感受野,难以捕捉长距离依赖关系,在高分辨率任务(如语义分割)中需通过增加计算量提升性能,效率低下。

        Transformer 的效率缺陷:Vision Transformer(ViT)虽能建模全局信息,但二次计算复杂度(O(N2))在高分辨率场景下计算成本极高,限制实时性应用。

        状态空间模型(SSM)的潜力与不足:以 Mamba 为代表的 SSM 凭借线性计算复杂度(O(N))成为新方向,但现有轻量级 Mamba 模型仅关注FLOPs,实际推理速度(Throughput)和精度不足,尤其在高分辨率下游任务中表现欠佳。

        设计兼顾高效推理多尺度特征建模的轻量级视觉模型,解决现有方法在速度与精度上的失衡,适用于移动设备和高分辨率场景(如目标检测、语义分割)。

上面是原模型,下面是改进模型

改进后的

1. MobileMamba介绍 

        SSA 的核心理论是通过计算不同序列对应通道内的注意力权重,来聚合处理后的序列。这种设计能够捕捉不同序列间的复杂依赖关系。其理论基础源于注意力机制在深度学习中的广泛应用,注意力机制可以让模型更加关注重要的信息。在 SSA 中,通过对不同序列特征的处理和分析,计算出每个序列在不同通道上的重要程度,即注意力权重,然后根据这些权重对序列进行加权求和,从而实现对不同序列信息的有效整合 。

状态空间模型(SSM)与 Mamba 基础

        Mamba 的长距离建模:基于 SSM 的离散化状态转移,通过矩阵指数运算(A=exp(ΔA))和卷积核展开(K)实现长序列线性复杂度建模,捕捉全局依赖。

        小波变换增强(WTE-Mamba):引入 Haar 小波变换,将特征图分解为 ** 低频(全局结构)高频(边缘细节)** 分量。对高频分量进行卷积后逆变换(IWT),在不显著增加计算量的前提下扩大感受野,增强边缘等细节提取能力。

2. 多感受野特征交互模块(MRFFI):通过全局 - 局部特征融合,提升模型对多尺度上下文和细节的感知能力。

        特征三分支设计全局分支(WTE-Mamba):通过双向 Mamba 提取全局特征,结合小波变换增强高频细节(如公式 xGO​=xmO​+xwO​ 所示,融合全局建模与局部卷积结果)。局部分支(MK-DeConv):采用多内核深度卷积(如 3×3、5×5、7×7)拆分通道,捕捉多尺度局部信息,通过拼接(Concat)实现跨尺度交互。恒等映射分支:保留部分通道直接输出,减少高维空间冗余,降低计算复杂度。

        MobileMamba 的结构设计聚焦于轻量化、多尺度特征融合与高效推理,整体框架简洁且层次分明,主要由以下核心部分构成:

整体架构:三阶段高效设计

        MobileMamba 采用三阶段下采样架构,区别于传统四阶段网络(如 ResNet)的早期密集下采样策略。第一阶段通过 16×16 的 PatchEmbed 模块将输入图像快速下采样至原始尺寸的 1/16(如输入 224×224 图像→14×14 特征图),后续阶段逐步加深网络深度并调整通道数(如从 Stage1 的C1​到 Stage3 的C3​)。这种设计减少了中间层的特征图尺寸,降低计算量的同时保持高推理速度 —— 实验表明,在相同吞吐量下,三阶段网络比四阶段网络 Top-1 精度高 0.4%,且模型变体覆盖从 255M 到 4.3G FLOPs 的广泛计算范围,适配不同设备需求(如移动端到 GPU 端)。

核心模块:多感受野特征交互(MRFFI)

        MRFFI 模块是 MobileMamba 的核心创新点,集成于每个网络块中,实现全局依赖建模与多尺度局部特征的高效融合

         全局特征分支(WTE-Mamba):输入特征的部分通道(比例为ξ,如第一阶段 0.8)通过双向 Mamba 模块进行全局建模,捕捉长距离依赖。同时,引入 Haar 小波变换将特征分解为低频(全局结构)和高频(边缘细节)分量,对高频分量进行卷积后通过逆小波变换(IWT)恢复尺寸,与 Mamba 输出相加,增强边缘等高频细节的提取能力,扩大有效感受野(ERF)。

        局部特征分支(MK-DeConv):另一部分通道(比例为μ,如第一阶段 0.2)通过多内核深度卷积(如 3×3、5×5、7×7)拆分处理,每个分支采用不同内核尺寸捕捉多尺度局部信息,最终拼接输出,提升模型对不同大小目标或区域的感知能力。

        恒等映射分支:剩余通道直接通过恒等映射输出,减少高维空间的特征冗余,降低计算复杂度的同时维持信息完整性。

2. YOLOv11与MobileMamba的结合           

        MobileMamba 替换 YOLO backbone 时,凭借线性复杂度的状态空间模型高效捕捉全局依赖,结合多感受野模块融合高低频特征,可提升目标检测中长距离关联与多尺度目标的感知能力;其轻量化三阶段架构在保持高速推理的同时(如 GPU 吞吐量比 LocalVim 快 21 倍),分类精度达 83.6%,迁移至检测任务能显著提升 mAP,实现速度与精度的平衡。

3. MobileMamba代码部分

视频讲解:

YOLOv8_improve/YOLOv11.md at master · tgf123/YOLOv8_improve · GitHub

用一篇论文教您如何使用YOLOv11改进模块写一篇1、2区论文_哔哩哔哩_bilibili

YOLOv11模型改进讲解,教您如何修改YOLOv11_哔哩哔哩_bilibili

YOLOv11全部代码,现有几十种改进机制。

 4. MobileMamba引入到YOLOv11中

     第五:运行成功

from sympy import falsefrom ultralytics.models import NAS, RTDETR, SAM, YOLO, FastSAM, YOLOWorldif __name__=="__main__":# 使用自己的YOLOv8.yamy文件搭建模型并加载预训练权重训练模型model = YOLO(r"E:\Part_time_job_orders\YOLO\YOLOv11\ultralytics\cfg\models\11\yolo11_MobileMamba.yamy")\.load(r'E:\Part_time_job_orders\YOLO\YOLOv11\yolo11n.pt')  # build from YAML and transfer weightsresults = model.train(data=r'E:\Part_time_job_orders\YOLO\YOLOv11\ultralytics\cfg\datasets\VOC_my.yaml',epochs=300,imgsz=640,batch=64,# cache = False,# single_cls = False,  # 是否是单类别检测# workers = 0,# resume=r'D:/model/yolov8/runs/detect/train/weights/last.pt',amp = True)

相关文章:

  • Flutter 弹窗队列管理:实现一个线程安全的通用弹窗队列系统
  • 基于尚硅谷FreeRTOS视频笔记——15—系统配制文件说明与数据规范
  • 考公:数字推理
  • 【NLP 66、实践 ⑰ 基于Agent + Prompt Engineering文章阅读】
  • 你的电脑在开“外卖平台”?——作业管理全解析
  • QML Rectangle 组件
  • 卷积神经网络基础(二)
  • 嵌入式单片机通过ESP8266连接物联网实验
  • 06-libVLC的视频播放器:推流RTMP
  • HCIP --- OSPF综合实验
  • office软件中word里面的编号库和列表库功能
  • 在 Node.js 中使用原生 `http` 模块,获取请求的各个部分:**请求行、请求头、请求体、请求路径、查询字符串** 等内容
  • C# 预定义类型全解析
  • 实验扩充 LED显示4*4键位值
  • 单片机毕业设计选题物联网计算机电气电子类
  • Java使用javacv实现的多种音视频格式播放器
  • Qt编写推流程序/支持webrtc265/从此不用再转码/打开新世界的大门
  • ReSearch:基于强化学习的大语言模型推理搜索框架
  • JavaSpring 中使用 Redis
  • PostgreSQL 常用客户端工具
  • 大家聊中国式现代化|权衡:在推进中国式现代化中当好龙头
  • 观察|首个半马落幕:人形机器人场景应用才刚站上起点
  • 跨市调任:李强已任河北唐山市检察院党组书记
  • 习近平致电祝贺诺沃亚当选连任厄瓜多尔总统
  • 陈杨梅:为爸爸寻我19年没有放弃而感动,回家既紧张又期待
  • 寻找“香奈儿”代工厂