当前位置: 首页 > news >正文

复杂背景下无人机影像小目标检测:MPE-YOLO抗遮挡与抗背景干扰设计

目录

一、引言

二、挑战和贡献

密集小目标和遮挡

实时性要求与精度权衡

复杂背景

三、MPE-YOLO模型细节

多级特征集成器(MFI)

感知增强卷积(PEC)

增强范围C2f模块(ES-C2f)

四、Coovally AI模型训练与应用平台

五、实验

消融实验

对比实验

可视化分析

泛化研究

总结


一、引言

无人机航拍技术已广泛应用于城市规划、交通监控、灾害评估等领域。通过自动分析航拍图像中的目标(如车辆、行人、建筑物),我们可以快速获取地理信息、监测城市动态。然而,现有的检测算法在复杂环境下的小目标识别和准确率方面存在不足。针对这一问题,本文提出了一种基于YOLOv8的改进模型,即MPE-YOLO

screenshot_2025-04-27_14-40-57.png

论文题目:

MPE‑YOLO: enhanced small target detection in aerial imaging

论文链接:

https://www.nature.com/articles/s41598-024-68934-2


二、挑战和贡献

在无人机航拍图像中,目标检测面临几个具体的挑战:

  • 密集小目标和遮挡

低空拍摄的图像通常包含大量密集的小目标,尤其是在城市或复杂地形中。由于距离较远,这些目标在图像中显得较小,并且容易被遮挡。例如,建筑物可能相互遮挡,或者树木可能遮挡停放的车辆。这种遮挡会导致目标特征被部分隐藏,从而影响检测算法的性能。即使是先进的检测算法,也难以在高密度和严重遮挡的环境中准确识别和定位所有目标。

  • 实时性要求与精度权衡

无人机航拍图像目标检测必须满足实时性要求,尤其是在监控和应急响应场景中。实现实时检测需要降低算法的计算复杂度,而这往往与检测精度相冲突。高精度检测算法通常需要大量的计算资源和时间,而实时性要求算法能够快速处理海量数据。挑战在于如何在确保实时性的同时保持较高的检测精度。这需要优化网络架构,以有效地平衡参数数量和精度。

  • 复杂背景

航拍图像通常包含大量不相关的背景信息,例如建筑物、树木和道路。背景信息的复杂性和多样性会干扰小物体的正确检测。此外,小物体的特征本身就不那么明显。传统的单阶段和双阶段算法主要关注全局特征,可能会忽略对小物体检测至关重要的细粒度特征。这些算法往往无法捕捉小物体的细节,导致检测精度较低。因此,迫切需要更先进的深度学习模型和算法来处理这些细微的特征,从而提高小物体检测的准确性。

针对上述问题,本研究基于 YOLOv8 模型提出了一种名为 MPE-YOLO 的算法,该算法在保持轻量级模型的同时,提升了小物体的检测精度。

本研究的主要贡献如下:

  • 开发了一个具有分层结构的多级特征集成器 (MFI) 模块,用于合并不同级别的图像特征,从而增强场景理解能力并提高物体检测精度。

  • 提出了一个感知增强卷积 (PEC) 模块,该模块利用多切片操作和通道维度串联来扩展感受野,从而提升模型捕获目标细节信息的能力。

  • 通过结合所提出的增强型范围-C2f (ES-C2f) 操作并引入高效的特征选择和利用机制,进一步增强了特征的选择性使用,有效提高了小物体检测的精度和鲁棒性。

  • 经过与其他各种目标检测模型的全面对比实验,MPE-YOLO 的性能显著提升,证明了其有效性。


三、MPE-YOLO模型细节

2.png

与其他模型相比,YOLOv8s 在准确率和模型复杂度之间取得了平衡。因此,本研究选择 YOLOv8s 作为基线网络。

3.png

如图所示,通过设计多级特征集成器(MFI)模块,优化小目标特征的表示和信息融合,减少特征融合过程中的信息损失。感知增强卷积(PEC)模块的引入取代了传统的卷积层,扩展了网络的细粒度特征处理能力,显著提升了复杂背景下小目标的识别精度。将主干网络中最后两个下采样层和20*20尺寸目标的检测层替换为160*160尺寸小目标的检测层,使模型能够更加关注小目标的细节。最后,通过增强的scope-C2f(ES-C2f)模块,利用通道扩展和多尺度卷积核的堆叠,进一步提升了模型的特征提取效率和运算效率。结合这些改进,MPE-YOLO在复杂环境下的小物体检测任务中取得了良好的表现,并显著提升了模型的准确率和性能。

  • 多级特征集成器(MFI)

4.png

在目标检测任务中,由于尺寸限制,小目标的特征表示往往不清晰,这会导致它们在特征融合过程中被忽略或丢失,从而降低检测性能。为了有效解决这一问题,借鉴Res2Net的结构,设计了一种创新的多级特征集成器(MFI)。MFI模块的结构如图所示,旨在通过一系列细节策略优化小目标的特征表示和信息融合,减少特征信息的丢失,并抑制冗余和噪声。

MFI模块利用卷积操作降低输入特征图的通道维数,从而简化后续计算过程。然后将输入特征图均匀分为4组,分别提取不同层次的语义信息(低层细节+高层语义),最后在通道维度融合,提升对小目标的感知能力。

  • 感知增强卷积(PEC)

5.png

传统的卷积神经网络通常面临诸如感受野固定、上下文信息利用不足以及环境感知受限等挑战。尤其是在小目标检测中,这些限制会显著抑制模型的性能。为了克服这些问题,我们引入了感知增强卷积(PEC),如图所示,这是一个专为骨干网络设计的模块,旨在取代传统的卷积层。PEC的主要优势在于,它在模型提取主要特征的阶段引入了一个新维度,可以显著扩展感受野并更有效地整合上下文信息,从而进一步加深模型对小目标及其环境的理解。

PEC模块将输入特征图切割为4个子块,拼接后压缩通道维度,通过这种精细的空间维度划分,生成的小块在确保信息覆盖均匀的同时,保留了重要的空间信息。为了实现更深层次的特征提取,还结合瓶颈结构强化细节提取,从而进一步提升了特征的计算效率。

  • 增强范围C2f模块(ES-C2f)

6.png

在处理航拍图像中的小目标或低对比度目标时,原YOLOv8的C2f模块对小目标特征表达能力不足,ES-C2f模块专注于提升网络捕捉细节的能力和特征利用效率,尤其是在小目标和低对比度目标的表达方面。通过扩展通道容量和多尺度卷积堆叠,增强对微小目标的敏感度。

ES-C2f模块引入通道扩展策略,该策略致力于通过更广泛的特征表示来增强网络对小目标细节的敏感度,并提高对低对比度目标环境的适应性。为了在兼顾计算效率的同时扩展通道容量,ES-C2f 模块巧妙地集成了一系列压缩层。不仅简化了特征表示,还保留了关键信息的捕获。


四、Coovally AI模型训练与应用平台

如果你也想要使用模型进行训练或改进,Coovally平台满足你的要求!

Coovally平台整合了国内外开源社区1000+模型算法各类公开识别数据集,无论是YOLO系列模型还是Transformer系列视觉模型算法,平台全部包含,均可一键下载助力实验研究与产业应用。

图片

图片

而且在该平台上,无需配置环境、修改配置文件等繁琐操作,一键上传数据集,使用模型进行训练与结果预测,全程高速零代码

图片

具体操作步骤可参考:YOLO11全解析:从原理到实战,全流程体验下一代目标检测

平台链接:https://www.coovally.com

如果你想要另外的模型算法数据集,欢迎后台或评论区留言,我们找到后会第一时间与您分享!


五、实验

批次大小设置为 4 以避免内存溢出,学习率设置为 0.01,采用余弦退火算法调整学习率,随机梯度下降 (SGD) 的动量设置为 0.937,并使用马赛克法进行数据增强。输入图形的分辨率统一设置为 640×640。所有模型共训练 200 个 epoch,训练过程中未使用任何预训练模型,以确保实验的公平性。选择随机权重初始化,确保每个模型的初始权重来自同一分布。表1列出了训练环境配置。

7.png

  • 消融实验

8.png

其中A代表添加MFI模块,B代表改进网络结构,C代表添加PEC模块,D代表添加ES-C2f模块。

  • 仅添加MFI模块:参数量减少0.8M,mAP0.5提升1.6%(达32.9%),模型体积缩减至19.8MB。

  • 叠加网络结构调整:移除冗余检测头,新增160×160小目标检测层,mAP0.5再提升1.8%(达34.7%),但延迟从9ms增至12ms。

  • 引入PEC模块:通过特征切割与通道拼接,mAP0.5提升至35.9%,模型参数量仅增加0.4M。

  • 整合ES-C2f模块:最终mAP0.5达37.0%,参数量4.4M,体积8.7MB,较基线压缩60%以上。

模块的逐级叠加验证了各组件对小目标检测的贡献,MFI优化特征融合,PEC增强细节感知,ES-C2f提升通道表达能力。

  • 对比实验

9.png

10.png

在VisDrone数据集上,观察到最经典的YOLOv5s模型在小目标检测中,mAP0.5准确率为26.8%,APs准确率为7.0%。YOLOv6 的表现略差,mAP0.5 为 26.6%,AP 为 6.7%,但尽管如此,两种方法的性能差异并不大。模型大小和参数数量明显不同,YOLOv6 的模型大小几乎是 YOLOv5 的三倍,参数数量则增加了一倍多。

YOLOX-s 将 mAP0.5 提升至 29.5%,AP 提升至 8.8%,表明检测效果显著提升。然而,这种提升是以模型大小增加(50.4 MB)和参数数量增加(8.9 MB)为代价的。

YOLOv8 和 YOLOv8m。 YOLOv8s 模型的 mAP0.5 准确率和 AP 准确率分别为 31.3% 和 8.2%,表明结构优化带来了显著的提升。YOLOv8m 模型的 mAP0.5 准确率和 AP 准确率分别达到了 35.4% 和 9.8%。

与 YOLO 系列的传统架构相比,RT-DETR-R18 模型的 mAP0.5 和 AP 准确率均取得了较高的分数(35.9% vs. 10.2%),并且它采用了 DETR 架构。

MPE-YOLO在精度与轻量化上实现双重突破,参数量仅为YOLOv8s的40%,但mAP0.5提升5.7%。

  • 可视化分析

11.png

12.png

通过精心挑选图像样本,将基线模型和 MPE-YOLO 模型应用于目标检测。如图所示,在多种场景和挑战性条件下,MPE-YOLO 模型的检测置信度显著优于基线模型。这体现在其识别的目标边界框具有更高的置信度得分,并且这些得分与实际目标更加一致。更重要的是,MPE-YOLO 在降低误报和漏报方面也表现出显著的提升,能够准确识别和识别大多数目标,同时最大限度地减少非目标区域的误识别。此外,即使在阴影或光照条件不佳的情况下,MPE-YOLO 也能实现较低的漏检率。

改进的MPE-YOLO模型展现了其更卓越的特征提取和目标定位能力,体现在它所反映的高响应区域更加集中且强化。该特征在热力图上呈现为更明亮的区域,紧密贴合目标的实际位置和轮廓,表明MPE-YOLO模型能够有效地聚焦重要信号。此外,与基线模型相比,改进模型生成的热力图中目标周围散落的热点更少,从而降低了误检和误报的可能性。

  • 泛化研究

14.png

13.png

通过对表中两个不同的遥感图像数据集RSOD和AI-TOD进行的全面对比测试,MPE-YOLO模型展现了其卓越的泛化能力。测试结果表明,与现有的几种先进目标检测模型相比,MPEYOLO模型在mAP0.5和mAP0.5:0.95两个关键性能指标上表现出较高的准确率,尤其是在平均目标尺寸仅为12.8像素的AI-TOD数据集上。

实验结果表明,MPE-YOLO 具有强大的检测能力,即使在小目标检测场景下也能保持较高的准确率,证明了其在遥感图像分析领域的实用性和有效性。下图显示,YOLOv8 对较小目标的漏检数量显著高于 MPE-YOLO,而 MPE-YOLO 的漏检数量明显较少。

15.png

16.png


总结

MPE-YOLO通过多级特征融合、扩大感受野、增强细节感知三大策略,显著提升了航拍图像中小目标的检测精度,同时保持模型轻量化,适合部署在无人机等资源受限设备。MPE-YOLO的精准表现,为无人机实时监测、灾害救援、智慧城市等场景提供了可靠的技术基石。

欢迎留言交流或私信获取资源,我们也会持续更新相关项目与案例,如果你有想要了解的模型或数据集也可以留言哦,我们会竭尽全力去寻找的!

相关文章:

  • Web开发-JavaEE应用依赖项Log4j日志Shiro验证FastJson数据XStream格式
  • Spark RDD行动算子与共享变量实战:从数据聚合到分布式通信
  • 革新桌面自动化:微软UFO²操作系统深度解析与未来展望
  • 迷你世界UGC3.0脚本Wiki角色模块管理接口 Actor
  • django filter 排除字段
  • 程序代码篇---ESP32 Camera Server
  • 【Redis】zset类型
  • go语言八股文(三)
  • 2个小时1.5w字| React Golang 全栈微服务实战
  • 新增29个专业,科技成为未来主赛道!
  • 04.通过OpenAPI-Swagger规范让Dify玩转Agent
  • Linux操作系统学习---进程地址空间
  • Zabbix
  • Clang中ext_vector_type和address_space __attribute__的使用
  • 《从分遗产说起:JS 原型与继承详解》
  • 测地型GNSS接收机_毫米高精度精准定位
  • NEPCON China 2025 | 具身智能时代来临,灵途科技助力人形机器人“感知升级”
  • 读写算杂志读写算杂志社读写算编辑部2025年第12期目录
  • 现场问题排查-postgresql某表索引损坏导致指定数据无法更新影响卷宗材料上传
  • 97A6-ASEMI无人机专用功率器件97A6
  • 央行副行长:增强外汇市场韧性,坚决对市场顺周期行为进行纠偏
  • 广州一人均500元的日料店回收食材给下一桌?市场监管部门介入调查
  • 俄联邦安全局:俄军高级官员汽车爆炸案嫌疑人已被捕
  • 视频丨伊朗阿巴斯港一处油罐发生高强度爆炸:造成大面积破坏,伤亡不明
  • 珠海市香洲区原区长刘齐英落马,此前已被终止省人大代表资格
  • 今年地质灾害防治形势严峻,哪些风险区被自然资源部点名?