当前位置：首页 > news >正文

复杂背景下无人机影像小目标检测：MPE-YOLO抗遮挡与抗背景干扰设计

news 来源：原创 2025/4/28 6:43:17

一、引言

二、挑战和贡献

密集小目标和遮挡

实时性要求与精度权衡

复杂背景

三、MPE-YOLO模型细节

多级特征集成器（MFI）

感知增强卷积（PEC）

增强范围C2f模块（ES-C2f）

四、Coovally AI模型训练与应用平台

五、实验

消融实验

对比实验

可视化分析

泛化研究

总结

一、引言

无人机航拍技术已广泛应用于城市规划、交通监控、灾害评估等领域。通过自动分析航拍图像中的目标（如车辆、行人、建筑物），我们可以快速获取地理信息、监测城市动态。然而，现有的检测算法在复杂环境下的小目标识别和准确率方面存在不足。针对这一问题，本文提出了一种基于YOLOv8的改进模型，即MPE-YOLO。

论文题目：

MPE‑YOLO: enhanced small target detection in aerial imaging

论文链接：

https://www.nature.com/articles/s41598-024-68934-2

二、挑战和贡献

在无人机航拍图像中，目标检测面临几个具体的挑战：

密集小目标和遮挡

低空拍摄的图像通常包含大量密集的小目标，尤其是在城市或复杂地形中。由于距离较远，这些目标在图像中显得较小，并且容易被遮挡。例如，建筑物可能相互遮挡，或者树木可能遮挡停放的车辆。这种遮挡会导致目标特征被部分隐藏，从而影响检测算法的性能。即使是先进的检测算法，也难以在高密度和严重遮挡的环境中准确识别和定位所有目标。

实时性要求与精度权衡

无人机航拍图像目标检测必须满足实时性要求，尤其是在监控和应急响应场景中。实现实时检测需要降低算法的计算复杂度，而这往往与检测精度相冲突。高精度检测算法通常需要大量的计算资源和时间，而实时性要求算法能够快速处理海量数据。挑战在于如何在确保实时性的同时保持较高的检测精度。这需要优化网络架构，以有效地平衡参数数量和精度。

复杂背景

航拍图像通常包含大量不相关的背景信息，例如建筑物、树木和道路。背景信息的复杂性和多样性会干扰小物体的正确检测。此外，小物体的特征本身就不那么明显。传统的单阶段和双阶段算法主要关注全局特征，可能会忽略对小物体检测至关重要的细粒度特征。这些算法往往无法捕捉小物体的细节，导致检测精度较低。因此，迫切需要更先进的深度学习模型和算法来处理这些细微的特征，从而提高小物体检测的准确性。

针对上述问题，本研究基于 YOLOv8 模型提出了一种名为 MPE-YOLO 的算法，该算法在保持轻量级模型的同时，提升了小物体的检测精度。

本研究的主要贡献如下：

开发了一个具有分层结构的多级特征集成器 (MFI) 模块，用于合并不同级别的图像特征，从而增强场景理解能力并提高物体检测精度。
提出了一个感知增强卷积 (PEC) 模块，该模块利用多切片操作和通道维度串联来扩展感受野，从而提升模型捕获目标细节信息的能力。
通过结合所提出的增强型范围-C2f (ES-C2f) 操作并引入高效的特征选择和利用机制，进一步增强了特征的选择性使用，有效提高了小物体检测的精度和鲁棒性。
经过与其他各种目标检测模型的全面对比实验，MPE-YOLO 的性能显著提升，证明了其有效性。

三、MPE-YOLO模型细节

与其他模型相比，YOLOv8s 在准确率和模型复杂度之间取得了平衡。因此，本研究选择 YOLOv8s 作为基线网络。

如图所示，通过设计多级特征集成器（MFI）模块，优化小目标特征的表示和信息融合，减少特征融合过程中的信息损失。感知增强卷积（PEC）模块的引入取代了传统的卷积层，扩展了网络的细粒度特征处理能力，显著提升了复杂背景下小目标的识别精度。将主干网络中最后两个下采样层和20*20尺寸目标的检测层替换为160*160尺寸小目标的检测层，使模型能够更加关注小目标的细节。最后，通过增强的scope-C2f（ES-C2f）模块，利用通道扩展和多尺度卷积核的堆叠，进一步提升了模型的特征提取效率和运算效率。结合这些改进，MPE-YOLO在复杂环境下的小物体检测任务中取得了良好的表现，并显著提升了模型的准确率和性能。

多级特征集成器（MFI）

在目标检测任务中，由于尺寸限制，小目标的特征表示往往不清晰，这会导致它们在特征融合过程中被忽略或丢失，从而降低检测性能。为了有效解决这一问题，借鉴Res2Net的结构，设计了一种创新的多级特征集成器（MFI）。MFI模块的结构如图所示，旨在通过一系列细节策略优化小目标的特征表示和信息融合，减少特征信息的丢失，并抑制冗余和噪声。

MFI模块利用卷积操作降低输入特征图的通道维数，从而简化后续计算过程。然后将输入特征图均匀分为4组，分别提取不同层次的语义信息（低层细节+高层语义），最后在通道维度融合，提升对小目标的感知能力。

感知增强卷积（PEC）

传统的卷积神经网络通常面临诸如感受野固定、上下文信息利用不足以及环境感知受限等挑战。尤其是在小目标检测中，这些限制会显著抑制模型的性能。为了克服这些问题，我们引入了感知增强卷积（PEC），如图所示，这是一个专为骨干网络设计的模块，旨在取代传统的卷积层。PEC的主要优势在于，它在模型提取主要特征的阶段引入了一个新维度，可以显著扩展感受野并更有效地整合上下文信息，从而进一步加深模型对小目标及其环境的理解。

PEC模块将输入特征图切割为4个子块，拼接后压缩通道维度，通过这种精细的空间维度划分，生成的小块在确保信息覆盖均匀的同时，保留了重要的空间信息。为了实现更深层次的特征提取，还结合瓶颈结构强化细节提取，从而进一步提升了特征的计算效率。

增强范围C2f模块（ES-C2f）

在处理航拍图像中的小目标或低对比度目标时，原YOLOv8的C2f模块对小目标特征表达能力不足，ES-C2f模块专注于提升网络捕捉细节的能力和特征利用效率，尤其是在小目标和低对比度目标的表达方面。通过扩展通道容量和多尺度卷积堆叠，增强对微小目标的敏感度。

ES-C2f模块引入通道扩展策略，该策略致力于通过更广泛的特征表示来增强网络对小目标细节的敏感度，并提高对低对比度目标环境的适应性。为了在兼顾计算效率的同时扩展通道容量，ES-C2f 模块巧妙地集成了一系列压缩层。不仅简化了特征表示，还保留了关键信息的捕获。

四、Coovally AI模型训练与应用平台

如果你也想要使用模型进行训练或改进，Coovally平台满足你的要求！

Coovally平台整合了国内外开源社区1000+模型算法和各类公开识别数据集，无论是YOLO系列模型还是Transformer系列视觉模型算法，平台全部包含，均可一键下载助力实验研究与产业应用。

而且在该平台上，无需配置环境、修改配置文件等繁琐操作，一键上传数据集，使用模型进行训练与结果预测，全程高速零代码！

具体操作步骤可参考：YOLO11全解析：从原理到实战，全流程体验下一代目标检测

平台链接：https://www.coovally.com

如果你想要另外的模型算法和数据集，欢迎后台或评论区留言，我们找到后会第一时间与您分享！

五、实验

批次大小设置为 4 以避免内存溢出，学习率设置为 0.01，采用余弦退火算法调整学习率，随机梯度下降 (SGD) 的动量设置为 0.937，并使用马赛克法进行数据增强。输入图形的分辨率统一设置为 640×640。所有模型共训练 200 个 epoch，训练过程中未使用任何预训练模型，以确保实验的公平性。选择随机权重初始化，确保每个模型的初始权重来自同一分布。表1列出了训练环境配置。

消融实验

其中A代表添加MFI模块，B代表改进网络结构，C代表添加PEC模块，D代表添加ES-C2f模块。

仅添加MFI模块：参数量减少0.8M，mAP0.5提升1.6%（达32.9%），模型体积缩减至19.8MB。
叠加网络结构调整：移除冗余检测头，新增160×160小目标检测层，mAP0.5再提升1.8%（达34.7%），但延迟从9ms增至12ms。
引入PEC模块：通过特征切割与通道拼接，mAP0.5提升至35.9%，模型参数量仅增加0.4M。
整合ES-C2f模块：最终mAP0.5达37.0%，参数量4.4M，体积8.7MB，较基线压缩60%以上。

模块的逐级叠加验证了各组件对小目标检测的贡献，MFI优化特征融合，PEC增强细节感知，ES-C2f提升通道表达能力。

对比实验

在VisDrone数据集上，观察到最经典的YOLOv5s模型在小目标检测中，mAP0.5准确率为26.8%，APs准确率为7.0%。YOLOv6 的表现略差，mAP0.5 为 26.6%，AP 为 6.7%，但尽管如此，两种方法的性能差异并不大。模型大小和参数数量明显不同，YOLOv6 的模型大小几乎是 YOLOv5 的三倍，参数数量则增加了一倍多。

YOLOX-s 将 mAP0.5 提升至 29.5%，AP 提升至 8.8%，表明检测效果显著提升。然而，这种提升是以模型大小增加（50.4 MB）和参数数量增加（8.9 MB）为代价的。

YOLOv8 和 YOLOv8m。 YOLOv8s 模型的 mAP0.5 准确率和 AP 准确率分别为 31.3% 和 8.2%，表明结构优化带来了显著的提升。YOLOv8m 模型的 mAP0.5 准确率和 AP 准确率分别达到了 35.4% 和 9.8%。

与 YOLO 系列的传统架构相比，RT-DETR-R18 模型的 mAP0.5 和 AP 准确率均取得了较高的分数（35.9% vs. 10.2%），并且它采用了 DETR 架构。

MPE-YOLO在精度与轻量化上实现双重突破，参数量仅为YOLOv8s的40%，但mAP0.5提升5.7%。

可视化分析

通过精心挑选图像样本，将基线模型和 MPE-YOLO 模型应用于目标检测。如图所示，在多种场景和挑战性条件下，MPE-YOLO 模型的检测置信度显著优于基线模型。这体现在其识别的目标边界框具有更高的置信度得分，并且这些得分与实际目标更加一致。更重要的是，MPE-YOLO 在降低误报和漏报方面也表现出显著的提升，能够准确识别和识别大多数目标，同时最大限度地减少非目标区域的误识别。此外，即使在阴影或光照条件不佳的情况下，MPE-YOLO 也能实现较低的漏检率。

改进的MPE-YOLO模型展现了其更卓越的特征提取和目标定位能力，体现在它所反映的高响应区域更加集中且强化。该特征在热力图上呈现为更明亮的区域，紧密贴合目标的实际位置和轮廓，表明MPE-YOLO模型能够有效地聚焦重要信号。此外，与基线模型相比，改进模型生成的热力图中目标周围散落的热点更少，从而降低了误检和误报的可能性。

泛化研究

通过对表中两个不同的遥感图像数据集RSOD和AI-TOD进行的全面对比测试，MPE-YOLO模型展现了其卓越的泛化能力。测试结果表明，与现有的几种先进目标检测模型相比，MPEYOLO模型在mAP0.5和mAP0.5:0.95两个关键性能指标上表现出较高的准确率，尤其是在平均目标尺寸仅为12.8像素的AI-TOD数据集上。

实验结果表明，MPE-YOLO 具有强大的检测能力，即使在小目标检测场景下也能保持较高的准确率，证明了其在遥感图像分析领域的实用性和有效性。下图显示，YOLOv8 对较小目标的漏检数量显著高于 MPE-YOLO，而 MPE-YOLO 的漏检数量明显较少。