当前位置: 首页 > news >正文

小目标检测的集成融合论文阅读

摘要

小目标检测常因图像模糊和分辨率低而受到阻碍,这给小目标的精确检测和定位带来了重大挑战。此外,传统的特征提取方法往往难以捕捉到这些目标的有效表征,因为下采样和卷积操作会导致小目标细节的模糊化。为了解决这些问题,本研究提出了一种基于集成融合的方法,通过利用多种不同模型变体的优势并融合它们的预测结果来检测微小目标。实验结果表明,所提方法能够有效地结合各模型的优点,从而在小目标检测的准确性和鲁棒性方面获得提升。在小鸟小目标检测 MVA 挑战中,我们的模型在 IoU 阈值为 0.5 的情况下取得了平均精度 (AP) 最高 0.776 的成绩。

1 引言

小目标检测(Small Object Detection,简称 SOD)已成为计算机视觉领域的关键任务,因为精确检测微小目标对于监控[1]、自动驾驶[2]、航拍图像分析[3]等众多应用场景至关重要。尽管计算机视觉研究取得了显著进展,SOD 仍然面临多重挑战。首先,小目标通常对比度低、显著特征有限,难以从背景中分离出来。在 Drone 数据集[4]和小鸟小目标检测挑战(SOD4SB)数据集[5]中,存在大量模糊和快速移动的目标,进一步加剧了检测难度。由于下采样和卷积操作会模糊小目标细节,传统特征提取方法往往难以获取有效表征。此外,小目标常出现在复杂背景中,增加了与周围环境分离的难度;即使边界框定位稍有偏差,也可能导致目标未被完整包围。正因 SOD 的重要性和挑战性,该研究方向在过去数年中广受关注。

为应对上述问题,研究者主要沿两条思路展开:一是利用现有通用目标检测模型[6–23],二是设计专门针对 SOD 的模型[24–38]。在第一类方法中,尽管大多数模型表现不尽如人意,但 CenterNet[7]和 Cascade R-CNN[6]等因其独特的结构设计在 SOD 任务上已取得相对较好成绩。然而,与专门定制的 SOD 模型相比,仍有提升空间。在第二类方法中,研究者主要尝试以下几个方向:
a) 利用低层特征或图像超分辨率方法来增强小目标的对比度和显著性[24,25,37,38];
b) 修改下采样策略或多尺度特征融合与预测策略(如采用空洞卷积或调整模型颈部结构),以防止特征提取过程中小目标细节的丢失[25–28];
c) 引入注意力机制以筛选更相关的重要特征信息[28–31];
d) 利用数据增强和标签设计与分配策略(如归一化瓦瑟斯坦距离 (NWD) 或基于 Copy-Paste 的增强方法)进一步提升性能[32–36]。尽管这些方法各有优势,但仍需进一步研究以充分发挥其在 SOD 任务中的潜力。

针对上述挑战,本文提出了一种集成融合方法,通过整合多种现有方法的优势以提升整体性能。其基本思路是利用不同模型之间的多样性,借助集成方法通常能提高泛化能力,从而得到更为鲁棒和精确的预测。具体而言,我们的集成融合方法在训练阶段结合了 Cascade R-CNN[6]和 CenterNet[7] 两种架构的多种变体:使用不同骨干网络(如 InternImage[22]、ResNet[10])及技术(如 NWD[33]、CopyPaste[32])生成性能互补的模型变体;在推理阶段,则通过 Slicing Aided Hyper Inference (SAHI)[24] 和测试时增强(TTA)等技术进一步扩充变体。最后,利用加权框融合(Weighted Box Fusion, WBF)[39] 方法对各模型的预测进行融合,与单一最优模型相比显著提升了检测效果

为验证所提方法的有效性,我们在 SOD4SB 数据集上进行了全面实验评估。结果表明,集成融合方法的整体性能优于任何单一模型,且超越了基线 Cascade R-CNN 在公共测试集上的表现。此外,本文还对各训练策略、推理技术及集成方法进行了深入分析,以验证它们在提升 SOD 性能方面的作用。

本文贡献
实现并比较了不同的小目标检测训练策略、推理技术和集成方法;
在 SOD4SB 数据集上评估了多种集成融合方法及其效果࿱

相关文章:

  • 智能制造典型场景参考指引(2025年版)
  • Server-Sent Events (SSE) 服务端单项实时给前端推送消息
  • 基于ffmpeg的音视频编码
  • 复合模式(Composite Pattern)
  • 【Java开发日记】OpenFeign 的 9 个坑
  • Meta 推出 WebSSL 模型:探索 AI 无语言视觉学习,纯图训练媲美 OpenAI CLIP
  • 深入浅出限流算法(三):追求极致精确的滑动日志
  • leetcode283-移动零
  • 【神经网络与深度学习】两种加载 pickle 文件方式(joblib、pickle)的差异
  • uniapp自定义头部(兼容微信小程序(胶囊和状态栏),兼容h5)
  • 深度解析算法之分治(归并)
  • el-table 自定义列、自定义数据
  • 【网络编程】TCP/IP四层模型、MAC和IP
  • npm init、换源问题踩坑
  • 杰理-安卓通过map获取时间的时候,部分手机切换sbc和aac时候单耳无声音
  • redis+lua+固定窗口实现分布式限流
  • AcWing 885:求组合数 I ← 杨辉三角
  • seaborn数据统计可视化-介绍
  • 业绩回暖、股价承压,三只松鼠赴港上市能否重构价值锚点?
  • 道可云人工智能每日资讯|“人工智能科技体验展”在中国科学技术馆举行
  • 新造古镇丨上海古镇朱家角一年接待164万境外游客,凭啥?
  • 深圳宝安区一宗涉宅用地中止出让,起始总价86.27亿元
  • “中国游”带火“中国购”,“即买即退”让外国游客购物更丝滑
  • 央媒关注给保洁人员设休息室:让每一份踏实奋斗得到尊重呵护
  • 夜读丨庭院春韵
  • 文旅部副部长饶权出任国家文物局局长