多骨干、多融合:RT-DETR 如何解锁主干网络新姿势?
文章目录
- 前言
- 模块添加方法
- 双特征提取例子
- `GhostNet+ShuffleNet` 双主干
- 结构图
- 代码
- `Swin+ShuffleNet` 双主干
- 结构图
- 代码
- 参数量与计算量
前言
这篇来说说“多模态融合”,最近有很多同学来问如何拿到“第0层特征图”,也就是没经过模块处理的那层特征图,也就是我下图框住的这层的输入特征图,那我猜测大家可能想做一个类似于“多模态融合”的一个结构;
一般常见的可能都是两种模态的输入数据,比如红外图像和RGB图像,或者深度图像和RGB图像,这种都是真正的两个模态的输入数据,
有些同学可能也想做一些“单RGB图像的多模态”,主要就是表现在多个特征提取主干,个人觉得这也算是很好的思路,虽然输入的数据是还是单RGB,但是确实可以模仿“多模态融合”做一些工作的,比如像下面这个论文讲到的一些方法,“单RGB图像的多模态”也同样可以做到
。
下面就说下如何在 RT-DETR
如何实现多主干特征融合方式,主要就是添加一个模块,这个模块是我在v9
中看到的,相当于是一个什么也不做的模块,就是为了我们在 yaml<