【激光雷达3D(7)】CenterPoint两阶段细化仅使用BEV特征;PV-RCNN两阶段细化使用体素特征;M3DETRTransformer统一多表征特征
文章目录
- 1. CenterPoint的两阶段细化模块仅使用鸟瞰视角(BEV)特征
- 2 PV-RCNN 两阶段
- 3 M3DETR(假设为类似DETR的3D检测器)
1. CenterPoint的两阶段细化模块仅使用鸟瞰视角(BEV)特征
CenterPoint的两阶段细化模块主要依赖鸟瞰图(BEV)特征,实验中也对比了融合体素特征的方法(如Voxel-Set Abstraction和RBF插值)。结果表明,仅使用BEV特征即可达到与体素特征相当的精度,同时计算效率更高。具体分析如下:
- BEV特征的优势:BEV投影保留了物体的水平位置和尺寸信息,适合3D检测任务,且计算复杂度低于3D体素特征。
- 体素特征的局限性:虽然体素特征(如PV-RCNN中的VSA模块)能提供更精细的3D结构信息,但计算开销大,尤其在稀疏点云(如nuScenes)中收益有限。
CenterPoint的第二阶段是对检测结果的轻量级优化,主要依赖BEV特征。两者设计目标不同,适用场景各异。
2 PV-RCNN 两阶段
- 核心思想:结合体素特征与关键点特征,通过多阶段融合提升检测精度。
- 第一阶段:基于体素的3D骨干网络生成初始检测框(如VoxelNet)。
- 第二阶段:从原始点云中提取关键点特征,通过Voxel Set Abstraction (VSA) 将体素特征与关键点特征融合,增强RoI区域的3D结构信息。
- 性能:在KITTI等数据集上表现优异,但计算成本较高。
3 M3DETR(假设为类似DETR的3D检测器)
M3DETR(Multi-representation, Multi-scale, Mutual-relation 3D Object Detection with Transformers)基于Transformer的端到端单阶段模型
-
核心思想:将Transformer引入3D检测,通过全局注意力机制建模点云或体素间的长程依赖。
- 第一阶段:体素或点云特征提取(如VoxelNet或PointNet++)。
- 第二阶段:使用Transformer解码器对候选框进行精细化,通过交叉注意力聚合多尺度特征。
-
性能:在小目标和遮挡场景中表现突出,但训练复杂度高。
-
统一架构:通过Transformer同时处理多尺度、多表征(原始点云、体素、BEV)的特征,直接输出检测结果,无需显式的区域提议(Region Proposal)阶段。
-
查询机制:类似DETR,使用可学习的查询(Query)与编码器特征交互,通过解码器直接预测边界框,省略了RoI特征提取步骤。
M3DETR通过Transformer实现端到端检测,无需显式两阶段设计。