当前位置：首页 > news >正文

【激光雷达3D（6）】3D点云目标检测方法；CenterPoint、PV-RCNN和M3DETR的骨干网络选择存在差异

news 来源：原创 2025/4/25 7:41:20

一 CenterPoint、PV-RCNN和M3DETR的骨干网络选择差异
- - 1. CenterPoint
  - 2. PV-RCNN
  - 3. M3DETR（假设为类似DETR的3D检测器）
  - 总结对比
二 3D点云目标检测方法
- - 1. 基于体素的方法（如VoxelNet、SECOND）
  - 2. 基于点的方法（如PointNet++、PointRCNN）
  - 3. 混合方法（如PointPillars）
  - 4. 性能与效率权衡
  - 总结

一 CenterPoint、PV-RCNN和M3DETR的骨干网络选择差异

骨干网络选项：支持VoxelNet和PointPillars两种主流架构。
- VoxelNet：通过稀疏3D卷积处理体素化点云，适合高精度场景（如nuScenes）。
- PointPillars：将点云转换为伪图像（Pillar表示），使用2D卷积，计算效率更高但精度略低。
VoxelNet：
通过体素化（如0.075m×0.075m×0.2m的网格）将点云转换为稀疏体素，使用**稀疏3D卷积（SpConv）**提取特征，最终投影为鸟瞰图（BEV）特征。
- 关键模块：
  - 体素特征编码（VFE）简化版（如HardSimpleVFE）对体素内点云求均值。
  - 中间特征提取层（如SpMiddleResNetFHD）通过多级稀疏卷积逐步压缩空间维度。
PointPillars：
将点云划分为柱状（Pillar）结构，直接生成伪图像特征，后续用2D卷积处理，显著提升计算效率。
设计特点：CenterPoint的检测头（center-based）与骨干解耦，可灵活适配不同骨干。

骨干网络：基于VoxelNet的稀疏3D卷积提取体素特征，并融合**PointNet++**的关键点特征。
- 两阶段设计：第一阶段生成体素提案，第二阶段通过关键点特征细化检测框。
- 优势：结合体素的规则性和点云的几何细节，提升小目标检测精度。

骨干网络：通常基于VoxelNet或PointNet++，但核心创新在于Transformer解码器：
- 若使用体素化输入（如Waymo数据集），则采用VoxelNet的稀疏卷积。
- 若直接处理点云，则依赖PointNet++提取局部特征。
多任务扩展：如M3Net（多模态版本）可能引入多模态骨干（如BEVFormer）。

结论：三者均依赖经典骨干（VoxelNet/PointNet++/PointPillars），但架构设计差异显著：

使用3D卷积：这类方法将点云转换为规则的体素网格（3D voxel grid），并直接应用3D卷积提取特征。例如：
- VoxelNet：通过体素特征编码（VFE）生成稀疏4D张量后，使用3D卷积聚合局部特征。
- SECOND：改进VoxelNet，采用稀疏3D卷积优化计算效率，但本质仍是3D卷积。
原因：体素化后的数据是规则的三维网格结构，适合3D卷积操作。

不使用3D卷积：直接处理原始点云数据，通过逐点MLP（1×1卷积）和最大池化提取特征。例如：
- PointNet++：通过层次化点集采样和局部特征聚合（类似PointNet），无需体素化或3D卷积。
- PointRCNN：基于PointNet++提取点特征，后续使用2D卷积处理BEV投影。