当前位置：首页 > news >正文

BEVDet4D: Exploit Temporal Cues in Multi-camera 3D Object Detection

news 来源：原创 2025/4/22 7:18:09

背景

对于现有的BEVDet方法，它对于速度的预测误差要高于基于点云的方法，对于像速度这种与时间有关的属性，仅靠单帧数据很难预测好。因此本文提出了BEVDet4D，旨在获取时间维度上的丰富信息。它是在BEVDet的基础上进行拓展，保留了之前帧的BEV特征，并将其进行空间对齐后与当前帧对应BEV特征连接。在nuscenes数据集上证明其可行性发现，不仅速度误差mAVE从0.909降低到0.337，在其他分数也有提升，mAP提升2.6%,NDS提升了8.4%，达到了42.1%mAP与54.5%NDS。

贡献

在BEVDet的基础上提出了时序融合，提出了空间对齐模块，根据自车移动矩阵，将当前帧的坐标线性二插值回到前一帧特征图取值。不过融合上只是采用了拼接操作。
提出了额外BEV编码器，原理很简单，但是使得BEV特征图精细化，能够更好适用于后续的时序融合模块了。

具体方法

总体架构

这里使用的方法很简单，架构就是BEVDet，为了捕获时间信息，使用上一帧的BEV特征与当前特征图进行合并，在这之前，还增加了对齐操作，而融合手段这里没有深入探索，就是进行拼接操作。此外，由于视角转换得到的特征图太过粗糙，因此提供了一个额外BEV编码器进一步加工，再交给后续融合。

空间对齐

这里有三个坐标系， $O_g-X Y Z$ , $O_{e(T)}-X Y Z$ , $O_{t(T)}-X Y Z$ 分别代表全局坐标系、自车在T时刻的坐标系，在T时刻的目标坐标系；对于目标物体的位置为 $P^x(t)$ ，其中x∈{g，e(T),e(T-1)}，代表坐标系，而t∈{T，T-1}，因为我们只进行两帧的融合； $T_{src}^{dst}$ 代表从src坐标系到dst坐标系的变换矩阵。
相比于学习速度，这里选择预测物体两帧间的位移，并且对于位移要求与自车移动解耦，这是因为自车移动会使得位移变得复杂。举例来说，静态的物体在自车运动下，在自车坐标系下看是移动的，这是由于自车坐标系是以自车为中心。如果按照下面式子则会导致位移与自车移动相关。