BEV下的多相机多目标跟踪框架—MUTR3D

科技 08-12 来源：将门创投

自动驾驶系统中，如何有效地融合多个相机的图像信息，跟踪场景中车辆、行人等多

个目标是一个很重要的问题。

在该工作中，研究者通过3D track query来构建统一的多相机且端到端的多目标跟踪框架，避免了NMS，检测框关联，Re-ID等后处理步骤。

并且MUTR3D在nuScenes test set上实现了state-of-the-art结果。

论文链接：
https://arxiv.org/pdf/2205.00613.pdf
项目主页：
https://tsinghua-mars-lab.github.io/mutr3d/

一、引言

7月15号，理想汽车创始人李想在微博上提到了理想智能驾驶团队实现全世界第一个在量产车上实现BEV 3D视觉感知算法，其中就有我们MARS Lab的一系列 VCAD（Vision-Centric Autonomous Driving，以视觉为中心的自动驾驶）的工作。

视觉图像有着丰富的语义信息，相比于LiDAR, Radar等传感器更容易获取，也更有扩展性。VCAD系列的工作已经在学术界和业界都产生了巨大的影响力，VCAD目前的主要代表工作有：

BEV下的纯视觉目标检测-DETR3D
BEV下统一的多传感器融合框架-FUTR3D
BEV下的多相机多目标跟踪框架—MUTR3D
高精度语义地图的动态构建-HDMapNet
高精度矢量化地图的在线构建-VectorMapNet

下面就由陈炫耀同学来介绍我们的CVPR Autonomous Driving Workshop论文：MUTR3D: A Multi-camera Tracking Framework via 3D-to-2D Queries。

3D多目标跟踪 (MOT) 是移动机器人和自动驾驶系统中的一项重要任务，它将目标检测与路径规划和轨迹预测等下游任务连接起来，是确保移动感知系统在动态复杂场景中安全导航的核心能力。在自动驾驶系统中，如何有效地融合多个相机的图像信息，跟踪场景中车辆、行人等多个目标是一个很重要的问题。

在传统的多目标跟踪方法中，一般使用两阶段范式。先对每一帧图像分别做目标检测，得到一阶段的检测框；然后再根据各个检测结果之间特征信息的相似度和距离远近来关联各个检测框，得到目标跟踪结果。这样的做法并不是端到端的，可能只会收敛到次优解，也很容易受到一阶段目标检测精度的影响。

在MUTR3D中，我们通过3D track query来构建统一的多相机且端到端的多目标跟踪框架。

MUTR3D的主要贡献如下：

端到端。据我们所知，MUTR3D是第一个端到端的多相机3D多目标跟踪框架，避免了NMS，检测框关联，Re-ID等后处理步骤。
3D track query。MUTR3D通过3D track query来隐式地表示3D物体的运动轨迹。
有效性。MUTR3D在nuScenes test set上实现了state-of-the-art结果。

二、MUTR3D方案

MUTR3D的encoder部分用ResNet101/50和FPN网络对输入的6张图片分别进行处理，每张图片输出得到4层multi-scale feature map。

我们的decoder head在最开始的时候会初始化一组newborn queries，对于每一帧图片输入，query会更新自身的信息，decoder head在每帧会将track query转化为物体的bounding box，由同个track query预测得到的物体检测框是直接关联在一起的。decoder包括四个关键部分：

loss
query decoding
query life management
query update。

Loss

之前有一些在2D图像上实现端到端多目标跟踪的工作，如MOTR[1]和TransTrack[2]，我们参考了它们对track query和loss的设计。MUTR3D在处理时序多帧图像时，会维护一个动态的3D track query队列。在当前帧时，每个3D track query会预测得到一个物体检测框，为了计算loss并训练我们的模型，我们需要给每个track query分配一个label，ground-truth object box或者（代表没有对应物体）。

3D track query分为newborn query和old query。我们会在每一帧输入时都加入一定量的newborn query，用他们来检测当前帧新出现的物体。利用匈牙利算法来找到newborn query和新出现物体之间的最优二分图匹配，为每个newborn query分配对应的label（gt box或者）。old query是过去帧成功匹配到物体的query，他们在过去一旦匹配成功过，那么分配到的gt object box就是固定的。如果old query分配到的ground-truth object存在于当前帧，那么他们依然会被分配对应的label，若对应的gt object不存在，则分配。

是track query分配到的target，若该target为，则只计算focal classification loss；若该 target为ground-truth object box，则计算box regression loss和focal classification loss。

Track Query Decoding

decoder部分含有两中attention模块：track query之间的self attention以及track query和image feature maps之间的cross attention。

对于cross attention，我们参照了DETR3D的做法，利用每个query解码出的reference point根据相机的内外参数投影到图像中，来sample当前帧的图像特征信息。再根据采样得到的image features和reference points的positional encoding来更新track query的信息。