BEV下的多相机多目标跟踪框架—MUTR3D

自动驾驶系统中,如何有效地融合多个相机的图像信息,跟踪场景中车辆、行人等多

个目标是一个很重要的问题。

在该工作中,研究者通过3D track query来构建统一的多相机且端到端的多目标跟踪框架,避免了NMS,检测框关联,Re-ID等后处理步骤。

并且MUTR3D在nuScenes test set上实现了state-of-the-art结果。

论文链接:

https://arxiv.org/pdf/2205.00613.pdf

项目主页:

https://tsinghua-mars-lab.github.io/mutr3d/

一、引言

7月15号,理想汽车创始人李想在微博上提到了理想智能驾驶团队实现全世界第一个在量产车上实现BEV 3D视觉感知算法,其中就有我们MARS Lab的一系列 VCAD(Vision-Centric Autonomous Driving,以视觉为中心的自动驾驶)的工作。

视觉图像有着丰富的语义信息,相比于LiDAR, Radar等传感器更容易获取,也更有扩展性。VCAD系列的工作已经在学术界和业界都产生了巨大的影响力,VCAD目前的主要代表工作有:

  1. BEV下的纯视觉目标检测-DETR3D

  2. BEV下统一的多传感器融合框架-FUTR3D

  3. BEV下的多相机多目标跟踪框架—MUTR3D

  4. 高精度语义地图的动态构建-HDMapNet

  5. 高精度矢量化地图的在线构建-VectorMapNet

下面就由陈炫耀同学来介绍我们的CVPR Autonomous Driving Workshop论文:MUTR3D: A Multi-camera Tracking Framework via 3D-to-2D Queries。

3D多目标跟踪 (MOT) 是移动机器人和自动驾驶系统中的一项重要任务,它将目标检测与路径规划和轨迹预测等下游任务连接起来,是确保移动感知系统在动态复杂场景中安全导航的核心能力。在自动驾驶系统中,如何有效地融合多个相机的图像信息,跟踪场景中车辆、行人等多个目标是一个很重要的问题。

在传统的多目标跟踪方法中,一般使用两阶段范式。先对每一帧图像分别做目标检测,得到一阶段的检测框;然后再根据各个检测结果之间特征信息的相似度和距离远近来关联各个检测框,得到目标跟踪结果。这样的做法并不是端到端的,可能只会收敛到次优解,也很容易受到一阶段目标检测精度的影响。

在MUTR3D中,我们通过3D track query来构建统一的多相机且端到端的多目标跟踪框架。

MUTR3D的主要贡献如下:

  1. 端到端。据我们所知,MUTR3D是第一个端到端的多相机3D多目标跟踪框架,避免了NMS,检测框关联,Re-ID等后处理步骤。

  2. 3D track query。MUTR3D通过3D track query来隐式地表示3D物体的运动轨迹。

  3. 有效性。MUTR3D在nuScenes test set上实现了state-of-the-art结果。

二、MUTR3D方案

MUTR3D的encoder部分用ResNet101/50和FPN网络对输入的6张图片分别进行处理,每张图片输出得到4层multi-scale feature map。

我们的decoder head在最开始的时候会初始化一组newborn queries,对于每一帧图片输入,query会更新自身的信息,decoder head在每帧会将track query转化为物体的bounding box,由同个track query预测得到的物体检测框是直接关联在一起的。decoder包括四个关键部分:

  1. loss

  2. query decoding

  3. query life management

  4. query update。

Loss

之前有一些在2D图像上实现端到端多目标跟踪的工作,如MOTR[1]和TransTrack[2],我们参考了它们对track query和loss的设计。MUTR3D在处理时序多帧图像时,会维护一个动态的3D track query队列。在当前帧时,每个3D track query会预测得到一个物体检测框,为了计算loss并训练我们的模型,我们需要给每个track query分配一个label,ground-truth object box或者 (代表没有对应物体)。

3D track query分为newborn query和old query。我们会在每一帧输入时都加入一定量的newborn query,用他们来检测当前帧新出现的物体。利用匈牙利算法来找到newborn query和新出现物体之间的最优二分图匹配,为每个newborn query分配对应的label(gt box或者 )。old query是过去帧成功匹配到物体的query,他们在过去一旦匹配成功过,那么分配到的gt object box就是固定的。如果old query分配到的ground-truth object存在于当前帧,那么他们依然会被分配对应的label,若对应的gt object不存在,则分配 。

是track query分配到的target,若该target为 ,则只计算focal classification loss;若该 target为ground-truth object box,则计算box regression loss和focal classification loss。

Track Query Decoding

decoder部分含有两中attention模块:track query之间的self attention以及track query和image feature maps之间的cross attention。

对于cross attention,我们参照了DETR3D的做法,利用每个query解码出的reference point根据相机的内外参数投影到图像中,来sample当前帧的图像特征信息。再根据采样得到的image features和reference points的positional encoding来更新track query的信息。

同时,我们也采用了和DETR3D[3]一样的iterative refinement的操作,在每层decoder layer来更新reference point的相对位置,并得到更新预测的目标检测框。详细操作可以参考DETR3D。

Query Life Management

在inference的时候,如果当前帧的newborn query预测后的score低于 ,则将它移除,不再 保留至下一帧;若old query连续T帧预测得到的score都低于 ,则将其从队列中移除。我们 在多次试验后,选择 , 。

在训练的时候,对于每一帧的newborn query,如果它分配到了 , 则将其移除;若old query 连续T帧都被分配为 ,则将其从队列中移除。注意,即使old query在当前帧没有匹配到 ground-truth object,它的信息依然会被attention模块更新。

Query Update and Motion Model

为了补偿不同帧之间动态物体的运动以及ego-car自身运动所导致的位置误差,我们在将track query传递到下一帧时,需要对每个query对应的reference point的空间坐标做一个位置转换。我 们记ego pose当前帧和下一帧的rotation和translation为

三、实验结果

我们在nuScenes test set上达到了27.0 AMOTA的成果,是当时的SOTA结果,证明了我们的方法的有效性。

参考

[1] MOTR: End-to-End Multiple-Object Tracking with TRansformer https://arxiv.org/abs/2105.03247

[2] TransTrack: Multiple-Object Tracking with Transformer https://arxiv.org/abs/2012.15460

[3] DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries https://arxiv.org/abs/2110.06922

文章来源:https://zhuanlan.zhihu.com/p/526017444作者:赵行

Illustration by Icons 8from icons8

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。

社区上线330+期talk视频,900+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

>> 投稿请添加工作人员微信!

关于我“门”

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务、将门技术社群以及将门创投基金。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,

欢迎发送或者推荐项目给我“门”:

⤵一键送你进入TechBeat快乐星球

发表评论
留言与评论(共有 0 条评论) “”
   
验证码:

相关文章

推荐文章