(CVPR 2022) SoftGroup for 3D Instance Segmentation on Point Clouds

Abstract

现有的最先进的三维实例分割方法先进行语义分割,然后再进行分组。在进行语义分割时进行hard predictions,使每个点都与单一类别相关。然而,由hard decision产生的错误会传播到分组中,导致(1)预测的实例与ground truth之间的重叠度低,(2)大量的false positives。为了解决上述问题,本文提出了一种被称为SoftGroup的三维实例分割方法,通过自下而上的soft grouping和自上而下的细化来完成。SoftGroup允许每个点与多个类别相关联,以减轻语义预测错误带来的问题,并通过学习将其归类为背景来抑制false positive实例。在不同的数据集和多种评价指标上的实验结果证明了SoftGroup的功效。它的性能超过了先前最强的方法,就AP50而言,它在ScanNet v2隐藏测试集上的性能为+6.2%,在S3DIS Area 5的性能为+6.8%。SoftGroup的速度也很快,在ScanNet v2数据集上,单台Titan X的每次扫描时间为345ms。两个数据集的源代码和训练好的模型都可以在https: //github.com/thangvubk/SoftGroup.git上找到。

1. Introduction

由于3D传感器的快速发展和大规模3D数据集的可用性,对3D数据的场景理解越来越受到关注。点云上的实例分割是一项3D感知任务,是自动驾驶、虚拟现实和机器人导航等广泛应用的基础。实例分割处理点云以输出每个检测到的目标的类别和实例掩码。

最先进的方法[4,15,20]将3D实例分割视为自下而上的pipeline。他们学习逐点语义标签和中心偏移向量,然后将具有较小几何距离的相同标签的点分组到实例中。这些分组算法是在hard语义预测上执行的,其中一个点与单个类相关联。在许多情况下,目标是局部模糊的,输出的语义预测显示不同部分的不同类别,因此使用hard语义预测进行实例分组会导致两个问题:(1)预测实例与ground-truth值之间的低重叠和(2)来自错误语义区域的额外false-positive实例。图1显示了一个可视化示例。这里,在语义预测结果中,橱柜的某些部分被错误地预测为其他家具。当使用hard语义预测进行分组时,语义预测误差会传播到实例预测。结果,预测的橱柜实例与ground-truth的重叠度很低,而另一个家具实例是误报。

(CVPR 2022) SoftGroup for 3D Instance Segmentation on Point Clouds

图1

图 1. 来自相同语义预测结果的有和没有SoftGroup的实例分割。最后一行显示仅用于语义预测的调色板。实例预测由不同目标的不同随机颜色来说明。在语义预测结果中,橱柜的某些区域被错误地预测为其他家具。如果没有SoftGroup,这些错误会传播到实例预测。 SoftGroup解决了这个问题并生成更准确的实例mask。

本文提出SoftGroup通过考虑soft语义分数来执行分组而不是hard one-hot语义预测来解决这些问题。 SoftGroup的直觉如图2所示。我们的发现是,具有错误语义预测的目标部分对于真实语义类仍然具有合理的分数。 SoftGroup依赖于分数阈值来确定目标属于哪个类别,而不是参数最大值。对soft语义分数进行分组会产生真实语义类的准确实例。语义预测错误的实例将通过学习将其分类为背景来抑制。为此,我们根据与ground truth的最大交集(IoU)将实例proposal视为正样本或负样本,然后构建自上而下的细化阶段来细化正样本并抑制负样本。如图1所示,SoftGroup能够从不完美的语义预测中生成准确的实例mask。

SoftGroup在概念上简单且易于实现。 ScanNet v2[6]和S3DIS[1]基准数据集上的实验表明了我们方法的有效性。值得注意的是,就AP50而言,SoftGroup在ScanNet隐藏测试集上以 +6.2%的显着优势和在S3DIS Area 5上+6.8%的优势显着优于之前的最先进方法。 SoftGroup速度很快,处理一个ScanNet场景需要345毫秒。总之,我们的贡献是三倍的。

  • 我们提出了SoftGroup,它对soft语义分数进行分组,以避免从hard语义预测到实例分割的错误传播。
  • 我们提出了一个自上而下的细化阶段来纠正、细化正样本并抑制由错误语义预测引入的误报。
  • 我们报告了对具有不同评估指标的多个数据集的广泛实验,显示出对现有最先进方法的显着改进。

2. Related work

3D点云的深度学习。 点云表示是3D场景理解的常用数据格式。为了处理点云,早期的方法[2,3,36,37]根据点的统计属性提取手工制作的特征。最近的深度学习方法学习从点中提取特征。基于PointNet的方法[32,33]提出通过共享的多层感知器(MLP)处理点,然后从对称函数(例如最大池化)中聚合区域和全局特征。卷积方法被积极探索用于点云处理。连续卷积方法[23、40、44、45]学习与局部点的空间分布相关的内核。离散卷积方法[5,8,13,19,25,34]学习从点量化获得的规则网格的内核。 Transformers[18, 50]和基于图的方法[38, 39, 43]也被提出来解决点云的数据不规则性。

基于Proposal的实例分割。 基于proposal的方法考虑了一种自上而下的策略,该策略生成区域proposal,然后在每个proposal中分割目标。现有的基于proposal的3D点云方法很大程度上受到Mask-R CNN用于2D图像的成功的影响。为了处理点云的数据不规则性,Li等人[47]提出了GSPN,它采用综合分析策略来生成高目标3D proposal,并由基于区域的PointNet进行细化。Hou等人[12]提出了3DSIS,它结合了多视图RGB输入和3D几何来预测边界框和实例掩码。Yang等人[46]提出了3D-BoNet,它直接输出一组边界框,无需生成anchor和非极大值抑制,然后通过逐点二元分类器对目标进行分割。Liu等人[22]提出GICN将每个目标的实例中心近似为高斯分布,对其进行采样以获得目标候选,然后生成相应的边界框和实例mask。

基于分组的实例分割。 基于分组的方法依赖于自下而上的pipeline,该pipeline产生逐点预测(例如语义图、几何位移或潜在特征),然后将点分组到实例中。Wang等人[41]提出SGPN来为所有点构建特征相似性矩阵,然后将具有相似特征的点分组为实例。Pham等人[29]提出了JSIS3D,它通过多值条件随机场模型合并语义和实例标签,并联合优化标签以获得目标实例。Lahoud等人[17]提出了MTML来学习特征和方向嵌入,然后在特征嵌入上执行mean-shift聚类以生成object segments,这些object segments根据它们的方向特征一致性来评分。Han等人[9]介绍了OccuSeg,它执行由目标占用信号引导的基于图形的聚类,以获得更准确的分割输出。Zhang等人[48]考虑了一种概率方法,将每个点表示为三变量正态分布,然后进行聚类步骤以获得目标实例。Jiang等人[15]提出了点群算法来分割原始点集和偏移点集上的目标,该算法简单而有效,可将具有相同标签的邻近点进行分组,并逐步扩展该组。Chen等人[4]扩展了PointGroup并提出了HAIS,它进一步吸收实例的周围片段,然后基于实例内预测来细化实例。Liang等人[20]SSTNet从预先计算的超级点构建树网络,然后遍历树并分割节点以获得目标实例。

常见的基于proposal和基于分组的方法各有优缺点。基于proposal的方法独立处理每个目标proposal,不受其他实例的干扰。基于分组的方法无需生成proposal即可处理整个场景,从而实现快速推理。然而,基于proposal的方法难以生成高质量的proposal,因为该点仅存在于目标表面上。基于分组的方法高度依赖于语义分割,使得语义预测中的错误传播到实例预测中。所提出的方法利用了这两种方法的优点并解决了它们的局限性。我们的方法被构建为一个两阶段的pipeline,其中自下而上的阶段通过对soft语义分数进行分组来生成高质量的目标proposal,然后自上而下的阶段处理每个proposal以细化正样本并抑制负样本。

(CVPR 2022) SoftGroup for 3D Instance Segmentation on Point Clouds

图2

图 2. 提取图1中的橱柜以说明我们方法的高级pipeline。基于软语义分数的软分组模块输出更准确的实例(上一个)。分类器处理每个实例并从错误的语义预测(较低的一个)中抑制实例。

3. Method

SoftGroup的整体架构如图3所示,分为两个阶段。在自底向上分组阶段,逐点预测网络(第3.1节)将点云作为输入并生成逐点语义标签和偏移向量。软分组模块(第3.2节)处理这些输出以产生初步的实例proposal。在自上而下的细化阶段,基于proposal,从主干中提取相应的特征,并用于预测类、实例mask和mask分数作为最终结果。

(CVPR 2022) SoftGroup for 3D Instance Segmentation on Point Clouds

图3

图 3.所提出方法的架构由自下而上的分组和自上而下的细化阶段组成。从输入点云中,U-Net主干提取点特征。然后语义和偏移分支预测语义分数和偏移向量,然后是软分组模块以生成实例proposal。特征提取层从实例proposal中提取主干特征。每个proposal的特征都被输入到一个微型U-Net中,然后是分类、分割和掩码评分分支,以获得最终实例。

3.1. Point-wise Prediction Network

逐点预测网络的输入是一组N个点,每个点由其坐标和颜色表示。点集被体素化以将无序的点转换为有序的体积网格,这些网格被馈送到U-Net风格的主干[35]以获得点特征。采用子流形稀疏卷积[8]来实现3D点云的U-Net。根据点特征,构造两个分支以输出逐点语义分数和偏移向量。

(CVPR 2022) SoftGroup for 3D Instance Segmentation on Point Clouds

3.2. Soft Grouping

(CVPR 2022) SoftGroup for 3D Instance Segmentation on Point Clouds

(CVPR 2022) SoftGroup for 3D Instance Segmentation on Point Clouds

(CVPR 2022) SoftGroup for 3D Instance Segmentation on Point Clouds

图4

图 4. 不同分数阈值τ 语义预测的召回率和准确率。虚线表示硬语义预测的召回率和精度。

图4显示了与hard语义预测相比,具有不同分数阈值τ 的召回率和精度(类的平均值)。使用hard语义预测,召回率为79.1%,这表明超过20%的类点数没有被预测覆盖。当使用分数阈值时,召回率随着分数阈值的降低而增加。但是,分数阈值小也会导致精度低。我们提出了一个自上而下的细化阶段来缓解低精度问题。精度可以解释为目标实例的前景和背景点之间的关系。我们将阈值设置为0.2,精度接近50%,导致前景和背景点之间的比率,以确保阶段是平衡的。

3.3. Top-Down Refinement

(CVPR 2022) SoftGroup for 3D Instance Segmentation on Point Clouds

(CVPR 2022) SoftGroup for 3D Instance Segmentation on Point Clouds

3.4. Multi-task Learning

(CVPR 2022) SoftGroup for 3D Instance Segmentation on Point Clouds

5. Conclusion

我们提出了SoftGroup,一种简单而有效的方法,用于三维点云的实例分割。SoftGroup对软语义分数进行分组,以解决对局部不明确目标进行硬分组所产生的问题。从分组阶段获得的实例proposals被分配给正样本或负样本。然后构建一个自上而下的提炼阶段来提炼正面信息并抑制负面信息。在不同数据集上的大量实验表明,就而言,我们的方法在hidden ScanNet v2测试集上比现有的最先进方法高出+6.2%,在S3DIS Area 5上高出+6.8%。

原文链接:https://arxiv.org/abs/2203.01509

发表评论
留言与评论(共有 0 条评论) “”
   
验证码:

相关文章

推荐文章