(CVPR 2022) SoftGroup for 3D Instance Segmentation on Point Clouds

科技 07-17 来源： CV成长笔记

Abstract

现有的最先进的三维实例分割方法先进行语义分割，然后再进行分组。在进行语义分割时进行hard predictions，使每个点都与单一类别相关。然而，由hard decision产生的错误会传播到分组中，导致(1)预测的实例与ground truth之间的重叠度低，(2)大量的false positives。为了解决上述问题，本文提出了一种被称为SoftGroup的三维实例分割方法，通过自下而上的soft grouping和自上而下的细化来完成。SoftGroup允许每个点与多个类别相关联，以减轻语义预测错误带来的问题，并通过学习将其归类为背景来抑制false positive实例。在不同的数据集和多种评价指标上的实验结果证明了SoftGroup的功效。它的性能超过了先前最强的方法，就AP50而言，它在ScanNet v2隐藏测试集上的性能为+6.2%，在S3DIS Area 5的性能为+6.8%。SoftGroup的速度也很快，在ScanNet v2数据集上，单台Titan X的每次扫描时间为345ms。两个数据集的源代码和训练好的模型都可以在https: //github.com/thangvubk/SoftGroup.git上找到。

1. Introduction

由于3D传感器的快速发展和大规模3D数据集的可用性，对3D数据的场景理解越来越受到关注。点云上的实例分割是一项3D感知任务，是自动驾驶、虚拟现实和机器人导航等广泛应用的基础。实例分割处理点云以输出每个检测到的目标的类别和实例掩码。

最先进的方法[4,15,20]将3D实例分割视为自下而上的pipeline。他们学习逐点语义标签和中心偏移向量，然后将具有较小几何距离的相同标签的点分组到实例中。这些分组算法是在hard语义预测上执行的，其中一个点与单个类相关联。在许多情况下，目标是局部模糊的，输出的语义预测显示不同部分的不同类别，因此使用hard语义预测进行实例分组会导致两个问题：（1）预测实例与ground-truth值之间的低重叠和（2）来自错误语义区域的额外false-positive实例。图1显示了一个可视化示例。这里，在语义预测结果中，橱柜的某些部分被错误地预测为其他家具。当使用hard语义预测进行分组时，语义预测误差会传播到实例预测。结果，预测的橱柜实例与ground-truth的重叠度很低，而另一个家具实例是误报。

(CVPR 2022) SoftGroup for 3D Instance Segmentation on Point Clouds

图1

图 1. 来自相同语义预测结果的有和没有SoftGroup的实例分割。最后一行显示仅用于语义预测的调色板。实例预测由不同目标的不同随机颜色来说明。在语义预测结果中，橱柜的某些区域被错误地预测为其他家具。如果没有SoftGroup，这些错误会传播到实例预测。 SoftGroup解决了这个问题并生成更准确的实例mask。

本文提出SoftGroup通过考虑soft语义分数来执行分组而不是hard one-hot语义预测来解决这些问题。 SoftGroup的直觉如图2所示。我们的发现是，具有错误语义预测的目标部分对于真实语义类仍然具有合理的分数。 SoftGroup依赖于分数阈值来确定目标属于哪个类别，而不是参数最大值。对soft语义分数进行分组会产生真实语义类的准确实例。语义预测错误的实例将通过学习将其分类为背景来抑制。为此，我们根据与ground truth的最大交集（IoU）将实例proposal视为正样本或负样本，然后构建自上而下的细化阶段来细化正样本并抑制负样本。如图1所示，SoftGroup能够从不完美的语义预测中生成准确的实例mask。

SoftGroup在概念上简单且易于实现。 ScanNet v2[6]和S3DIS[1]基准数据集上的实验表明了我们方法的有效性。值得注意的是，就AP50而言，SoftGroup在ScanNet隐藏测试集上以 +6.2%的显着优势和在S3DIS Area 5上+6.8%的优势显着优于之前的最先进方法。 SoftGroup速度很快，处理一个ScanNet场景需要345毫秒。总之，我们的贡献是三倍的。

我们提出了SoftGroup，它对soft语义分数进行分组，以避免从hard语义预测到实例分割的错误传播。
我们提出了一个自上而下的细化阶段来纠正、细化正样本并抑制由错误语义预测引入的误报。
我们报告了对具有不同评估指标的多个数据集的广泛实验，显示出对现有最先进方法的显着改进。

2. Related work

3D点云的深度学习。 点云表示是3D场景理解的常用数据格式。为了处理点云，早期的方法[2,3,36,37]根据点的统计属性提取手工制作的特征。最近的深度学习方法学习从点中提取特征。基于PointNet的方法[32,33]提出通过共享的多层感知器(MLP)处理点，然后从对称函数（例如最大池化）中聚合区域和全局特征。卷积方法被积极探索用于点云处理。连续卷积方法[23、40、44、45]学习与局部点的空间分布相关的内核。离散卷积方法[5,8,13,19,25,34]学习从点量化获得的规则网格的内核。 Transformers[18, 50]和基于图的方法[38, 39, 43]也被提出来解决点云的数据不规则性。

基于Proposal的实例分割。 基于proposal的方法考虑了一种自上而下的策略，该策略生成区域proposal，然后在每个proposal中分割目标。现有的基于proposal的3D点云方法很大程度上受到Mask-R CNN用于2D图像的成功的影响。为了处理点云的数据不规则性，Li等人[47]提出了GSPN，它采用综合分析策略来生成高目标3D proposal，并由基于区域的PointNet进行细化。Hou等人[12]提出了3DSIS，它结合了多视图RGB输入和3D几何来预测边界框和实例掩码。Yang等人[46]提出了3D-BoNet，它直接输出一组边界框，无需生成anchor和非极大值抑制，然后通过逐点二元分类器对目标进行分割。Liu等人[22]提出GICN将每个目标的实例中心近似为高斯分布，对其进行采样以获得目标候选，然后生成相应的边界框和实例mask。

基于分组的实例分割。 基于分组的方法依赖于自下而上的pipeline，该pipeline产生逐点预测(例如语义图、几何位移或潜在特征)，然后将点分组到实例中。Wang等人[41]提出SGPN来为所有点构建特征相似性矩阵，然后将具有相似特征的点分组为实例。Pham等人[29]提出了JSIS3D，它通过多值条件随机场模型合并语义和实例标签，并联合优化标签以获得目标实例。Lahoud等人[17]提出了MTML来学习特征和方向嵌入，然后在特征嵌入上执行mean-shift聚类以生成object segments，这些object segments根据它们的方向特征一致性来评分。Han等人[9]介绍了OccuSeg，它执行由目标占用信号引导的基于图形的聚类，以获得更准确的分割输出。Zhang等人[48]考虑了一种概率方法，将每个点表示为三变量正态分布，然后进行聚类步骤以获得目标实例。Jiang等人[15]提出了点群算法来分割原始点集和偏移点集上的目标，该算法简单而有效，可将具有相同标签的邻近点进行分组，并逐步扩展该组。Chen等人[4]扩展了PointGroup并提出了HAIS，它进一步吸收实例的周围片段，然后基于实例内预测来细化实例。Liang等人[20]SSTNet从预先计算的超级点构建树网络，然后遍历树并分割节点以获得目标实例。

常见的基于proposal和基于分组的方法各有优缺点。基于proposal的方法独立处理每个目标proposal，不受其他实例的干扰。基于分组的方法无需生成proposal即可处理整个场景，从而实现快速推理。然而，基于proposal的方法难以生成高质量的proposal，因为该点仅存在于目标表面上。基于分组的方法高度依赖于语义分割，使得语义预测中的错误传播到实例预测中。所提出的方法利用了这两种方法的优点并解决了它们的局限性。我们的方法被构建为一个两阶段的pipeline，其中自下而上的阶段通过对soft语义分数进行分组来生成高质量的目标proposal，然后自上而下的阶段处理每个proposal以细化正样本并抑制负样本。

图2

图 2. 提取图1中的橱柜以说明我们方法的高级pipeline。基于软语义分数的软分组模块输出更准确的实例（上一个）。分类器处理每个实例并从错误的语义预测（较低的一个）中抑制实例。

3. Method

SoftGroup的整体架构如图3所示，分为两个阶段。在自底向上分组阶段，逐点预测网络（第3.1节）将点云作为输入并生成逐点语义标签和偏移向量。软分组模块（第3.2节）处理这些输出以产生初步的实例proposal。在自上而下的细化阶段，基于proposal，从主干中提取相应的特征，并用于预测类、实例mask和mask分数作为最终结果。

图3

图 3.所提出方法的架构由自下而上的分组和自上而下的细化阶段组成。从输入点云中，U-Net主干提取点特征。然后语义和偏移分支预测语义分数和偏移向量，然后是软分组模块以生成实例proposal。特征提取层从实例proposal中提取主干特征。每个proposal的特征都被输入到一个微型U-Net中，然后是分类、分割和掩码评分分支，以获得最终实例。

3.1. Point-wise Prediction Network

逐点预测网络的输入是一组N个点，每个点由其坐标和颜色表示。点集被体素化以将无序的点转换为有序的体积网格，这些网格被馈送到U-Net风格的主干[35]以获得点特征。采用子流形稀疏卷积[8]来实现3D点云的U-Net。根据点特征，构造两个分支以输出逐点语义分数和偏移向量。

3.2. Soft Grouping

图4

图 4. 不同分数阈值τ 语义预测的召回率和准确率。虚线表示硬语义预测的召回率和精度。

图4显示了与hard语义预测相比，具有不同分数阈值τ 的召回率和精度（类的平均值）。使用hard语义预测，召回率为79.1%，这表明超过20%的类点数没有被预测覆盖。当使用分数阈值时，召回率随着分数阈值的降低而增加。但是，分数阈值小也会导致精度低。我们提出了一个自上而下的细化阶段来缓解低精度问题。精度可以解释为目标实例的前景和背景点之间的关系。我们将阈值设置为0.2，精度接近50%，导致前景和背景点之间的比率，以确保阶段是平衡的。

3.3. Top-Down Refinement

3.4. Multi-task Learning

5. Conclusion

我们提出了SoftGroup，一种简单而有效的方法，用于三维点云的实例分割。SoftGroup对软语义分数进行分组，以解决对局部不明确目标进行硬分组所产生的问题。从分组阶段获得的实例proposals被分配给正样本或负样本。然后构建一个自上而下的提炼阶段来提炼正面信息并抑制负面信息。在不同数据集上的大量实验表明，就而言，我们的方法在hidden ScanNet v2测试集上比现有的最先进方法高出+6.2%，在S3DIS Area 5上高出+6.8%。

原文链接：https://arxiv.org/abs/2203.01509