赵子祥:
西安交通大学数学与统计学院博士在读,师从张讲社教授,现为哈佛大学计算机科学系访问博士,导师为Hanspeter Pfister教授。研究方向为底层视觉,图像增强,多模态信息融合。
多模态深度超分辨率是多模态图像处理中的一个重要课题,它借助同一场景的高清RGB图像从在次优条件下收集的低分辨率深度图重建高分辨率深度图。为了解决在解释工作机制不明、提取跨模态特征困难和RGB纹理的过度迁移方面的挑战,我们提出了一种新颖的离散余弦变换网络 (DCTNet) ,从三个方面缓解上述问题。首先,离散余弦变换 (DCT) 模块通过使用DCT来重构多通道高清深度特征,以将传统图像域中优化问题集成到深度学习的框架之下。其次,我们引入了一个半耦合特征提取模块,该模块使用共享卷积核来提取公共信息,并使用私有卷积核来提取特定模态的信息。第三,我们采用边缘注意机制来突出引导图像上采样的轮廓信息。广泛的定量和定性评估证明了我们的DCTNet的有效性,它在参数数量相对较少的情况下优于以前的最先进方法。
我们首先介绍一下什么是深度图超分辨率的任务。随着计算机视觉的发展,深度图已经有着非常重要的作用,无论是对于目标的刻画和整个场景的描述。但是由于受到成像设备的限制,深度图往往会遇到的问题是其低分辨率且含有噪声,这时候我们希望能用一个同一场景之下的RGB图像作为指导,得到一个高分辨率的深度图图像。
RGB Guided depth super-resolution
因为我们知道同一场景之下的RGB图像往往是高分辨率且不含有噪声点,所以我们希望RGB的图像可以给予一些边缘和细节纹理上的指引来完成超分辨率的工作。但是和传统的自然图像超分辨率的区别,在于如果只是单纯的把RGB的纹理转移到深度图的超分辨率之上会出现一个问题,即RGB的纹理可能有一些不会出现在深度图上,如图中人脸的眼睛等细节信息。如何把这一部分消除掉,也是我们的一个挑战。常用的方法有传统的方法和深度学习的方法。
对于传统的方法,我们一般分成local的filter-based方法和non-local的Optimization-based以及Learning-based方法。对于深度学习的方法,一般是上述方法和深度学习的结合,类似于filter-based方法和深度学习的结合就是Learnable filter方法。然后,Optimization-based和深度学习的结合就是Algorithm unrolling方法。这一问题主要还存在着以下三个挑战:
第一个挑战就是跨模态特征提取比较困难。深度图和自然的RGB图像含义不同特点,所以需要用不同的特征提取方式来学习表征。
第二个就是RGB的over-transferred。RGB图像内部的一些纹理信息是不会出现在深度图上的,因此我们如何消除掉这部分没用的信息呢?
第三个就是工作机制的不明确,这也是深度学习常有的问题。
DCTNet: Workflow
基于上面提出的三个问题,我们提出了基于离散余弦变换的一个网络。这个网络由4个模块构成,第一个是半耦合特征提取模块,用来提取跨模态的特征信息;第二个是边缘的注意力机制和高亮模块;第三个是离散余弦变换展开模块;最后一个模块是深度重构模块,用来把特征输出成高清的深度图像。下面,我们会详细的介绍四个模块的motivation和工作机制。
首先,我们从一个传统的优化模型说起。我们先建立了一个如下的方程来解决上述深度图超分辨率的任务。
在这个任务中,L是我们输入的第一分辨率的深度图,H是我们得到的高分辨率深度图,ℒ代表的是高通的拉普拉斯滤波。后面的R代表输入的RGB图像,W代表的是RGB图像的一部分。优化方程完成了什么样的效果呢?我们最终希望得到的高分辨率深度图H在低频细节上和L的信息是比较接近的。但是他还和后面的一个正则项来保证其高频信息,其高频信息的保证在于部分的高频信息应该和部分RGB中的高频信息能够对应到的。但是究竟要选取哪一部分的RGB信息和H的信息对齐呢?我们需要手动给定一个W去做特征的筛选,筛选出的一部分RGB信息和H的信息接近。这个方程可以通过梯度下降求解,可以看作是一个2D离散的泊松方程,且可以通过两端的离散余弦变化来求解。
看起来这个问题已经被优化方程解决了,但是会存在一些问题,主要有以下三个问题:第一个,我们刚刚提到W是一个边缘感知的阈值函数,在传统方法中是很难手动给定阈值的。第二个是保真项和正则项λ的选取需要手动给定和交叉验证。这个方程主要针对的是1通道的图像,而随着计算机视觉任务的日益复杂,1通道的任务很难去适应我们所有的任务。因此,我们对优化方程进行了改善,将求解过程集成到整个深度学习的框架之下,对每一个channel完成特征的求解。最终,这个方程就可以被化为整个网络之中的一个模块,求解过程就可以被看成输入一个特征,然后输出一个高分辨率的特征。
在传统模型之中,我们输入一个单通道的L和W、R。就能得到H。当我们将其集成到深度学习之中,就是输入一个R的feature和L的feature,以及W的权重,通过离散余弦变换就可以得到H的feature。前面两个特征可以看作是跨模态的特征提取。这样我们就可以把一个传统的优化方程展开成一个DCTNet。
DCTNet: detailed illustration
首先,我们针对跨模态特征提取较为困难的问题提出了一个半耦合的特征模块。我们把两个图片输入到半耦合特征提取模块,这个模块当中特征提取的kernel并不是独立的,而是半耦合的,即其一部分是共享的,但还有其私有的kernel去提取各自的特征。共享的kernel用来提取跨模态公有的特征。这三种类型的kernel就可以完成特征的提取,之后我们提取的RGB特征会进入到guided attention模块,这个模块的作用是高亮对于超分辨率任务有用的特征,而不是将整个特征用作超分辨率。这个特征我们需要它是轻量的,而且是要可以保证完成高亮边缘的任务。这里我们选择了CVPR 2020中的一个模块来完成这个工作,最后将完成后得到的R、L和W feature输入到DCT模块。最终将得到的高分辨率的ΦH进入到由卷积构成的重构模块,就可以得到输出的高分辨率深度图H。
DCTNet: Quantitative comparisons
下面我们来看一些结果,由上图可以看到我们的方法在四个数据集上均取得了很好的重建效果。另外,我们还在这里做了一个真实场景下的任务,这个任务可以看着是之前在NYU上进行训练之后直接置身真实场景之下去做模拟的数据集。我们的方法依然取得了很好的效果。
因为我们之前提到了半耦合的卷积可以有效的节约参数,由DCT展开成的DCTNet模型也可以很好的节约参数。因此我们仅用了很小的参数量就达成了很好的效果。
CTNet: Quantitative comparisons DCTNet: Qualitative comparisons
从上图中我们的重构结果来看,我们的方法效果确实较好。
DCTNet: Highlighting edge weight & Learnable parameters
由上图可以看出,高亮的确实是边缘。我们集成的这个边缘的注意力机制和高亮模块是非常有效果的。传统方法中的λ需要手动给定,而我们DCTNet中的λ是可以通过给定参数进行学习的。
我们也给出了λ随着训练而变化的曲线,可以看出不同的channel会收敛到不同的λ,而这么多的λ是很难去手动给定的。因此,我们对方法也具有着非常好的效果。
Take-home message
总结一下,我们介绍了这样一种多模态用RGB指导之下的深度图超分辨率的任务。然后针对这一任务存在三种挑战,分别是工作机制解释困难、跨模态提取困难和RGB纹理的迁移。
针对第一个问题,我们的DCTNet提出了基于离散余弦变化的展开DCT模块;第二个,我们给到了一个半耦合的特征提取模块;第三个就是RGB纹理的过度迁移问题,我们也给出了一个guided edge spatial attention module来解决相应问题。
留言与评论(共有 0 条评论) “” |