港大研究员提出融合自适应法向量约束和遮挡注意力的深度估计新方法
发布日期:2020-06-30    来源:中国高科技行业门户    

多视图立体视觉是计算机视觉领域的重要问题,在三维重建、机器人导航和图形学中都具有重要的应用。而现有的多视图深度估计方法一方面对于无纹理/弱纹理的区域、较细较薄的结构无法很好的重建,同时会在一定程度上丢失三维形状的边角和平面信息,此外对于遮挡区域的深度估计还会存在一定的退化现象。
 
 

为了解决这一问题,来自香港大学和马普研究所的研究人员在深度估计模型中引入了融合表面法向量约束来更好地捕捉曲率变化剧烈和平面区域的信息,同时还引入了遮挡注意力策略来进一步提升深度估计的精度。实验表明在这些方法的作用下,大幅度提升了单目多视图的深度估计性能,并在多个测评指标上超过了先前的深度估计方法。

 

 

多视图深度估计
 
 

本文所要研究的问题是利用单个移动相机获得的多视角视频中估计出场景深度,但从彩色视频序列中估计深度并不简单。传统立体视觉方法无法处理无纹理区域、细薄结构、锐利的形状边缘和非朗伯表面。虽然近年来深度学习方法利用逐像素的深度损失进行端到端的训练得到了较为精确的结果,但还无法有效保持陡峭的边、角、平面结构等主要的形状特征,而这对于场景的理解特别是室内人造物件的重建至关重要。如何解决这些问题,在深度估计过程中保持局部和全局的几何特征就显得尤为重要。

 

法向量可以编码物体表面的角度信息,对于平面可以利用统一的法向量进行约束,而对于剧烈变化的局部结构也可以利用法向量中包含的角度信息进行约束。所以在深度估计过程中,利用法向量作为深度外的另一个约束可以有效提升模型对于场景全局和细节的重建能力。

 

此外在多视角重建过程中,特定视角下某些区域会存在明显的遮挡,这会造成不同视角下得到的深度在遮挡区域变换剧烈。同时遮挡和非遮挡区域对于深度估计的贡献也各不相同,有效处理遮挡区域是高精度深度估计的另一个关键所在。

 

实现方法
 
 

为了解决这些问题,本文提出了融合法向量(combined normal map, CNM)作为深度估计任务中的额外约束,同时利用遮挡注意力机制来处理遮挡对深度估计造成的影响,在进一步优化深度结果的同时还能给出遮挡概率图。

 

下图显示了模型的完整结构,分为单应性变换、代价空间构建、初始深度估计、遮挡注意力的深度优化估计等主要部分。其中输入包含一张位于时间轴中间的参考图像和偶数张源图像。在单应性变换的作用下,每一张源图像与参考图像都可以在采样深度上生成代价空间,而后利用DepthNet进行初始深度估计,并使用CNM和深度的L1损失进行训练。在获取初始深度后,多视角的代价空间进行融合并与预测出的深度图一同送入优化网络中进行处理,在遮挡注意力机制的作用下,提升深度估计的精度,并同时给出遮挡概率图。这一部分训练同时由深度、法向量和遮挡进行约束。

 

 

下面我们将利用最简单的三视图情况作为例子来对每一个细节进行深入地探讨。其中中间视图作为参考视图,前后两张则作为源视图。首先需要利用单应性变换将源视图变化到参考视图的坐标下、一系列相互平行的深度采样平面上去,将任意一张源视图变换到给定深度上并与对应位置的参考视图配对,通过计算在不同深度上计算视觉连续连续性来构建出WxHxD的代价空间,其中W,H为图像的长宽,D为深度采样的数量。与先前从图像对中抽取4D的代价空间不同,这种直接基于图像对计算代价空间的方法避免了3D卷积对于计算资源和时间的消耗。

 

在获取代价空间后,研究人员使用了DepthNet对代价空间进行聚合,以得到初始的深度信息。需要注意的是,这一部分的输入还包含了对应的视图,以便充分利用图像中所包含的上下文信息。最终,模块输出的初始深度图为与参考图像视角下。

 

为了保留场景更多的局部和全局结构信息,研究人员还引入了CNM来作为基准来监督法向量约束。一方面通过PlaneCNN来抽取场景的平面区域,并利用区域平均法向量来为这一区域赋值;另一方面利用局域法向量计算方法来获取非平面区域的法向量。最主要的目的是利用局部表面法向量来捕捉局部曲率较高的几何结构,而用平均法向量来去除平面区域的噪声保留全局结构。最终在深度的L1损失和融合法相量CNM的约束下得到了效果较好的深度估计结果,下面显示了两部分损失的定义:

 

 

为了进一步提升深度估计的精度,在提升部分RefineNet则利用了遮挡注意力机制来进一步优化模型性能。

 

将上一步得到的初始深度图合并为一张深度图并与平均代价空间一同送入优化网络进行处理。其中优化网络包含两个解码器,分别用于深度估计和遮挡概率估计。

 

深度图中的遮挡区域不能同时在两张初始深度图中观察到,与平等处理所有像素处的深度不同的是在计算损失时,为遮挡区域的赋予较低的权重,而非遮挡区域权重较高(非遮挡区域较为可靠)。此外得到的遮挡概率图还可以用于滤除一些不靠谱的深度估计结果,并有助于从深度图进行三维重建。

 

下式显示了优化网络的损失函数,P(q)为位置q处的遮挡概率。损失函数综合了遮挡概率作用下的深度、法向量以及遮挡概率图,并用权重调节各部分的重要性:


 

 

实验结果

 

在模型训练过程中,研究人员使用了ScanNet作为训练数据,并在7Scenes和SUND3D数据集上进行了测试。训练过程首先对DepthNet进行训练,而后固定其权重再训练RefineNet,最后再共同对整个模型进行调优。

 

下图显示了这种方法与多种深度估计方法在7-Scenes数据上的比较,可以看到针对多个指标都取得了优异的结果:

 

 

下图显示了模型重建的结果,可以看到深度图中边缘更为锐利、更好地保留了形状的规则外形:

 

 

在得到的表面法向量上也达到了优异性能:

 

 

在视觉质量上也超过了其他方法,CNM约束可以更好的保留局部和全局的几何结构信息。

 

 

从最终的三维重建结果中可以看到,即便是对于像沙发、白墙这样的弱纹理结构也能轻松重建,重建的颜色也更接近于基准、形状更为连续噪声也更少。

 

其中结合局部与全局的法向量约束CNM得到了非常好的结果,超过了不使用几何约束或者单独使用几何约束的结果:


 

 

而遮挡概率图的加入使得遮挡部分受到更大的惩罚,并向非遮挡区域给予更多的注意力。此外遮挡概率还为TSDF函数的融合提供了权重参数:



版权所有@ 北京市电子科技情报研究所 京公网安备 11010102003025号

地址:北京市东城区北河沿大街79号  邮编:100009  Email:bjdzqbs@126.com

在线人数:359

当日访问计数:45355

累计访问计数:59124618