编译: T.R From: HUST
深度补全的主要任务是利用稀疏的深度测量和单RGB重建出稠密准确的深度图 。
在本文中研究人员主要从数据和先验的角度来改进算法 , 一方面与传统采样方法不同 , 提出了一种基于泊松disk的采样方式;另一方面与先前使用的规则处理核不同 , 利用了图卷积动态重建的方法更好地恢复出稠密的深度结果 。
实验表明这种策略可以在更少的测量点情况下获取更好的重建结果 , 同时对于室内和室外的场景都具有良好的泛化性 。
深度补全
深度测量与感知在机器人技术、无人驾驶和增强现实等领域都有着重要的应用 。 近年来出现了多种多样的深度传感器、丰富了我们对于真实世界的尺度感知 ,但这些传感器却有着不同的局限性 。
例如 , 高质量的激光雷达售价较为昂贵、采样的点比较稀疏;结构光传感器会受到阳光的影响仅限于室内使用 , 处理高亮反射表面也较为困难;双目相机则需要复杂的标定过程和较长的基线才能获得满意的结果 。
传感器层面的限制让人们逐渐将目光转向了算法上 , 譬如稀疏的深度图通常可以从低成本的激光雷达或SLAM中获取 , 如果有高性能的深度补全算法就能获得令人满意的结果 。
稀疏深度补全的任务主要是补充出缺失的点 , 并尽可能精确地计算出这些点的深度 。 先前开发的算法主要利用的是随机采样来获取稀疏深度 , 但这与激光雷达等传感器的工作机制不符 , 其采集的深度点取决于机械电子结构 , 有着一定的规律性 。
另外绝大多数的重建算法 , 包括深度学习算法 , 都在使用规则的、标准的旋转不变性的核来处理图像 , 但显然不同邻域信息对于深度重建的重要性是不同的 。如何自适应地选取邻域信息进行重建 , 并保证计算效率和精度成为了深度补全任务的研究关键 。
采样与补全
为了解决这些问题 , 在这篇文章中研究人员对采样策略和重建方法进行了系统地研究 ,结合泊松圆采样和低差异序列构建了一种新的准随机采样方法 , 其空间分布更为均匀;同时基于在kNN和GNN的基础上 ,提出了一种具有空间变化特性的图结构 , 通过kNN来计算驻点特征并馈入GNN中 , 最后利用MLP在GNN中构建传播过程来实现深度补全结果 。
研究人员首先比较了先前方法中低差异性序列和准随机采样方法 ,在差异性的基础上提出了一种基于最小半径的标准(细节见论文第三节) , 下图展示了几种常见随机采样方法模式和性能 , 可以看到四种准随机方法的差异性都很小 , 但随着半径的不同每种算法的均匀性有着细微的变化 。
文章图片
随后研究人员 基于自适应的图神经网络模型构建深度补全模型 。 具有空间变化的处理方式最早来源于引导滤波 , 而后在动态滤波器网络中得到了进一步发展 。
本文首先构建了一套基准模型 , 分别是两个具有相似U-Net结构的全卷积子网络构成 。 其中一个子网络(滤波器生成)输入为引导的图像 , 随后生成不同尺度的特征图、并会被用于空间各异的滤波器 。 另一个滤波器(深度补全)子网络输入为稀疏深度测量结果 , 并最终生成稠密的深度图 。
两个子网络都具有相同的结构但参数不同 , 下图中通过将两个子网络的特征图相乘来实现引导和自适应 。 与GuideNet中使用卷积核加权的方式不同 , 本文中使用的简单的逐点乘法代替避免了庞大的计算量 。
文章图片
用于深度补全的基准模型架构 , 值得注意的是在编码器部分中利用了基础残差结构代替了普通的卷积 。
为了更好地探索空间各向异性机制 , 研究人员在此基础上针对性地 提出了3D拓展用于深度补全任务 。
值得注意的是 , 与彩色图不同 , 深度图携带有重要的深度信息 , 如果利用小孔模型将这些信息映射到图像平面上 , 就会造成2D图像平面上的领域信息与真实三维世界中的领域信息间较大的差异 。
如图三所示 , 三维空间中的邻域信息是目标点在空间中的领域 , 而针对二维图像来说却没有辅助信息来获取完整的领域信息 。 这些原因促使研究人员 利用基于图的方法来表示空间各向异性的邻域信息 , 并在后续进行有效处理 。
文章图片
【模型|?华中大提出新型采样与重建算法, 提升稀疏深度稠密补全任务性能】三维和二维邻域的对比
针对图网络的输入 , 研究人员利用基准模型计算出的逐点特征作为GNN输入 。 图卷积的过程可以用下面的方程组表示 , 其中M负责融合领域信息、F负责状态转移 。 其中U , f , h分别代表邻域表示、输入特征和随时间变换的状态 。
文章图片
在实际使用中 , 使用了原始尺寸1/8的特征图、中值池化 , 随后利用下面的方法将稀疏输入DI和基准模型输出DR进行融合:
文章图片
随后利用DN构建出图结构 , 其中[u,v]表示图像平面上的点 , [x,y,z]则是这一点在相机坐标系下的三维坐标 , 利用标准的小孔相机模型可以方便地在2D和3D坐标间进行转换 。
下图中详细描述了生成稠密深度图的过程 , 通过搜索3D邻域和GNN的信息传输来实现补全 。
文章图片
包含图卷积模块的完整模型架构
GNN中信息的传播过程是通过MLP多层感知机实现的 , 可以被表达为下面的形式:
文章图片
其中g代表了多层感知机MLP , 在传播过程图中每一个节点首先从邻域收集信息 , 而后计算出特征得到全部邻域的平均特征m , 最后每个节点基于先前的信息更新状态 , 这里使用的状态更新函数F有MLP构成 , 原因是在RNN中比较常用的更新函数 。
实验结果
研究人员分别在KITTI , NYUDv2以及Matterport3D数据集上进行了实验 。 在训练过程中使用MSE作为损失函数 , 并利用RMSE , MAE和REL作为评测的指标 。 首先在NYUv2上对基准模型和图网络的该改进模型在不同采样情况下进行了性能测评 。
文章图片
随后 , 为了分析不同改进对于模型的影响 , 研究人员分别就GNN的邻域信息获取与不同采样方式进行了分析 。
与基准模型相比 , 基于GNN抽取邻域信息的方法实现了更好的效果 , 并且在不同采样方式下都具有稳定的性能提升 。 此外 , 通过比较发现Golden方式的准随机采样具有更好的性能 , 这也与前面采样一致性的评价相符 , Golden具有小的差异性 。
此外 , 在不同数据集上与目前先进的算法相比 , 本文提出的方法都具有非常明显地提升 , 证明了这种方法的有效性 。
文章图片
下图还展示了在NYUDv2和KITTI下的深度补全结果 , 可以看到补全的深度图在结果上更为完整和准确 , 并对与细长的细节有着更好的恢复能力 。
文章图片
第四列到第六列分别是基准模型、完整图模型和使用Golden采样策略的模型补全结果
文章图片
最后一行是完整模型的结果
Ref:
http://faculty.hust.edu.cn/caozhiguo1/zh_CN/lwcg/52086/list/index.htm
https://par.nsf.gov/biblio/10169232
推荐阅读
- ASUS|华硕预热ROG Flow Z13:称其是“全球最强悍的游戏平板”
- 华依|中信证券:惯性导航有望成为L3及以上自动驾驶的标配产品
- MateBook|深度解析:华为MateBook X Pro 2022的七大独家创新技术
- 果君|华为Mate X2 典藏版竟逼疯整个摄制组?拯救手滑的神器终于来了(视频)
- 娱乐性|新华全媒+|探秘冬奥会“黑科技”:当冰壶遇上人工智能
- 测评|【横评】5年前的老机型测评 苹果华为三星小米魅族一加现在卡吗
- Siamese|一个框架统一Siamese自监督学习,清华、商汤提出简洁、有效梯度形式,
- 最新消息|被骂“从未见过如此厚颜无耻之书” 中华书局回应称即日下架
- 警告!|华为联想卷入滴滴高管千万受贿案 判决书曝光浪潮曾向其输送720多万
- 娱乐|华为智慧屏迎来“影音娱乐”场景三大升级