2021-03-28

以前的方法依赖于平面空间扫描,PSV,并且对每一个深度平面有着固定的深度假设,但是这样的前提是密集的对平面采样并且需要很高的精度,然而由于内存有限,高分辨率的深度几乎是不切实际的。作者提出了 ATV(adaptive thin volume)自适应薄空间扫描(volume 空间)。在一个 ATV 中,每一个深度片面的深度假设都在变化。UCSnet 有三个阶段,第一个阶段将小的 PSV 估计成为低像素的深度,两个 ATV 在下面得阶段将深度优化为具有更高像素和更高精确度的深度。作者的 ATV 只包含少量的平面且只占用较低的显存和计算资源。同时他在碰到小的无法确定的间隔(interval)情况下,能有效地划分局部的深度范围。它计划使用基于方差的不确定性估计去自适应的构造 ATV;这种可分的操作更加合理和精细的空间分区。我们的多阶段的框架逐步的将庞大的场景空间使用越来越高分辨率和精度逐步划分为,这样使得高完整度和高精确性的重建可以由粗糙到精细的方式实现。
推断 3D 场景在 3D 可视化,在场景理解,机器人和自主驾驶多有应用。最近在 MVS 上的成功是 3d 卷积在平面空间扫描上的应用,这能够又凶啊的推断多视图的对应点。然而 3d 卷积为了提到准确率和完成度涉及到大量的显存使用,这一点,尤其表现在处理大场景或者高精确度和高完整性的需要采样大量的扫描平面或者是需要重建高像素的深度图的各种场景中。总之,在给定限定的显存的情况下,先前的工作中在精确度(更多平面)和完整性(更多像素)的权衡中没有任何有希望的尝试。作者的目标时实现在低内存和消耗的同时实现高准确率和完整性的重建。
作者使用多个效地卷积空间,而不是大的标准的平面空间扫描,实现从粗到精的递归求出高质量的深度,关键在于使用 ATV 实现有效的空间分区。
作者先是对 3d 重建的空间表示做了分类,包括基于体素,基于光锥(可以把他放入体素的结构里),另一些使用形状先验(shape prior(那种白色前景黑色背景的掩模图?GB 和 BB?))不能直接应用到大尺度的场景重建。现在的一些方法尝试直接构建表面网络 surfacemesh,可变形状 deformable shape,并且通过一些隐式的距离函数学习,这些基于表面重建的方法看起来比基于点云重建的方法要顺利,但是他们会缺乏细节信息。
作者肯定了深度推断在三维重建中的重要性,不管在单目相机还是多目相机中都有应用。传统的 MVS 方法流程依赖于光一致性约束,但是常常由于无纹理区域和遮挡区域以及复杂的光照环境表现很差。克服了这些问题的方法就是基于深度学习的 MVS 方法,作者对基于学习的 MVS 方法进行了分类,基于回归的方法(多个尺度多个深度平面),以及基于分类的方法(?,基于循环递归结构(最典型的 RMVSnet)的方法,这些方法按照均匀采样的深度推断使用 2d 或者 3d 卷积构造了一个代价空间去推断最终的深度,然而显存成了瓶颈。RMVSnet 循环神经网络在处理代价空间时使用了大量的采样平面(512,然鹅这种方法仅仅使用较少的采样空间(104。有提到 PointMVS 将粗造的重构,通过学习的方法细化。,然而它使用自适应薄体积扫描 ATV(一个电视)来细化深度,比 pointmvs 效果更好(point2019,这 2020 的)。
具体网络结构为

1.提取三种分辨率的深度特征图。 2.构建平面扫描空间和 ATV 自适应薄空间,每一个空间时两者之一。
在多个尺度构建多个代价空间构建的方法时将三个提取的特征图 Fi,1,Fi,2,Fi,3 ,分别代表第 i 个视角提取的第几阶视图。从源视图单应变换到参考视图。其中单应矩阵为 4*4 的矩阵,可以表示为
Hi(d) = KiTiTi’Ki’
每一个代价空间有多个平面组成,用 Lk,j 表示第 k 阶(例如上文的特征提取提出 1/4,1/2,1 三阶)第 j 个平面的深度假设, Lk,j (x)代表在像素 x 上的值。一旦使用对应点的假设 Lkj,作者计算对应点弯折的每一个视图输出的特征图的方差构建代价空间。使用 Dk 代表第 k 阶平面的数量。第一个阶段,它使用标准的平面空间扫描,深度估计时常(不变的)数。例如 L1,j(x) = dj。使用 L1,j 从[dmin,dmax]间均匀取样(psv),第二阶和第三阶使用了 ATV,他们的深度假设根据像素的不确定性估计具有在空间变化的深度值。
(2)
标准差为上式的根号。
其中 λ 是一个定好的参数,决定置信区间的大小。