作者丨匡吉

来源丨深蓝AI

编辑丨极市平台

455c2ca66483e651496c360d1fd58835.png

论文链接:https://arxiv.org/pdf/2311.16493

1 摘要

最近,三维高斯抛雪球技术展示了令人印象深刻的新颖视图合成结果,达到了高保真和高效率。然而,当改变采样率时,例如通过改变焦距或相机距离,会观察到强烈的伪影现象。作者发现,造成这种现象的原因是缺乏三维频率约束和使用了二维空洞滤波器。为了解决这个问题,作者引入了三维平滑滤波器,根据输入视图引起的最大采样频率来限制三维高斯基元的大小,从而消除放大时的高频伪影。此外,用模拟二维盒状滤波器的二维Mip滤波器代替二维空洞滤波器,可有效缓解锯齿和扩张问题。实验评估包括在单尺度图像上进行训练和在多尺度图像上进行测试等场景,这些评估验证了作者方法的有效性。

14cf604f37d54450d632cb67033250f7.png
▲图1|一般三维高斯渲染方法的示意图©️【深蓝AI】编译

2 引用

新颖视图合成(NVS)在计算机图形学和计算机视觉中发挥着至关重要的作用,其应用领域包括虚拟现实、电影摄影、机器人等。在这一领域,于 2020年推出的神经辐射场(NeRF)是一项特别重要的进展。NeRF利用多层感知器 (MLP) 有效地表示几何形状和视图相关的外观特征,展示了出色的新颖视图渲染质量。最近,3DGS作为MLP和基于特征网格的表示方法的替代方法受到了广泛关注。3DGS因其令人印象深刻的新颖视图合成结果而脱颖而出,同时实现了高分辨率的实时渲染。这种效果和效率,加上与GPU标准光栅化流水线的潜在集成,代表着NVS方法向实用化迈出了重要的一步。

具体来说,3DGS将复杂场景表示为一组三维高斯,通过基于拼接的光栅化技术将其渲染到屏幕空间。每个三维高斯的属性,即位置、大小、方向、不透明度和颜色,通过多视角光度损失进行优化。之后,在屏幕空间中应用二维空洞操作进行低通滤波。虽然3DGS取得了令人印象深刻的NVS结果,但当摄像机视图与训练时看到的视图发生偏离时,如放大和缩小,它就会产生假象,如图1所示。

作者发现,造成这种现象的原因是缺乏三维频率约束和使用了二维空洞滤波器。具体而言,放大会导致屏幕空间中投射的二维高斯的尺寸缩小,而应用相同数量的空洞扩张则会导致扩张伪影。相反,放大会导致侵蚀伪影,因为投射的二维高斯会扩大,但扩张量保持不变,从而造成侵蚀,导致二维投射中高斯之间出现不正确的间隙。

为了解决这些问题,作者建议在三维空间中对三维表示进行正则化处理。他的主要观点是:

「可重建三维场景的最高频率本质上受到输入图像采样率的限制。」

首先,基于奈奎斯特-香农采样定理,每个高斯基元的多视图频率边界能够基于训练视图推导出。在优化过程中,通过对三维空间中的三维高斯基元应用低通滤波器,可以有效地限制三维表示的最大频率,以满足奈奎斯特极限。训练完成后,该滤波器将成为场景表征的固有部分,无论视角如何变化都保持不变。可见,作者的方法消除了3DGS在放大时出现的假象,如图2中分辨率更高的8倍图像所示。

然而,以较低的采样率渲染重建的场景(如放大)会导致锯齿问题。以前的研究通过采用锥体追踪和对输入位置或特征编码进行预过滤来解决锯齿问题,但这些都不适用于3DGS。因此,作者引入了一种2D Mip过滤器(“mipmap”),专门用于确保没有锯齿问题的不同尺度重建和渲染。本文的2D Mip滤波器模仿了实际物理成像过程中固有的2D盒式滤波器。以前的研究工作依赖MLP在多尺度图像训练过程中对多尺度信号进行插值的能力,与此不同,本文对三维高斯表示法进行了闭式修改,从而实现了出色的分布外泛化:在单一采样率下进行训练,就能以不同于训练时所使用的采样率的各种采样率忠实地呈现图像,图2中的1/4×下采样图像就证明了这一点。

27c6f8c20d029398ddbc3ea2a72cd6c6.png
▲图2|单一尺度训练、多尺度渲染下的伪影现象©️【深蓝AI】编译

3 相关工作

3.1 新视角合成

NVS是指从不同于原始图像的视角生成新图像的过程。NeRF利用体积渲染,已成为该领域的标准技术。具体的,NeRF利用MLP将场景建模为连续函数,尽管其表示形式紧凑,但由于每个光线点都需要进行昂贵的MLP评估,因此影响了渲染速度。后续方法将NeRF的预训练模型蒸馏为稀疏表示,从而实现了NeRF的实时渲染。通过先进的场景表征,NeRF的训练和渲染得到了进一步的改进。其中,3DGS展示了令人印象深刻的新颖视图合成结果,同时实现了高清分辨率下的实时渲染。重要的是,3DGS将场景明确表示为三维高斯集合,并使用光栅化而不是光线追踪。不过,3DGS专注于分布内评估,即以相似的采样率(焦距/场景距离)进行训练和测试。在本文中,作者将研究3DGS的分布外泛化,在单一尺度上训练模型,并在多个尺度上对其进行评估。

3.2 基于基元的可微分渲染

基于基元的渲染技术可将几何基元光栅化到图像平面上,由于其高效性,已被广泛探索。可微分点渲染方法在表示复杂结构方面提供了极大的灵活性,因此非常适合新颖的视图合成。值得注意的是,Pulsar因其高效的球形光栅化而脱颖而出。最近的3DGS工作利用各向异性高斯,并引入了基于瓦片的渲染排序,显著提高了渲染帧速率。尽管3DGS取得了令人印象深刻的成果,但在以不同采样率进行渲染时,3DGS表现出很明显的伪影问题。为了解决这一问题,本文引入了三维平滑滤波器来限制三维高斯基元表示的最大频率,并引入了二维Mip滤波器来近似物理成像过程中的盒式滤波器,以实现无锯齿渲染。

3.3 渲染中的抗锯齿

抗锯齿主要有两种策略:超级采样(增加采样数量)和预过滤(对信号进行低通滤波以达到奈奎斯特限制)。例如,EWA splatting将高斯低通滤波器应用于屏幕空间中的二维高斯投影,以产生符合图像奈奎斯特频率的带限输出。虽然本文也对高斯基元应用了带限滤波器,但作者的带限滤波器是在三维空间中应用的,而且滤波器的大小完全由训练图像而非由渲染的图像决定。虽然作者的2D Mip滤波器也是屏幕空间中的高斯低通滤波器,但它近似于物理成像过程中的盒式滤波器,近似于处理单个像素。相反,EWA滤波器将频率信号的带宽限制在渲染图像的范围内,并且根据经验选择滤波器的大小。与EWA的关键区别在于,本文解决的是重建问题,通过反渲染优化三维高斯表示,而EWA拼接只考虑渲染问题。

最新的神经渲染方法集成了预滤波功能,以减少锯齿现象。例如,Mip-NeRF引入了综合位置编码(IPE),以减弱高频细节,类似的想法也同样适用于基于特征网格的表征。不过,这些方法需要多尺度图像进行监督。相比之下,本文的方法基于3DGS ,可根据像素尺寸确定必要的低通滤波器大小,能够在训练期间未观察到的尺度上实现无锯齿渲染。

4 准备工作

在本节中,作者首先简单回顾了「采样定理」,为理解锯齿问题奠定基础。紧接着作者详细介绍了3DGS及其渲染过程。

4.1采样定理

采样定理,又称尼奎斯特-香农采样定理,是信号处理和数字通信中的一个基本概念,它描述了在何种条件下可以从离散样本中准确地表示或重建连续信号。要在不丢失信息的情况下从离散样本中准确重构连续信号,必须满足以下条件:

●条件1:连续信号必须具有频带限制,不得包含任何高于某个最大频率的频率成分;

●条件2:采样率必须至少是连续信号中最高频率的两倍:。

在实践中,为了满足从离散采样重建信号时的限制条件,在采样前要对信号进行低通或抗锯齿滤波。该滤波器可消除任何高于的频率成分,并减弱可能导致锯齿的高频内容。

4.2 3D Gaussian Splatting

之前工作将一个三维场景表示为一组缩放的三维高斯基元 , 然后使用体积拼接渲染一副图像。每个缩放的三维高斯 的几何形状由不透明度(尺度) 参数化,定义在真实世界中的中心是 , 协方差矩阵是 :

将 约束到有效协方差矩阵的空间, 需要使用一个半正定参数化 。这里, 作为缩放向量以及 作为旋转矩阵, 通过一个四元数进行参数化。

给定一个由旋转矩阵 和平移向量 定义的视角, 想要渲染该视角下的一副图像, 三维高斯 首先需要转换到相机坐标系下:

之后,它们通过局部仿射变换投射到射线空间:

89ee7b89120f7a7c8ff5d7fe4e4ddb26.png

其中雅可比矩阵 是三维高斯 中心定义的投影变换的仿射近似值。跳过 的第三行和第三列, 就得到了射线空间中的二维协方差矩阵 , 用 来表示相应的缩放二维高斯。

最后,3DGS 利用球面谐波来模拟与视图相关的颜色 , 并根据基元的深度阶 , 通过阿尔法混合来渲染图像:

其中 是二维单位矩阵, 是标量空洞超参数。请注意,这个算子会调整二维高斯的尺度,同时保持其最大值不变。由于这种效果与形态学中的空洞算子类似,文中称之为二维屏幕空间空洞操作。

_◆重建:_由于渲染过程快速且可微分,三维高斯参数可利用多视角损失函数进行有效优化。在优化过程中,三维高斯会自适应地添加和删除,以更好地表现场景。

5 对采样率的敏感性

在传统的前向溅射中,高斯基元的中心和颜色是预先确定的,而三维高斯协方差则是根据经验选择的。相比之下,3DGS通过反向渲染框架,反向传播多视角光度损失,共同优化所有参数。

作者发现这种优化方法存在歧义,如图1所示,其中展示了一个简单的例子,涉及一个物体和一个5像素的图像传感器。图1(a) 中的三维物体,包含通过三维高斯的近似值以及其在屏幕空间的投影(蓝色像素)。由于使用高斯核(大小≈1像素)进行屏幕空间空洞扩张(公式5),(b)中以狄拉克函数表示的退化三维高斯会产生类似的图像。这说明三维高斯的尺度没有得到适当的限制。实际上,由于其隐含的收缩偏差,3DGS在优化过程中确实系统性地低估了三维高斯的尺度参数。

虽然这不会影响类似采样率下的渲染效果(参见图1(a)与(b)),但在放大或拉近摄像机时会产生侵蚀效果。这是因为空洞扩张后的二维高斯在屏幕空间中变小了。在这种情况下,渲染的图像会出现高频伪影,使物体结构比实际看起来更薄,如图1(d)所示。

相反,当降低采样率时,屏幕空间空洞扩张也会对渲染产生负面影响,如图1(c)所示,该图是(a)的放大版本。在这种情况下,空洞扩张以一种物理上不正确的方式在像素间扩散辐射。请注意,在(c)中,三维物体投影所覆盖的区域小于一个像素,但扩张后的高斯并没有衰减,积累的光量超过了实际到达像素的光量。这导致亮度增加和扩张伪影,严重降低了自行车轮辐的外观效果。

在涉及数百万高斯的表征中,上述尺度模糊性成为突出问题。然而,简单地放弃屏幕空间空洞扩张会给复杂场景的优化带来挑战,例如在Mip-NeRF 360数据集中,密度控制机制创建了大量小高斯,超出了GPU的容量。此外,即使模型可以在不空洞扩张的情况下成功训练,由于缺乏抗锯齿功能,降低采样率也会导致锯齿效应。

6 Mip高斯抛雪球

为了克服这些挑战,作者对原始3DGS模型进行了两处修改。特别是,作者引入了三维平滑滤波器,将三维表示的频率限制在训练图像确定的最大采样率的一半以下,从而消除了放大时的高频伪影。此外,作者还证明,用二维Mip滤波器代替二维屏幕空间空洞扩张,可近似物理成像过程中固有的盒式滤波器,有效缓解锯齿和扩张问题。结合使用Mip-Splatting 技术,可在各种采样率下实现无锯齿渲染。下面我们将详细讨论三维平滑和二维Mip滤波器。

70c09aeacd433516ce0d530fe3539153.png
▲图3|采用限制示意图©️【深蓝AI】编译

6.1 三维平滑滤波器

从多视图观测中重建三维辐射场是一个众所周知的难题,因为多个截然不同的重建可能会产生相同的2D投影。作者的见解是,重建三维场景的最高频率受限于训练视图定义的采样率。根据奈奎斯特定理,作者的目标是在优化过程中限制三维表示的最高频率。

多视图频率边界: 多视图像是连续三维场景的二维投影。离散图像网格决定了从连续三维信号中采样点的位置。这种采样率与图像分辨率、摄像机焦距和场景与摄像机的距离有内在联系。以像素为单位,焦距为 的图像在屏幕空间中的采样间隔为1。当这个像素间隔反向投影到三维世界空间时, 在给定深度 的世界空间采样间隔为 , 采样频率 为其倒数:

68ac5a185d6926e3fc84a183811869ff.png

正如奈奎斯特定理所述,给定频率为 的采样,重建算法能够重建频率高达 或 的信号成分。因此,小于 的基元可能会在溅射过程中产生锯齿假象,因为其大小低于采样间隔的两倍。

为了简化, 作者使用基元的中心 来近似深度 , 并忽略遮挡对采样间隔估计的影响。由于基元的采样率与深度有关, 而且不同摄像机的采样率不同, 因此作者确定基元 的最大采样率为:

3656cb1ab7778d77833fbd7e7935ef27.png

其中, 是图像总数, 是评估基元可见度的指示函数。如果高斯中心 位于第 台摄像机的视雉内,则该函数为真。直观地说,作者选择的采样率应确保至少有一台摄像机能够重建相应的基元。图3 以 为例说明了这一过程。在具体的实施过程中, 作者每迭代 次就会重新计算每个高斯基元的最大采样率, 因为作者发现三维高斯中心在整个训练过程中保持相对稳定。

三维平滑: 考虑到基元的最大采样率 , 作者的目标是限制三维表示的最大频率。为此, 在将每个三维高斯基元 投影到屏幕空间之前, 首先会对其应用高斯低通滤波器 :

c386cca2ce4e10387afb15c2c7fa6ecf.png

这种操作非常高效, 因为将两个具有协方差矩阵 和 的高斯进行卷积, 会得到另一个方差为 的高斯。因此:

4c1a752289829acccd6f14476edc6226.png

这里, 是一个标量超参数, 用于控制滤波器的大小。请注意, 每个基元的三维滤波器的尺度 都是不同的, 因为它们取决于训练视图中的可见度。通过采用三维高斯平滑技术, 可以确保任何高斯的最高频率分量不会超过至少一个摄像头最大采样率的一半。请注意, "光晕 "已成为三维表征的固有部分, 在训练后保持不变。

6.2 二维Mip滤波器

虽然三维平滑滤波器能有效减少高频伪影,但以较低的采样率渲染重建的场景(如缩小或将摄像机移到更远的地方)仍会导致锯齿问题。为了克服这一问题,作者用二维Mip滤波器取代3DGS的屏幕空间空洞滤波器。

展开来说就是:作者复制了物理成像过程,在这个过程中,打在相机传感器像素上的光子在像素区域内进行积分。理想的模型是在图像空间中使用二维盒式滤波器,但为了提高效率,作者使用二维高斯滤波器对其进行近似处理:

e868c260b3231dd6a37cc074c86776e3.png

其中,的选择是为了覆盖屏幕空间中的一个像素。

虽然作者的Mip滤波器与EWA滤波器有相似之处,但它们的基本原理却截然不同——作者的Mip滤波器旨在复制成像过程中的盒式滤波器,目标是精确逼近单个像素;相反,EWA滤波器的作用是限制频率信号的带宽,滤波器的大小是根据经验选择的。EWA论文甚至主张使用恒等协方差矩阵,这实际上占用了屏幕上3x3像素的区域。然而,这种方法在放大时会导致过于平滑的结果,作者将在实验中证明这一点。

ddf6c886679201a981cfbde4c4c743db.png
▲表1|在混合数据集上进行多尺度训练和测试©️【深蓝AI】编译

7 实验

本节首先介绍了Mip-Splatting的实现细节。接着,研究者们进行详细实验来评估了它在 Blender 数据集和具有挑战性的Mip-NeRF 360数据集上的性能。最后,作者讨论了该方法的局限性。

7.1 实现细节

作者的方法基于流行的开源3DGS代码库:按照相关文献,作者对所有场景的模型进行了30K次迭代训练,并使用相同的损失函数、高斯密度控制策略、时间表和超参数。为了提高效率,作者每  次迭代重新计算每个三维高斯的采样率。为了与3DGS和3DGS+EWA进行公平比较,作者选择二维Mip滤波器的方差为0.1(近似于单个像素),三维平滑滤波器的方差为0.2,总方差为0.3,后者用EWA滤波器取代了3DGS的空洞滤波器。

7.2 在混合数据集上验证

多尺度训练和多尺度测试: 根据之前的研究,本文使用多尺度数据训练作者的模型,并对多尺度数据进行评估。与之前研究类似,全分辨率图像的光线采样频率高于低分辨率图像,作者分别从全分辨率图像中采样40%,从其他图像分辨率中采样20%。作者的定量评估如表1所示。与Mip-NeRF 和Tri-MipRF等最先进的方法相比,作者的方法获得了更优异的性能。值得注意的是,由于采用了二维Mip滤波器,作者的方法比3DGS和3DGS+EWA的性能更为突出。

单尺度训练和多尺度测试: 与之前在同一尺度上评估在单尺度数据上训练的模型不同,作者考虑了一个重要的新环境,即在全分辨率图像上进行训练,并以不同的分辨率(即 1×、1/2、1/4 和 1/8)进行渲染,以模拟缩放效果。由于没有针对这种情况的公开基准,作者自己训练了所有基线方法。我们使用NeRFAcc实现NeRF 、Instant-NGP和TensoRF ,以提高效率。对于Mip-NeRF 、Tri-MipRF和3DGS ,则采用了官方实现。表2所示的定量结果表明,作者的方法明显优于所有目前最先进方法。定性比较见图4。与Mip-NeRF和Tri-MipRF相比,基于3DGS的方法能更有效地捕捉精细细节,但仅限于原始训练规模。值得注意的是,作者的方法在较低分辨率下的渲染质量超过了3DGS和3DGS+EWA 。特别是,3DGS出现了扩张伪影。EWA splatting使用大型低通滤波器限制渲染图像的频率,导致图像过度平滑,这在较低分辨率下尤为明显。

d82b8b0615fa838bb1bfb57fda4e05fc.png
▲图4|单尺度训练和多尺度测试混合数据集示意图©️【深蓝AI】编译
117fac36897577ed3475ead2dfd2db18.png
▲表2|在混合数据集上进行单尺度训练和多尺度测试©️【深蓝AI】编译

7.3 在Mip-NeRF 360数据集上评估

单比例训练和多比例测试: 为了模拟缩放效果,作者在降采样率为8倍的数据上训练模型,并依次以更高的分辨率(1×、2×、4×和8×)进行渲染。由于没有针对这一设置的公开基准,作者自己训练了所有基线方法。作者使用Mip-NeRF 360和3DGS的官方实现,并使用Zip-NeRF的社区重新实现,因为该代码不可用。表3中的结果表明,作者的方法在训练规模(1×)上的表现与之前的工作不相上下,而在更高分辨率上则大大超过了所有最先进的方法。如图5所示,作者的方法生成的图像保真度高,没有高频伪影。值得注意的是,Mip NeRF 360和Zip-NeRF在分辨率提高后表现不佳,这可能是由于它们的MLP无法推断出分布外频率。3DGS会因扩张操作而产生明显的侵蚀伪影,而3DGS+EWA则表现较好,但仍会产生明显的高频伪影。相比之下,作者的方法避免了这些伪影,生成的图像更美观,更接近地面实况。值得注意的是,更高分辨率下的渲染是一项超分辨率任务,模型不应幻化出训练数据中不存在的高频细节。

单尺度训练和同尺度测试: 作者在Mip-NeRF 360数据集上进一步评估了他们的方法,该数据集采用了广泛使用的设置,即模型在相同尺度下进行训练和测试,室内场景降低采样率2倍,室外场景降低采样率4倍。如表4所示,在这一具有挑战性的基准测试中,作者的方法与3DGS和3DGS+EWA的性能相当,没有任何下降,这也证明了作者的方法在处理各种场景时的有效性。

8da58f1306ff55c8d8961d54214ac046.png
▲图5|Mip-NeRF 360数据集的单尺度训练和多尺度测试示意图©️【深蓝AI】编译
a6fcce1805b1e765f4cbe1ebc3a7424e.png
▲表3|Mip-NeRF 360数据集的单尺度训练和多尺度测试©️【深蓝AI】编译
6979a014b10e4da7e9326187b603f735.png
▲表4|在Mip-NeRF 360数据集上进行单规模训练和同规模测试©️【深蓝AI】编译

7.4 方法的局限性

本文的方法采用高斯滤波器作为盒式滤波器的近似,以提高效率。然而,这种近似方法会带来误差,尤其是当高斯滤波器在屏幕空间较小时。这个问题与作者的实验结果相关,如表2所示,放大倍数增加会导致误差增大。此外,由于每次迭代必须计算每个三维高斯的采样率,因此训练开销略有增加。目前,这种计算是使用PyTorch进行的,而更高效的CUDA实现有可能减少这种开销。设计一种更好的数据结构来预先计算和存储采样率(因为采样率完全取决于摄像机的位姿和内部结构),是未来工作的一个方向。如前所述,采样率计算是训练过程中唯一的先决条件,三维平滑滤波器可以根据公式9与高斯基元融合,从而消除渲染过程中的任何额外开销。

8 总结

本文提出了Mip-Splatting——3D Gaussian Splatting的修改版,它引入了两个新颖的过滤器,即3D平滑过滤器和2D Mip过滤器,以实现任意比例下的无锯齿渲染。作者的3D平滑过滤器有效地限制了高斯基元的最大频率,以匹配训练图像施加的采样约束,而2D Mip过滤器近似于盒子过滤器以模拟物理成像过程。实验结果表明,当以相同的比例/采样率进行训练和测试时,Mip-Splatting在性能方面可与最先进的方法相媲美。重要的是,当以不同于训练的采样率进行测试时,它在分布外场景中的表现明显优于最先进的方法,从而更好地泛化到分布外的相机位姿和缩放因子。

推荐阅读

欢迎大家加入DLer-计算机视觉技术交流群!

大家好,群里会第一时间发布计算机视觉方向的前沿论文解读和交流分享,主要方向有:图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。

进群请备注:研究方向+学校/公司+昵称(如图像分类+上交+小明)

52faa1cad0f3d27cc7579112abc35db8.jpeg

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐