论文:NeRF on the go:Exploiting Uncertainty for Distractor-free NeRFs in the Wild(二)
We introduce NeRF On-the-go, a versatile method that en-ables effective and efficient distractor removal in dynamicreal-world scenes containing various levels of distractors.Our method represents a st
试验
4.1 试验配置
RobustNeRF数据集。有四个序列是玩具在桌子上的设置。然而,请注意我们无法包含Crab场景,因为它尚未发布。同时,我们在补充材料中对Baby Yoda场景进行了比较,因为这个序列中的每张图像都包含一组不同的干扰物,这与我们的设置不同。
On-the-go数据集。为了严格评估我们的方法在现实世界的室内和室外设置中的效果,我们捕捉了一个包含12个随意捕捉的序列的数据集,包括10个室外和2个室内场景,干扰物的比例各不相同(从5%到超过30%)。为了定量评估,我们选择了6个代表不同遮挡率的序列,如图5所示。有关此数据集的更多细节和结果可在补充材料中找到。
基线。我们将我们的方法与Mip-NeRF 360 [1]、D2NeRF [52]、NeRF-W [27] †、Ha-NeRF [5] ‡、RobustNeRF [39] §以及我们设计的Mip-NeRF 360 + SAM基线进行了比较,后者使用SAM [22]排除图像中的动态物体,并在静态部分上训练NeRF。更多细节请参阅补充材料。
指标。我们采用了广泛使用的PSNR、SSIM [51]和LPIPS [65]来评估新颖视图合成的效果。
4.2 评估
On-the-go Dataset。我们在我们的随行数据集上扩展了评估,如图5和表1所示。与我们的方法相比,RobustNeRF在低到中度遮挡场景中往往难以保留细节,在高度遮挡环境中也难以消除干扰物。此外,即使调整了高遮挡场景的异常值比例超参数,RobustNeRF的表现依然较差。请参阅补充材料。 与RobustNeRF不同,NeRF-W和Ha-NeRF在低到中度遮挡水平上擅长移除干扰物,但这会以降低图像质量为代价。这种折衷是其瞬态嵌入方法的结果,如文献[34, 39]所讨论。此外,在较高遮挡比率下,NeRF-W和Ha-NeRF的表现显著下降。在这些情况下,其每图像瞬态嵌入无法充分建模干扰物,导致性能明显下降。Mip-NeRF 360结合SAM方法在诸如Mountain这样的简单场景中效果良好,因为干扰物易于分割。然而,在更复杂的场景中效果减弱。相比之下,我们的方法在各种遮挡比率的场景中展示了多功能性,并且能够持续生成高质量的渲染。
在RobustNeRF数据集[39]上的对比。如表2所示,我们的方法在所有基线上表现出更好的定量和定性性能。RobustNeRF的硬阈值方法往往忽略了观察有限的复杂结构,例如Android场景中的鞋子和地毯。此外,在涉及视角依赖效果的平面表面场景中,它们的性能也较差,例如Statue场景中桌子上的木质纹理和视角依赖高光。需要注意的是,Mip-NeRF 360 + SAM需要使用SAM[22]手动选择每个图像中的每个干扰物,这个过程十分繁琐,但它仍然难以捕捉细薄结构、阴影和反射。
4.3 消融研究
所有消融实验均在我们随行数据集中的高遮挡“Patio-High”场景下进行。
Patch 扩张。在此,我们测试了不同的扩张率进行补丁采样,如表3所示。在1到4的范围内,更高的扩张率导致收敛速度更快且渲染质量更好。这验证了我们在第3.4节中的假设,即增加补丁内的上下文信息可以有效提升性能。然而,当扩张率超过4时,不确定性优化开始崩溃。这可能是因为更高的扩张率导致补丁丧失语义信息。这种情况发生是因为采样变得更像随机采样,负面影响了不确定性的学习。关于不同序列中补丁大小和扩张率的详细信息和分析,请参阅补充材料。
损失函数。如表4所示,我们对不同的训练损失进行了消融研究。在(b)中,SSIM在区分干扰物和静态元素方面比 ℓ2 损失更为有效。在(c)中,我们一起训练了不确定性 MLP 和 NeRF。这导致了显著的性能下降,表明我们的解耦训练方法的有效性。此外,我们从(a)中发现,省略 L_reg 将对某些视角的渲染质量产生负面影响。
4.4. 分析
快速收敛
图7展示了RobustNeRF和我们的方法在训练过程中的对比。得益于我们的不确定性预测管线和扩张补丁采样,我们表现出显著更快的收敛速度。可以注意到,我们在训练早期阶段已经能够捕捉细节,参见我们在训练25K步时的效果和RobustNeRF在250K步时的效果。
适用于静态场景
在展示了我们在动态场景中构建NeRF的效率后,我们探索了其是否能直接适应于静态场景。我们使用Mip-NeRF 360 [1] 数据集中的一个静态场景进行了评估。如图8所示,我们确实取得了与Mip-NeRF 360 [1]同样优异的表现。相比之下,RobustNeRF未能捕捉到自行车的某些部分,因为其关键设计之一是忽略场景中的至少一部分。
大遮挡物
在图9中,我们进一步展示了我们的方法能够通过预测的不确定性准确建模大遮挡物,并有效地移除它们。
5. 结论
我们介绍了NeRF On-the-go,这是一种多功能方法,可在包含各种干扰物的动态真实场景中实现高效有效的干扰物移除。我们的方法代表了实现NeRF在实际应用中的全部潜力的一步。
局限性
虽然我们的方法在多种真实世界场景中显示出稳健性,但在预测具有强视角依赖效果区域的不确定性方面仍存在问题,例如高度反射的表面如窗户和金属。将额外的先验知识整合到优化过程中可能会有所帮助。
NeRF On-the-go 实现细节
该工作基于 Mip-NeRF 360 [1] 的代码库。
在我们提出的损失函数之外,我们保留了 Mip-NeRF 360 [1] 中的原始变形损失和间隔损失。
我们的方法运行在配备 AMD EPYC 9554 64核处理器和 4 个 NVIDIA RTX 4090 GPU 的服务器上。
对于每个场景,我们运行 250,000 次迭代,每个批次大小为 16,384,通常需要 12 小时完成。
通过我们的评估,我们发现我们的模型在仅训练一小时后已表现出优于 RobustNeRF 的质量,即使后者经过 12 小时的训练。
我们将图像下采样 8 倍,以保持与 RobustNeRF 相同(除Arc de Triomphe 和 Patio 下采样 4 倍以基本与 RobustNeRF 相同)。
我们选择大小为 32 × 32、扩张率为 4 的扩张采样补丁。SSIM 窗口大小为 5 × 5。在损失函数的超参数中,我们对所有数据集设置 λ1 = 100, λ2 = 0.5, λ3 = 0.5, λ4 = 0.1。
失败案例。
与基准方法类似,我们在具有强视角依赖效果的区域也面临困难,见图F。此外,由于我们的基础模型 Mip-NeRF 360 的局限性,我们也需要足够的训练视角。当训练视角变得稀疏时,我们的性能将显著下降。
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
所有评论(0)