单视角三维场景重建一直是计算机视觉领域中的核心挑战之一,尤其在捕捉高保真室外场景细节时,如何确保结构一致性和几何精度显得尤为困难。
过去的一些先进方法,如Flash3D,虽然已能通过单一深度图像实现较好的效果,但在处理复杂几何结构和细节时仍存在明显不足(尤其是室外场景下尤为明显),如边缘模糊、色彩溢出以及几何失真等问题。
为了解决这一难题,西湖大学王欢教授团队,香港科技大学Harry Yang教授团队联合江西理工大学,Everlyn AI, Lancaster University和UCF,提出一种名为Niagara的单视角三维重建框架。
该方法首次有效地将深度信息和表面法线信息结合,提出了一种全新的几何仿射场(Geometric Affine Field, GAF)和三维自注意力机制(3D Self-Attention),实现了从单张图像中精确重建复杂室外场景,显著改善了几何细节的捕捉和视觉真实感。
Niagara框架的关键贡献主要有以下几点:
(1)法线集成深度估计:
利用预训练的法线估计器和深度估计器同时提取图像的法线图和深度图,将两者融合进三维高斯场模型中,显著提高了模型对图像全局的表面细节的敏感性和对预测的三维空间整体的几何一致性。
(2)几何约束模块:
提出一种基于几何约束的隐式特征表示几何仿射场(GAF),通过三个正交平面的仿射投影,结合显式几何(如点云)与隐式特征,能更准确地描述复杂的三维结构;3D自注意力模块,在传统自注意力基础上进行三维空间扩展,有效捕捉全局几何特征之间的长距离依赖关系,提高模型在大视角变化下的几何一致性。
(3)改进的深度高斯解码器:
基于改进的单视角多层高斯模型,通过预测多层高斯参数引入法线图做误差以更好地处理遮挡和未知表面区域,使渲染的新视角图像更为准确、真实。
上述模块相互协作,共同实现了高精度的三维场景重建。
本文主要在RealEstate10K(RE10K)数据集上进行了实验评估:
1. 定量分析:
Niagara在PSNR、SSIM以及LPIPS等各项关键指标上全面优于当前最先进的方法Flash3D,在单视角重建、插值与外推场景下均表现出色,值得一提的是在外推法上超过现有所有双视角模型成为SoTA,尤其在复杂室外场景的几何准确性和视觉逼真性上表现明显提升。
2. 定性分析:
实验结果显示,Niagara模型能有效解决Flash3D中出现的几何模糊和色彩溢出问题,恢复出更丰富的细节、更清晰的边界以及更真实的材质纹理。通过消除结构上的失真和色彩溢出伪影,模型生成的室内和室外场景视觉效果明显更佳。
3. 消融研究:
通过逐步移除法线信息、几何仿射场、3D自注意力模块等进行消融研究,明确验证了每个组件对最终重建效果的关键性贡献,进一步凸显了Niagara各模块设计的有效性。
此外,作者还在KITTI数据集做额外的zero-shot的实验来验证。实验结果表明Niagara同样具有更好的跨域泛化性能,也再次验证了Niagara在室外场景重建具有更好的性能。
本文提出的Niagara框架首次有效解决了单视角下复杂室外场景三维重建中的关键挑战,显著提高了细节捕捉的精度与几何结构的一致性。这种结合深度与法线的框架设计、创新的几何仿射场和三维自注意力机制,为后续单视角重建任务提供了新的研究思路。
未来研究方向包括:探索Niagara在更多复杂动态场景和实时重建任务中的应用;进一步优化模型结构,降低计算成本,提高模型效率;引入更多几何或语义信息,继续提升重建的准确性与鲁棒性。
综上,Niagara不仅在方法论上取得了重要进展,也为实际应用提供了更高性能的三维重建解决方案,具有广泛的应用前景。
论文标题:Niagara: Normal-Integrated Geometric Affine Field for Scene Reconstruction from a Single View
论文链接:https://arxiv.org/abs/2503.12553
模型链接:https://huggingface.co/Xianzu/Niagara
项目链接:https://github.com/xianzuwu/Niagara
网站链接:https://ai-kunkun.github.io/Niagara_page/
文章来自于“量子位”,作者“Niagara团队”。