在计算机视觉与图形学中,表面重建是一个长期未解的难题:给定一组多视角图像,能否重建出高精度、几何清晰、细节丰富的 3D 模型?
近年来,NeRF、SDF 与 3D Gaussian Splatting 等方法大放异彩,让 AI 能从图像中恢复出三维世界。但随着相关技术路线的发展与完善,瓶颈问题也随之浮现:
于是一个问题被抛出:有没有一条新路径,不依赖复杂初始化,也能在保持效率的同时,实现真正精确、完整的表面重建?
北京航空航天大学百晓团队、Rawmantic AI、麦考瑞大学、RIKEN AIP 与东京大学的团队给出了他们的答案:GeoSVR (Geometric Sparse Voxel Reconstruction) —— 一种全新的显式几何优化框架,探究稀疏体素的潜力,在几何准确性、细节捕捉和完整性上全面超越现有方法。
目前,该论文已被 NeurIPS 2025 接收为 Spotlight,项目代码已开源。
本文第一作者为李嘉禾为北京航空航天大学计算机学院博士研究生,目前于新加坡国立大学进行访问,主要研究方向为计算机三维视觉。通讯作者为北京航空航天大学计算机学院百晓教授和郑锦副教授。
图 1 GeoSVR 方法流程
GeoSVR 在稀疏体素表达 SVRaster 的基础上,围绕几何约束与表面正则化提出了系统化设计,使体素能够在保证效率的同时,生成几何精确的表面。
1. 体素不确定性深度约束 (Voxel-Uncertainty Depth Constraint)
——不确定性建模:受不确定性和体素层级的紧密耦合的启发,GeoSVR 抽象出一种层级感知的几何不确定性,其与体素八叉树的层级明确相关,表明具有关键几何形状的低层级体素会导致更高的不确定性。
——深度约束加权:将外部深度损失与不确定性结合。
——效果:在几何歧义处借助外部信号校正,而在可信区域保持体素自身学习,避免过拟合噪声。
因此,体素不确定性深度约束能够尽量减少对低不确定性体素的关注,以确保原有光度约束的可信度,同时增强对高不确定性体素的关注,使其依赖外部线索来解决几何歧义性问题,以实现稳定、可靠的选择性场景约束施加。
值得注意的是,该不确定性推导与思想也可能为其他相关方法提供技术启发,具体过程可见论文原文。
图 2 体素不确定性深度约束效果
2. 稀疏体素表面正则化 (Sparse Voxel Surface Regularization)
——局部过拟合,产生碎片化表面;
——渲染表面与真实几何不对齐,形成不准确的表面;
——大型体素主导几何表达几何,带来失真。
a.体素暂退
——在进行传统 patch-warping 正则化时,随机丢弃一部分体素,仅保留子集参与训练。
——迫使模型利用更少的体素保持全局一致性,从而减少冗余表达,避免优化过程陷入局部最小值。
b.表面修正
——在渲染过程中显式检测射线与体素交界点,强制渲染表面与体素密度边界对齐。
——将几何表面与显示体素分布进行锚定,减少不确定的表面形成、从而得到更锐利、准确的几何边缘。
图 3 表面修正说明及效果
c.体素尺度惩罚
——为体素尺度引入正则项,抑制过大体素对几何的错误主导。
——使几何表达更加细粒度,避免大体素占据并「抹平」局部结构。
通过全局一致性约束、表面修正与尺度惩罚,GeoSVR 在全局性的场景约束下得到的几何结构上,进一步进行表面细化,有效提升了所重建表面的几何精度、锐度与优化稳定性。
GeoSVR 在多个主流数据集上全面超越现有方法:
1. DTU 数据集
2. Tanks and Temples 数据集
3. Mip-NeRF 360 数据集
实验表明,GeoSVR 取得的重建效果:更准,几何精度显著提升;更全,细节与完整性优于现有方法;更快,效率媲美 3DGS,远超隐式表达系列的工作。
GeoSVR 展示了一个新的可能,在 SDF 与 3DGS 以外,稀疏体素也能支撑高质量表面重建,并通过显式不确定性约束建模与正则化设计,兼顾精度、完整性与效率。这一技术为机器人感知、自动驾驶、数字孪生、虚拟现实等应用提供了三维环境构建及数字资产支持。
未来,进一步增加场景重建规模与复杂光路条件的支持,将是该方向的重要研究路径。
文章来自于微信公众号“机器之心”。