基于3D Gaussian成功准确视觉定位 浙大最新开源!SplatLoc
题目:SplatLoc: 3D Gaussian Splatting-based Visual Localization for Augmented Reality
作者:Hongjia Zhai, Xiyu Zhang, Boming Zhao, Hai Li, Yijia He, Zhaopeng Cui, Hujun Bao, Guofeng Zhang
机构:State Key Lab of CAD & CG, Zhejiang University、RayNeo
原文链接:
代码链接:
视觉定位在增强事实(AR)的运行中起着关键的作用,它使AR设施能够在预先构建的地图中取得它们的6自在度姿态,以便在实在场景中渲染虚构内容。但是,大少数现有方法不能口头陈腐的视图渲染,并且须要大的地图存储容量。为了克制这些限度,咱们提出了一种有效的视觉定位方法,能够以较少的参数启动高品质的渲染。详细来说,咱们的方法应用3D高斯图元作为场景示意。为了确保用于姿态预计的准确的2D-3D对应,咱们开发了用于高斯图元的无偏的3D场景特定形容符解码器,其从结构的特色体中提取。此外,咱们引见了一种清楚的3D标记选用算法,该算法基于清楚性分数选用适宜的图元子集用于定位。咱们进一步正则化关键高斯图元以防止各向同性效应,这也提高了定位功能。在两个宽泛经常使用的数据集上的少量试验标明,咱们的方法取得了优于或相当于基于隐式的视觉定位方法的渲染和定位功能。
视觉定位是一项关键技术,它使移动设施或头戴式显示器能够预算相机相关于预建3D地图的6自在度(6-DoF)姿态。它在各种增强事实(AR)运行中施展着至关关键的作用。例如,视觉定位方法可以提供AR设施的全局6-DoF姿态消息,这些消息可用于在实在环境中渲染虚构内容,并促成用户与物理空间的交互。
普通而言,经典的视觉定位方法可分为两类:基于回归的方法和基于特色的方法。
基于回归的方法通经常常使用卷积神经网络(CNN)提取图像的初级高低文特色,并编码重建环境的几何消息(如相对姿态和场景坐标)。PoseNet和SCRNet是间接从单个图像的提取特色中回归姿态或像素3D坐标的代表性上班。但是,由于不足几何解放,这些方法在准确性方面往往落后于基于特色的方法。
基于特色的方法通常预先构建基于结构的场景地图(例如3D点云模型),并将每个地图元素与一个或多个3D形容符相关联。这些3D分歧形容符通常是经过对手工特色或基于学习的关键点形容符[9, 46](从2D图像中检测获取)口头多视图融合取得的。查问图像中检测到的2D点可以与3D形容符启动婚配,以取得用于持重姿态预计的2D-3D对应相关。基于特色的方法的定位功能还取决于所提取形容符的可重复性和辨别才干。但是,受限于场景示意模式,这些经典的定位方法不可启动真切的渲染,而这是AR运行的关键组成局部。
近年来,神经辐射场(NeRF)和3D高斯溅射(3DGS)已成为神经隐式场景示意的新范式。这些范式经常使用隐式示意(例如多层感知器、参数化编码)或显式基本元素(例如点、2D/3D高斯)来示意场景属性,并在高品质渲染和几何重建方面成功了令人满意的功能。得益于可微分的NeRF格调体积渲染[16]和基于点的alpha混合,基于神经的方法可以在没有3D监视的状况下以端到端的模式启动参数提升。一些上班经常使用神经隐式示意来重建场景并启动姿态预计。iNeRF是第一个经过最小化查问图像与预训练NeRF模型渲染结果之间的光度误差来精炼6-DoF姿态的上班。NeRF-SCR和LENS是将基于回归的视觉定位与神经辐射场相结合的代表性上班。它们训练一个特定场景的NeRF模型来分解笼罩整个场景空间的高品质新视图,从而为它们的场景坐标回归网络提升提供额外的训练数据。雷同,由于不足几何解放,这些NeRF辅佐的回归方法的定位功能也不具有竞争力。为了施加几何解放,基于特色的方法PNeRFLoc经常使用显式结构示意场景,并将地图中的每个点与基于学习的形容符相关联。PNeRFLoc能够成功更好的定位功能和泛化才干。但是,与传统基于特色的方法一样,PNeRFLoc须要显式存储逐点特色,这会造成少量内存经常使用,关于存储有限的移动设施而言不实际践。
为了克制上述限度,咱们提出了一种高效且陈腐的视觉定位方法,该方法以更少的模型参数成功了更好的功能,适用于定位和高品质新视图渲染。详细而言,为了缩小模型参数,咱们不显式存储逐点形容符。雷同,咱们从多视图2D特色图中构建特色体,并将其提炼为特定场景的3D特色解码器,从而可以防止由alpha混合引入的高斯基本元素的形容符偏向。而后,咱们提出了一种高效的清楚3D地标选用算法,以缩小由少量高斯基本元素惹起的2D-3D婚配的计算开支。最后,咱们对关键高斯基本元素启动位置和缩放正则化,以缩小3D核心偏移。
咱们提出了SplatLoc,一种为增强事实设计的高效陈腐的视觉定位方法。如图所示,咱们的系统应用单目RGB-D帧,经常使用3D高斯图元来重建场景。此外,应用咱们学习的无偏3D形容符场,咱们经过准确的2D-3D特色婚配成功了6-DoF相机姿态预计。咱们展现了咱们的系统的潜在AR运行,例如虚构内容拔出和物理碰撞模拟。咱们用红框突出显示虚构对象。
咱们提出的方法的详细奉献总结如下:
• 咱们提出了一种高效且陈腐的视觉定位方法,该方法基于3D高斯基本元素,能够以更少的参数成功准确的定位功能和高品质、极速的渲染。
• 咱们引入了一种无偏的3D形容符学习战略,用于准确婚配2D关键点和3D高斯基本元素,经常使用一个特定场景的3D特色解码器从多视图特色图中回归特色体。
• 咱们开发了一种有效的清楚3D地标选用算法,以缩小用于定位的基本元素数量。此外,为了减轻由光度渲染损失惹起的高斯基本元素核心偏移,咱们对关键高斯基本元素的位置和尺度运行了正则化。
• 咱们启动了少量试验,证实了所提出方法在视觉定位和高品质新视图渲染方面的先进性和可比功能。
重建环节。咱们逐渐初始化高斯基元,每个基元都与位置μ、旋转q、尺度s、不透明度σ、色彩c以及3D地标分数a相关联。关于关键高斯基元,咱们口头软等轴性和尺度正则化,以减轻结果的非等轴性。应用色彩损失Lc、深度损失Ld、3D地标损失Lm和正则化损失Lreg,经过可微光栅化提升每个基元的属性。
有偏和无偏3D形容符场学习的说明。(a) 以往上班[44, 48]中的有偏3D特色提升,它们经常使用alpha混合来取得2D混合特色。(b) 咱们的无偏3D特色学习打算,间接从由多视图特色图构建的特色体中学习3D特色解码器。
咱们无偏3D基元形容符学习的流程。咱们首先基于2D卷积神经网络(CNN)模型[9]对图像启动编码,以取得多视图特色图,并依据深度和姿态消息构建3D场景特色体。为了增强3D特色解码器的表征才干,咱们经常使用多分辨率参数编码来辅佐3D场景特定形容符的学习。此外,咱们仅对场景外表启动形容符采样,以成功有效的常识蒸馏。
在本文中,咱们提出了SplatLoc,这是一种基于3D高斯基元的高效且陈腐的视觉定位方法,相比传统定位方法更适宜增强事实(AR)/虚构事实(VR)。详细而言,为了紧缩用于定位的场景模型,咱们为重建的高斯基元学习了一个无偏3D形容符场,这比以往的alpha混合方法更准确。而后,咱们提出了一种清楚的3D地标选用算法,依据高斯基元的清楚性分数选用更具消息量的基元启动视觉定位,这可以缩小移动设施的内存和运转期间需求。此外,咱们为关键高斯基元提出了一个有效的正则化项,以防止非等轴外形并缩小几何误差,从而可以提高定位功能的稳固性。在两个罕用数据集上的少量试验证实了咱们所提系统的有效性和适用性。
目前,咱们提出的方法存在两个局限性。第一个是咱们须要深度消息或稠密点云来重建场景。咱们的方法基于3DGS,该方法须要点云来初始化每个高斯基元的位置。第二个是咱们的方法不能用于大型室外场景,由于这会参与参数数量。在未来,咱们将尝试经常使用视觉基础模型(例如DepthAnything)来预计RGB图像的深度,这可以视为代替深度传感器的先验,并指点场景重建环节。此外,咱们思考经常使用分层示意方法来裁减咱们的定位方法,以适用于大型室外场景。