港理工&amp OPPO&amp AI联结颁布分歧且高效的3D场景编辑方法 Stability

2024-11-14

文章链接：名目链接：

当天和大家一同窗习港理工、OPPO和Stability AI联结发的一篇关于3D场景编辑的上班，主打一个分歧且高效，视频demo十分赞，可以看看！基于文本的2D分散模型在图像生成和编辑方面展现了令人印象深入的才干。同时，这些2D分散模型在3D编辑义务中也体现出相当大的后劲。但是，成功多个视图之间的分歧编辑依然是一个应战。虽然迭代数据集降级方法能够成功全局分歧性，但其收敛速度缓慢且纹理过于平滑。本文提出了SyncNoise，一种陈腐的几何疏导多视图分歧噪声编辑方法，用于高保真3D场景编辑。SyncNoise在编辑多个视图时同步经常使用2D分散模型，同时强迫多视图噪声预测在几何上坚持分歧，从而确保语义结构和低频外观的全局分歧性。为了进一步增强高频细节的部分分歧性，本文设置了一组anchor视图，并经过跨视图重投影将它们流传到相邻帧。为了提高多视图对应的牢靠性，本文在训练环节中引入深度监视，以增强准确几何结构的重建。经过在噪声和像素级别增强几何分歧性，本文的方法成功了高品质的3D编辑成果，能够很好地遵照文本指令，尤其是在具备复杂纹理的场景中。

demo视频展现

方法

在这项上班中，经过借助2D分散模型，专一于基于文本的3D场景编辑。给定原始3D示意（如NeRF或Gaussian Splatting）、多视图图像及其对应的相机姿态，本文旨在依据人造言语指令生成编辑后的场景。

如下图2所示，本文应用基于指令的2D分散模型来编辑多视图图像，随后经常使用编辑后的视图作为监视来提升原始3D示意。确保多视图分歧编辑至关关键，由于视图之间纹理的不分歧或者会造成不现实的平滑成果。为此，本文首先应用3D几何建设准确的多视图对应相关。其次在整个去噪（编辑）环节中对噪声预测施加多视图分歧性解放，以增强视图间的语义和外观分歧性。此外，为了保管更多的高频细节，本文驳回跨视图投影，将编辑成果从anchor视图流传到其邻远视图，以成功像素级的多视图分歧编辑。

牢靠的几何疏导对应相关

为了在多个视图之间建设牢靠的对应相关，本文引入了深度监视来增强重建的几何状态。此外，本文应用从新投影的深度和循环分歧性解放来过滤掉无法靠的婚配点，确保婚配的准确性。

深度监视 。隐式3D示意（例如 NeRF）在拟合几何状态方面体现有限，特意是在视图稠密的状况下。因此，NeRF 预测的深度往往无法靠。如下图 3(a) 所示，从参考视图从新投影到其余视图时存在清楚偏向。为了处置这一限度，本文在 NeRF 的训练环节中引入深度监视。详细来说，从经过运转 Structure-from-Motion (SfM) 解算器取得的 3D 关键点派生深度监视，并减少深度损失以强迫预计的深度婚配关键点的深度。如下图 3(b) 所示，经过减少深度监视，能够预计出更准确的深度，从而能够在不同视图之间建设密集且准确的对应相关。

几何分歧的噪声预测

在上一章节构建的准确几何对应相关的基础上，本节旨在确保从T到 0 步的整个去噪环节中多视图的编辑结果是分歧的。成功这一目的的一个便捷有效的方法是对多视图之间的对应潜在特色启动平均。但是，这种方法有两个关键局限性。一方面，间接操作潜在图会造成生成图像出现平滑的结果，如下图 4(b) 所示。另一方面，由于视图之间的婚配点品质不一，对不同视图赋予相反的权重是不正当的，这会使模型倾向于品质较差的视图。

先前的钻研曾经标明，噪声预测器（U-Net）的两边特色不只捕捉语义消息，还影响图像的最终外观。这启示本文在 U-Net 特色而不是潜在图上增强多视图分歧性。如上图 4(d) 所示，经过在 U-Net 的两边解码器特色上强迫分歧性，可以成功多视图分歧的编辑结果而不会引入含糊伪影。当将解放运行于腾跃特色时，影响相对较小，如上图 4(c) 所示。有关 U-Net 结构和对齐 U-Net 不同层成果的详细消息，请参考原文附录。

此外，为了在不修正有关区域的状况下成功更准确的前景编辑，本文引入了掩码来限度婚配和编辑的区域。本文只保管掩码内的对应相关，并过滤掉来自不相关区域的多余关联。此外，在每个去噪步骤中运行一个掩码来限度文本指点的区域，并修正噪声预计方程如下：

跨视角像素级投影

本文曾经对来自多个视角的初始噪声和U-Net的噪声预测启动了对齐，这种方法可以比迭代细化战略更有效地成功全局分歧的编辑。但是，如下图5(b)所示，噪声级别的对齐只能确保语义结构和低频纹理的分歧性，但无法保障高频细节的分歧性。即使在这些细节上的细微不对齐最终也会造成3D编辑中的平滑纹理。

3D示意提升

多视角同步噪声预测在结构和外观上成功了分歧的编辑，而跨视角像素级投影进一步增强了相邻视角之间的分歧性。基于一切视角的编辑结果，本文首先对3D模型启动1000-2000次迭代的训练，详细取决于场景的复杂性，以将2D编辑注入到3D示意中。随后驳回一个迭代的细化方法进一步增强3D示意。须要留意的是，本文的方法在一个关键方面与IN2N 不同。在 IN2N 中，在早期的提升步骤中，多视角图像编辑显示出清楚的不分歧性，造成3D编辑适度平滑。相反，本文的方法首先生成多视角分歧的2D编辑，以确保3D几何和外观的全体分歧性，而后驳回迭代细化环节来调整更精细的细节。

试验

成功细节 。在编辑环节中，本文首先编辑80个多视角图像，同时强迫坚持在U-Net的第5层和第8层特色上的分歧性（详见文章最后的图10）。随后，在anchor视角选用方面，本文每隔10个相邻视角选用具备最高CLIP方向分数的视角作为anchor视图，并将它们从新投影到大概80%堆叠的相邻视角上。

评价。本文经常使用三个目的来权衡与文本指令的对齐度，即 CLIP相似性分数，CLIP文本-图像方向相似性，以及CLIP期间方向相似性。此外，本文还经常使用两个无参考图像品质评价目的，即CLIP-IQA 和MUSIQ 。

定性结果

在图1中，本文展现了经常使用不同文本揭示启动的一些编辑结果。从“Batman”和“Robot”揭示的编辑中可以观察到，即使原始场景的几何状态出现清楚变动，本文的方法依然展现出多视角分歧性。此外，本文可以在“Hulk”的头发、“Spiderman”的手臂和“Thor”的服装中看到更精细的细节。这是由于本文经过像素级投影在相邻帧之间强迫成功了分歧性。

在下图6中，本文针对提出的 SyncNoise 与两种代表性的基于指令的方法，InstructNerf2Nerf 和GaussianEditor 启动了比拟。本文经常使用它们的官网代码和自动参数重现了这些方法的结果。本文的 SyncNoise 成功了合乎输入文本指令的真切和分歧的编辑。在“Turn the table into a rainbow table”的示例中，本文的编辑展现了比其余两种方法更好的多视角分歧性。IN2N 由于每次迭代中的不分歧编辑而出现了色彩混合疑问。关于指令“turn him into a wood carving”，本文的 SyncNoise 成功地编辑了头发并发生了细腻的纹理。此外，本文的结果严厉遵照了编辑揭示“turn him into Iron Man wearing the helmet”，并生成了高度真切的头盔。但是，GaussianEditor简直没有扭转人脸的外观，由于它限度了旧高斯点的降级，从而影响了它们对文本的编辑保真度。本文的方法经过在噪声级别成功全局结构和外观分歧性，并在像素级别改善部分纹理分歧性，成功了更优越的编辑成果。详细的定性结果请参考原文附录。

定量比拟

如下表1所示，本文提供了 SyncNoise 与 Instruct-Nerf2Nerf (IN2N) 、Efficient-Nerf2Nerf (EN2N) 和GaussianEditor 的定量比拟结果。本文在总共四个场景（即“bear”、“face”、“fangzhou”和“person”）和10个不同的文本揭示上评价了一切比拟方法。可以看出，本文的方法不只在编辑保真度上体现杰出，而且在视觉品质上也体现优秀。与 IN2N 相比，本文的方法在编辑指令遵照性和期间分歧性上体现更好，而且编辑期间仅需一半。此外，本文的方法在 CLIP 文本-图像方向相似度分数和 MUSIQ 目的上区分比 GaussianEditor 高出了1.27%和2.243，标明本文生成的编辑图像愈加虔诚于给定的指令，同时不就义视觉品质。由于 GaussianEditor限度了原始场景部分3D高斯点的降级，因此它无法很好地遵照指令。此外，经过引入像素级分歧性，SyncNoise 进一步提高了对指令的虔诚度和视觉品质，在不同视角下成功了更精细的编辑细节。

消融钻研

本文钻研了pipeline 中两个关键组件的作用，即噪声对齐和跨视图重投影。如下图7所示，仅经常使用噪声对齐时，编辑在几何上对齐，但失落了一些细节。仅经常使用跨视图重投影时，坚持了相邻帧的部分分歧性，但编辑不足片面的笼罩和完整性。例如，蝙蝠侠的角很小，骷髅的角没有被编辑。经过将这两个组件结合在一同，本文在全局结构和部分纹理上成功了更好的分歧性。

论断

当蠢才享的这篇上班专一于成功3D场景编辑中的多视角分歧性编辑。提出了一种名为SyncNoise的新方法，应用几何疏导的多视角分歧性来增强编辑场景的连接性。经过经常使用2D分散模型同步编辑多个视角，并在噪声预测器的特色上强迫口头几何分歧性，防止了含糊的结果。邻远视角之间的像素级重投影进一步协助生成更精细的细节。本文的试验结果标明，SyncNoise在成功高品质的3D编辑并遵照文本指令方面优于现有方法。

局限性 。本文的方法重大依赖于2D分散模型，这限度了3D编辑的品质和揭示的灵敏性。此外，SyncNoise在编辑外观方面体现杰出，但在修正3D状态和几何方面的才干有限。这一限度也存在于IN2N中。此外，SyncNoise或者在复杂场景中遇到艰巨，特意是那些具备复杂几何结构的场景。须要进一步的钻研来处置这些应战，这将是本文未来的重点关注。

原文链接:

<<面向大言语模型的检索增强生成综述 RAG 技术

技术万文长文搞定检索增强生成 RAG>>