2024 ECCV

2024-11-15

原题目：Photorealistic Object Insertion with Diffusion-Guided Inverse Rendering

论文链接：

名目主页：

作者单位：NVIDIA 多伦多大学 Vector Institute

将虚构物体正确拔出到真实场景的图像中，须要对场景的光照、几何外形和材质，以及图像构成环节有深化的了解。虽然最近的大规模分散模型在生成和修复图像方面体现出了弱小的才干，但本文发现的模型还无余以“了解”单张图片中的场景，从而不可在坚持分解物体的身份和细节的同时生成分歧的光照效果（阴影、明亮的反射等）。本文提出经常使用共性化的大型分散模型作为物理基础逆向渲染环节的指点(guidance)。本文的方法复原了场景光照和颜色映射参数，从而准许在单帧图像或室内外场景的视频中启动 真实感的恣意虚构物体分解 。本文的物理基础流程(physically based pipeline)进一步支持智能材质和颜色映射的优化。

虚构物体拔出能够成功从虚构制造到互动游戏和分解数据生成的一系列运行。为了生成真实感的拔出效果，必定虔诚地模拟虚构物体与环境之间的相互作用，例如准确的镜面高光和阴影。

规范的虚构物体拔出流程通常包括三个关键步骤：i) 从输入图像中预计光照，ii) 创立3D代理几何模型，iii) 在渲染引擎中启动分解图像渲染。但是，第一个也是最关键的一步依然是一个放开的钻研疑问。光照预计在处置有限输入（如经常使用低灵活范围的生产设施拍摄的单张图像）时尤为具备应战性。实践上，逆向渲染实质上是一个病态疑问(ill-posed problem)。

为了限度其解空间，以往的钻研要么试图定义手工设计的先验常识 [9,18,31,78]，要么从数据中学习这些先验常识 [15–17,22,23,32,36,58,64,65,80]。但是，前者在运行于真实场景时往往效果不佳，然后者则因为缺乏真实数据而遭到限度。因此，这些算法通常高度针对特定畛域启动优化，例如室内场景 [15–17,52,65] 或室外场景 [22, 23, 58, 64, 80]。

为了处置这些应战，本文提出应用大型分散模型（DMs） [48] 学习到的弱小图像生成先验常识来指点逆向渲染。与通常特定于某个畛域的手工设计或监视数据驱动先验不同，DMs 是在大规模数据集上训练的，并展现出对环球及其面前物理概念的清楚“了解”(“understanding”)。虽然 DMs 在生成环节中依然经常不可发生准确的光照效果（如阴影和反射） [51]，但本文观察到，当它们与基于物理的渲染器联兼并顺应场景时，可以提供有价值的指点。

详细来说，本文提出了用于逆向渲染的分散先验(Diffusion Prior for Inverse Rendering)（DiPIR），基于以下三大关键奉献。首先，本文经常使用基于物理的渲染器来准确模拟光线与3D资产之间的相互作用，以生成最终的分解图像。本文还思考了未知的颜色映射曲线，以模拟相机传感器的照应。其次，本文提出了一种基于输入图像和拔出资产类型的预训练DM的轻量化共性化方案。第三，本文设计了一种SDS损失 [46] 的变体，应用这种共性化并提高训练的稳固性。

在 DiPIR 中，DM 相似于人类评价者。它将编辑后的图像作为输入，并经过可微渲染将反应信号流传到基于物理的场景属性，从而成功端到端优化。本文的试验标明，DiPIR 在室内和室外数据集上用于物体拔出的光照预计方面优于现有的最先进方法。

图1：本文提出了DiPIR，这是一种基于物理的方法，用于从单张图像中复原光照，能够将恣意虚构物体分解到室内和室外场景中，同时启动材质和颜色映射优化。

图2：方法概述。给定输入图像，本文首先构建一个蕴含虚构物体和代理平面的虚构3D场景。本文的基于物理的渲染器随后可微地模拟可优化环境贴图与拔出虚构物体的相互作用及其对背景场景（阴影）的影响（左）。在每次迭代中，渲染图像会被分散并经过共性化的分散模型（中）。顺应后的Score Distillation公式的梯度经过可微渲染器流传回环境贴图和颜色映射曲线。在收敛时，本文复原光照和颜色映射参数，从而成功从单张图像中对虚构物体的真实感分解（右）。

图3：带有概念保管的共性化。

图4：在 PolyHaven 裁剪的HDRIs中拔出物体的对比。

图5：在 Waymo 驾驶场景中拔出汽车资产。请留意拔出汽车的阴影方向和明晰度，以及全体亮度、颜色和高光反射。

图6：本文设计选用的定性消融钻研。

图7：本文的基于物理的逆向渲染流程解锁了更多运行，如材质优化、部分发光和颜色映射优化。

表1：户外街景的定量用户钻研。关于每个场景，用户会看到两个结果——一个是由本文的方法生成的，另一个是由基线方法生成的——并选用哪个更真切。本文报告了在3组用户钻研中，每组9名用户的平均结果。本文的方法在一切基线方法中体现更好（> 50%），并且在简直一切光照条件下都更受欢迎。

表2：PolyHaven场景的定量评价。本文报告了相似于表1的用户钻研偏好评分。度量值是相关于“参考”图像计算的，其中虚构物体由真实环境贴图照亮。

表3：户外驾驶场景的消融钻研 [57]。本文报告了用户更喜爱DiPIR相关于其消融版本的图像百分比。本文的完整流程生成的结果比其消融版本更受用户青眼。

因为本文的方法复原了基于物理的光照消息，因此在优化后可以拔出恣意新的虚构物体，如图2所示。DiPIR还可以优化其余场景属性，如材质和部分光照。本文在这一方向启动了初步试验。

材质优化。 联合可微渲染，DMs（分散模型）可认为材质属性提供疏导信号，如图7所示。给定一个纯漫反射的汽车，并将金属度和毛糙度属性设为可优化参数，分散疏导可以优化并使汽车看起来愈加闪亮。经过将文本揭示更改为“一辆胭脂红的汽车”，并将汽车的基色设为可优化参数，本文展现了DM可以将文本条件流传到PBR（基于物理渲染）属性并将汽车颜色更改为白色。当将部分发光设为可优化参数时，分散模型还可以在夜间场景中关上汽车的大灯。

颜色映射调整。 本文经过一个控制试验进一步评价DMs（分散模型）对颜色映射的了解才干。如图7所示，本文固定预算的环境贴图，并对背景图像运行手动颜色调整。经过火散疏导来优化颜色曲线，使拔出的物体在最终分解结果中与周围背景相婚配。

本文的方法应用了大型分散模型固有的场景了解才干，作为物理基础逆向渲染流程的指点。本文设计了一种具备场景特定共性化的分散疏导信号，并联合可微的逆向渲染流程来复原光照和颜色映射参数。本文的方法不只能够将虚构物体拔出场景中，还可以优化其余场景参数，例如拔出物体的材质或处置相机之间的颜色映射不婚配疑问。本文置信，这种将可微渲染环节与数据驱动的先验知知趣联合的方法，可以成功运行于许多其余内容创作畛域，如从新照明和动画制造。

局限性和未来上班。本文的基于球面高斯函数的光照示意关于普通物体是足够的[35]，但关于高度镜面反射的资料或者不够真实。关于更复杂的光照示意，参与环境贴图上的生成先验[41]是一个值得探求的方向。渲染公式可以裁减，以思考场景自身对拔出物体的反射效果（例如颜色浸透），但这或者会引入更多的不确定性，并须要了解代理几何体的资料（参见补充资料C.4中的失败案例）。最后，虽然DM共性化清楚提高了却果的品质，但它参与了流程的开支和复杂性。最近的一些共性化方法不须要测试时微调[54]，可以用来减轻这一累赘。

模型 3D

<<修建业中的数字孪生技术运行及未来展望

威望AI开源规范1.0版颁布 Llama也不算开源>>

2024 ECCV

您可能还会对下面的文章感兴趣：

随便看看