ECCV`24
论文链接:
亮点直击
最近,文本到3D生成畛域取得了清楚停顿。为了增强其在实践运行中的适用性,关键是生成具备交互作用的多个独立对象,相似于2D图像编辑中的图层分解。但是,现有的文本到3D方法在这一义务上存在艰巨,由于它们设计用于生成非独立对象或不足空间正当交互的独立对象。
针对这一疑问,本文提出了DreamDissector,一种能够生成具备交互作用的多个独立对象的文本到3D方法。DreamDissector接受多对象文本到3D NeRF作为输入,并生成独立的纹理网格。为成功这一目的,本文引入了神经类别场(NeCF)来分解输入的NeRF。此外,本文提出了类别分数蒸馏采样(CSDS),由深度概念开掘(DCM)模块促成,以处置分散模型中的概念差距疑问。经过应用NeCF和CSDS,本文能够有效地从原始场景中导出子NeRF。进一步的优化增强了几何和纹理。本文的试验结果验证了DreamDissector的有效性,为用户提供了控制3D分解在对象级别的新手腕,并或者为未来各种创意运行关上了路径。
定性结果展现
方法
概览
DreamDissector从文本转3D神经辐射场(NeRF)开局。其目的是将生成的3D NeRF分解为依据NeRF蕴含的物体类别分开的独立3D资产。为成功这一目的,本文引入了一种称为神经类别场(NeCF)的3D示意。
这旨在将目的NeRF分解为多个子NeRF,同时坚持每个物体的原始外观。NeCF受本文新引入的类别分数蒸馏采样(CSDS)监视,这是一种触及一系列针对子NeRF的特定类别文本揭示的分数蒸馏采样(SDS)的方法。随后,这些子NeRF被转换为DMTets启动最终的几何和纹理细化。由于DMTets可以轻松转换为外表网格,DreamDissector最终为每个物体生成独立的外表网格,保管了举措和互动,从而繁难人类艺术家启动编辑。本文的DreamDissector框架概述如下图2所示。
神经类别场
为了在目的NeRF中渲染每个分类对象,一个间接的处置打算是为每个对象引入一个子NeRF,例如,一个密度场和一个色彩场。随后,可以经常使用其密度和色彩场来渲染每个对象。而后,整个NeRF可以经过依据体积渲染的准则组合这些密度和色彩场来渲染:
其中,K示意类别的数量。但是,这种方法须要为密度和色彩场训练额外的网络,并须要一个解放损失来坚持整个NeRF的外观分歧性。
为此,本文提出了一种用概率散布(即类别场)对密度场启动分解以渲染每个类别对象的代替公式。详细来说,上述密度组合可以从新表述如下:
值得留意的是,NeCF的设计具备以下好处:
类别 分数 蒸馏 抽样
一个豪华的方法。 为了训练NeCF,一个豪华的方法是经常使用多个SDS损失来监视每个类别的类别字段。详细地,关于第k个类别的对象,其SDS损失的梯度可以被表白为:
这里,yk示意第k个类别的文本embedding。例如,给定由揭示生成的NeRF:“一个[v1]坐在一个[v2]上。”,用于类别对象的文本揭示将是“一个[v1]”和“一个[v2]”。这可以很容易地由人类用户或现代LLM成功。须要留意的是,本文在训练NeCF时不须要为整个文本揭示经常使用SDS,除了类别字段网络之外,一切网络都被解冻。
概念差异在分散模型中。 虽然这种豪华的方法可以处置一些繁难的状况,但它无法将具备概念差距的场景从文本形容中分别进去。概念差距指的是完整文本揭示生成的对象与类别文本揭示生成的对象在2D分散模型的潜在空间中占据不同区域的差异。
例如,文本揭示“一只黑猩猩透过望远镜看。”会生成一个场景,形容一只黑猩猩经常使用手持望远镜,如下图3左侧(a)所示。相比之下,类别文本揭示“一个望远镜”更有或者生成一个三脚架装置的望远镜,由于三脚架装置的望远镜位于揭示“一个望远镜”的主导特色空间中,而手持望远镜则位于边缘特色空间中。因此,学习到的NeCF会生成一个带有三脚架的望远镜,三脚架被暗藏在黑猩猩的身材内,如下图3左侧(c)所示。
深度概念开掘 。为了处置这个疑问,本文提出开掘文本揭示中的概念,并将其与NeRF中描画的概念启动对齐,以启动分解,如上图3所示。为此,本文共性化了一个T2I分散模型,将由NeRF渲染的给定视图去噪,生成描画一个(或多个)独立对象的图像,在一个(或多个)特定概念的条件下。详细来说,本文首先创立一组蕴含一个或多个概念的揭示。关于每个概念或概念组合,本文经过基于文本的开明词汇宰割模型(例如Grounded-SAM)为NeRF渲染视图生成相应的宰割蒙版。而后,本文应用揭示-蒙版对来优化文本embedding和分散骨干,经常使用带有蒙版留意力的概念开掘损失:
最终精化。 在训练完NeCF后,本文经常使用等值面提取技术将子NeRF转换为DMTets,并应用文本embedding和来自DCM的模型对这些DMTets启动微调。其原理是进一步精化可以修复分解发生的伪影,而且DMTets可以轻松转换为外表网格。但是,DCM偏差于在原始NeRF中适度拟合开掘的概念,造成色彩过饱和和不实在。为了处置这个疑问,本文驳回原始的稳固分散方法经过额外步骤对DMTets的色彩启动微调,增强其实在感。最后,DMTets被转换为有纹理的网格。
全体 Pipeline
因此,整个流程包括以下步骤:
试验
结果
重要结果。 定性结果显示在下图4中。关于每种状况,每个对象的两个视图被采样,并且相应的文本揭示在补充文件中提供。可以观察到DreamDissector能够有效地解开具备各种复杂交互的输入场景,比如骑行等。值得留意的是,DreamDissector能够处置具备大型和复杂接触外表的状况,如“章鱼弹钢琴”案例中所示,章鱼的触手与钢琴分退进去。此外,最终的网格比输入NeRF中的网格展现出愈加实在和高品质的纹理。这种改良归因于最终的精细化处置,进一步展现了DreamDissector的适用性。
比拟。 本文将DreamDissector与两个基线方法启动比拟:负面揭示和一个组合基线。负面揭示触及将整个文本揭示作为侧面揭示,并将独占对象作为负面揭示。例如,在揭示“一个[v1]坐在[v2]上”中,两个对象的侧面揭示都是整个揭示,而对象[v1]的负面揭示是“[v2]”,反之亦然。由于最关系的作品CompoNeRF和Comp3D不是开源的,本文成功了一个具备相似思维的组合基线:区分训练对象,而后经过进一步的微调启动组合。本文在定性和定量上将本文的方法与这些基线启动比拟。如下图5所示,DreamDissector清楚优于基线方法。此外,本文经常使用CLIP分数目的评价DreamDissector和基线方法,该目的权衡文本和图像embedding之间的余弦相似性。本文对独立对象和组合对象启动这种评价,并计算平均分数。正如下表1所示,本文的方法清楚优于基线方法。
剖析
用于分解的DCM.
与齐全无监视的基础CSDS不同,本文的DCM方法和SA3D都须要一个输入mask来启动单视图处置。正如下图6所示,基础CSDS在处置存在清楚概念差异的场景(例如“一只蓝色毒箭蛙坐在一片睡莲上”)时很难分解NeRF,其边疆始场景重要描画了睡莲叶。而SA3D虽然成功分解触及概念差异的场景(如青蛙),但在触及少量遮挡的更复杂状况下体现不佳,比如比格犬和章鱼等状况。相比之下,DCM展现出出色的功能,成功分解触及概念差异和清楚遮挡的场景。
DCM用于细化。 DCM不只用于NeRF的分解,还用于细化DMTets。本文对DCM在这种细化环节中的有效性启动了剖析。结果如下图7所示。从(a)可以看出,在分解后依然存在伪影。由于原始NeRF的无法见接触外表,在分解后发生了“黑洞”。但是,经常使用原始稳固分散启动DMTet细化并不能处置这个疑问,如(d)所示。这是由于揭示“一叠煎饼”理论会生成在煎饼上放水果的图像,由于这些水果在stable diffusion的高密度区域中很经常出现,如(b)所示。因此,经过微调的DMTet会在黑洞伪影区域发生水果。相比之下,DCM的稳固分散与输入的煎饼严密婚配,如第一行所示,在DMTet细化环节中有效修复了伪影,如(e)所示。这进一步展现了DCM的优越性。
对DCM启动消融钻研。 本文对DCM的每个组成局部启动了消融钻研,包括两阶段训练和mask留意力损失。详细来说,本文经常使用经过微调的模型从文本揭示“一只小兔子坐在一堆煎饼上”中开掘出“小兔子”概念的图像样本。理想状况下,采样的图像不应蕴含任何相似于煎饼的概念。如下图8所示,DCM成功提取了“小兔子”概念,而其余训练战略未能将该概念与其余相似于其坐在下面的煎饼的东西分退出。这证实了DCM开掘独立概念的才干。
Applications
可控纹理编辑。 虽然基于文本疏导的纹理生成取得了清楚停顿,但为具备多个物体的复杂场景生成纹理依然具备应战性。本文在三种不同状况下评价了TEXTure,如下图9所示。关于基准状况,本文将多物体网格视为单个实体并运行TEXTure。关于本文的方法,本文将TEXTure区分运行于每个物体的网格,而后将它们组合起来。本文观察到,基准方法生成的纹理与输入揭示不婚配,并且品质较低。值得留意的是,独立物体的纹理遭到场景中其余物体的影响,例如,老鼠的一局部出现出白色。相比之下,DreamDissector清楚优化了TEXTure的功能,生成视觉上吸引人且准确的纹理。
可控对象交流。 除了可控纹理编辑外,DreamDissector还具备交流单个对象而不影响场景中其余对象的才干。为了成功这一点,目的DMTet在坚持其余DMTets固定的同时启动微调。但是,经常使用基于SDS的监视将DMTet变形为齐全不同拓扑结构的对象具备应战性。受[7]启示,本文最后将DMTet的法线馈送到stable diffusion中启动多个步骤,有效地变形了DMTet。本文还阅历性地观察到,仅微调目的DMTet会惹起重大的网格相互穿透。为了处置这个疑问,本文引入了一个相互穿透损失,
用户启动几何编辑。 为了进一步验证 DreamDissector 如何促成用户上班流程,本文准许用户独自编辑对象。正如下图 11 所示,经过繁难的操作,如缩放、平移和拖动,可以轻松修正对象,从而突显了 DreamDissector 在提高实践运行中人类编辑才干方面的有效性。
论断
DreamDissector,这是一个陈腐的框架,旨在生成由文本疏导的多个独立交互对象。DreamDissector 接受多对象文本到 3D 神经辐射场(Neural Radiance Field,NeRF)作为输入,并生成多个带纹理的网格。本文引入了神经类别场(Neural Category Field,NeCF),这是一种能够将输入的 NeRF 分解为多个子 NeRF 的示意。为了训练 NeCF,本文提出了类别分数蒸馏采样(Category Score Distillation Sampling,CSDS)损失。此外,本文观察到了 2D 分散模型中的概念差异疑问,这或者会降落分解功能。为了处置这个疑问,本文引入了深度概念开掘(Deep Concept Mining,DCM)来微调文本embedding和 2D 分散模型,有效地导出子 NeRF。此外,本文提出了一个两阶段的细化环节,进一步改良几何和纹理,从而增强事实感。试验结果和进一步运行展现了 DreamDissector 在事实场景中的有效性和适用性。
原文链接: