DreamTech联结南大和牛津颁布最强3D内容生成大模型

2024-11-14

文章链接：链接：

从文本和图像生成高品质的3D资产不时是一项应战，关键是由于不足能够捕捉复杂几何散布的可裁减3D示意。在这项上班中，引见了Direct3D，这是一种可裁减到in-the-wild输入图像的原生3D生成模型，不须要多视角分散模型或SDS优化。

方法包括两个关键组件：Direct 3D Variational Auto-Encoder（D3D-VAE）和 Direct 3D Diffusion Transformer （D3D-DiT）。D3D-VAE高效地将高分辨率3D状态编码到紧凑且延续的三平面潜在空间中。

值得留意的是，该方法直接经常使用半延续外表采样战略对解码的几何状态启动监视，区别于依赖渲染图像作为监视信号的先前方法。D3D-DiT对编码的3D潜在散布建模，专门设计用于融合来自三平面潜在空间的三个特色图的位置消息，从而成功一个可裁减到大规模3D数据集的原生3D生成模型。

此外，还引入了一种翻新的图像到3D生成pipeline，结合了语义和像素级图像条件，使模型能够生成与提供的条件图像输入分歧的3D状态。少量试验标明，大规模预训练的Direct3D相比以往的图像到3D方法具备清楚的长处，清楚优化了生成品质和泛化才干，从而确立了3D内容创立的新标杆。

引见

近年来，经过应用分散模型，3D状态生成取得了实质性停顿。受文本到2D图像生成中高效性的启示，这些方法试图经过在多样化的3D数据集上启动宽泛训练，将分散模型的才干裁减到3D状态生成畛域。各种方法探求了不同的3D示意方式，包括点云、体素和符号距离函数（SDFs），不只旨在实在捕捉物体的外观，还要保管复杂的几何细节。但是，现有的大规模3D数据集，如ObjverseXL，在状态的数量和多样性上都遭到了限度，相比之下，其2D对标数据集如Laion5B蕴含了50亿张图像，而ObjverseXL仅蕴含1000万个3D状态。

为了处置这一限度，许多现有方法驳回了一个流程：首先经常使用多视图分散模型从单张图像生成物体的多视图图像，而后运行稠密视图重建方法或评分蒸馏采样（SDS）优化将这些多视图图像融合为3D状态。虽然这个流程可以发生高品质的3D状态，但经过多视图图像直接生成的方法引发了效率疑问。此外，生成状态的品质重大依赖于多视图图像的保真度，往往造成细节失落或重建失败。

本文摒弃了直接生成多视图图像的传统方法，转而提倡经过原生3D分散模型直接从单视图图像生成3D状态。遭到潜在分散模型在2D图像生成中成功阅历的启示，咱们提出经常使用3D变分自编码器（VAE）将3D状态编码到潜在空间，而后经常使用diffusion transformer model（DiT）从该潜在空间生成3D状态，并以图像输入作为条件。但是，高效地将3D状态编码到适宜分散模型训练的潜在空间中，以及将潜在示意解码回3D几何状态，都是具备应战性的义务。先前的方法经过可微渲染经常使用多视图图像作为直接监视，但依然面临准确性和效率疑问。

为了处置这些应战，钻研者们驳回transformer模型将高分辨率点云编码为显式三平面潜在空间，这在3D重建方法中被宽泛经常使用，由于其效率高。虽然三平面潜在空间的分辨率故意设置较低，但引入卷积神经网络来上采样潜在分辨率并将其解码为高分辨率的3D占用网格。此外，为了确保对3D占用网格的准确监视，咱们驳回半延续外表采样战略，能够在延续和团圆方式下对外表点启动采样和监视。这种方法有助于在紧凑且延续的显式潜在空间中编码和重建3D状态。

在图像到3D生成方面，钻研者们进一步应用图像作为3D分散Transformer的条件输入，将3D潜在空间布置为3D状态的三个正交视图的组合。特意地，将像素级图像消息集成到每个DiT块中，以确保生成的3D模型与条件图像之间的高频细节对齐。在每个DiT块中引入了交叉留意力层，以融合语义级图像消息，从而促成生成与条件图像语义分歧的高品质3D状态。

经过宽泛的试验，展现了所提出的Direct3D方法的高品质3D生成和弱小的泛化才干。下图1展现了咱们的方法在朝外图像生成的3D结果，这些图像来自Hunyuan-DiT。总结起来，

关键奉献 ：

关系上班

3D生成的神经3D示意

神经3D示意关于3D生成义务至关关键。神经辐射场（NeRF）的引入清楚推进了3D生成的开展。在此基础上，DreamFusion引入了评分蒸馏采样（SDS）方法，经常使用现成的2D分散模型从恣意文本揭示生成3D状态。许多后续方法探求了各种示意方式，以优化3D生成的速度和品质。例如，Magic3D经过引入第二阶段经常使用DMtet示意来改善生成品质，该示意将符号距离函数（SDF）与四面体网格结合以示意3D状态。

除了基于SDS的方法，一些方法经常使用直接训练的网络生成不同的示意方式。例如，LRM经常使用三平面NeRF示意作为网络输入，清楚放慢了生成环节，虽然有必定的品质损失。另一种方法，One-2-3-45++，提出经常使用3D占用网格作为输入示意，以优化几何品质。

多视图分散

在经常使用分散模型启动新视图预测方法取得成功之后，如Zero123——该方法从单张图像和文本指点生成物体的不同未知视图——MVDream将新视图分散裁减为一次性生成物体的多个视图，从而提高了视图间的分歧性。Imagedream经过引入新的图像条件模块进一步优化了生成品质。一些方法驳回这种方法，先生成物体的多视图图像，而后经常使用稠密重建从这些视图重建3D状态。Instant3D提出了一种重建模型，该模型以四个多视图图像作为输入，重建3D状态的NeRF示意。许多后续方法经过增强多视图或重建模型启动了改良。

直接3D分散

虽然直接训练3D分散模型面临诸多应战——如不足可分散的3D示意——各种战略已被探求。一类上班是拟合多个NeRF以取得3D数据集的神经示意，而后运行分散模型从这种学习到的示意中生成NeRF。但是，NeRF的独自训练或者会阻碍分散模型对更多样化的3D状态的泛化才干。3DGenNeural提出联结训练三平面拟合3D状态，并以占用为直接监视来训练三平面重建模型。

另一类上班应用VAE将3D状态编码到潜在空间，并在该潜在空间上训练分散模型以生成3D状态。例如，Shap-E经常使用纯TransformerVAE将3D状态的点云和图像编码到隐式潜在空间，而后复原为NeRF和SDF场。3DGen仅将3D状态的点云编码到显式三平面潜在空间，从而提高了生功效率。相似于之前拟合多个NeRF的上班，3DTopia拟合多个三平面NeRF并将其编码到潜在空间，为分散模型生成3D状态启动训练。Michelangelo经常使用3D占用作为VAE的输入示意，但经常使用多个1D向量作为隐式潜在空间，而不是三平面。

但是，这些方法理论依赖渲染损失来监视VAE重建，造成次优的重建和生成品质。此外，经常使用未设计为高效编码的隐式潜在示意，并不足用于分散的紧凑显式3D示意，进一步限度了它们的功能。咱们的D3D-VAE结合了显式3D潜在示意和直接3D监视的长处，成功了高品质的VAE重建，确保了持重的3D状态生成。此外，咱们的分散架构设计专门处置了条件3D潜在生成疑问。咱们的D3D-DiT促成了像素级和语义级的3D特定图像条件，使分散环节能够生成与条件图像分歧的高细节3D状态。

方法

受LDM的启示，在3D潜在空间内训练了一种潜在分散模型用于3D生成。与理论依赖于1D隐式潜在空间的生成模型不同，本文的方法处置了两个关键限度：

为了缓解这些疑问，驳回了显式三平面潜在示意，应用三张特色图来示意3D几何潜在空间。这种设计的灵感来自LDM，它经常使用特色图来示意2D图像潜在空间。下图2展现了本文提出的方法的全体框架，包括两个步骤的训练环节：

Direct 3D Variational Auto-Encoder

提出的D3D-VAE蕴含三个组件：点到潜在编码器、潜在到三平面解码器和几何映射网络。同时，设计了一种半延续外表采样战略，应用延续和团圆监视确保解码的3D状态的高频几何细节。

其中 sdf(x) 示意 x 的有符号距离函数（Signed Distance Function，SDF）值。

基于图像条件的直接3D Diffusion Transformer

在训练完D3D-VAE之后，可以取得一个延续且紧凑的潜在空间，基于这个空间训练潜在分散模型。由于3D数据相关于领有数十亿图像的2D数据集来说十分稀缺，训练一个具备弱小泛化才干的文本条件的3D分散模型具备应战性。此外，文本到图像的生成模型曾经取得了清楚的成熟度，因此选用训练一个图像条件的3D分散模型，以取得更好的泛化才干和更高的品质。

由于取得的潜在embedding是一个显式的三平面示意，一个便捷的方法是直接经常使用一个精心设计的2D U-Net作为分散模型。但是，这样做会造成三个平面之间不足交换，从而不可捕捉生成3D所需的结构化和固有属性。因此，基于 Diffusion Transformer（DiT）的架构构建了生成模型，应用变换器更好地提取平面之间的空间位置消息。同时，咱们倡议在每个DiT块中兼并图像的像素级和语义级消息，从而将图像特色空间和潜在空间对齐，以生成与条件图像内容分歧的3D资产。咱们的潜在分散模型框架如前面图2（b）所示，每个DiT块的架构如下图3所示。

试验

成功细节

图像和文本到3D生成

图像到3D 。在GSO数据集上对Direct3D与其余基线方法启动了图像到3D义务的定性比拟，如下图4所示。

Shap-E是一个在数百万个3D资产上训练的3D分散模型，能够生成正当的几何状态，但在网格中存在伪影和孔洞。Michelangelo在一个1D隐式潜在空间上口头分散环节，不可将生成的网格与条件图像的语义内容对齐。基于多视角的方法，如One-2-3-45和InstantMesh，重大依赖于多视角2D分散模型的功能。One-2-3-45直接经常使用SparseNeuS启动重建，造成几何状态毛糙。InstantMesh生成的网格品质不错，但在某些细节上与输入图像的分歧性缺失，比如水槽上的水龙头和校车的窗户。它还发生了一些失败案例，比如将马的后腿兼并在一同，这是由于多视角分散模型的限度。相比之下，Direct3D在大少数状况下都能发生与条件图像分歧的高品质网格。

文本到3D 。Direct3D可以经过结合像Hunyuan-DiT这样的文本到图像模型，从文本揭示生成3D资产。下图5展现了Direct3D与其余基线方法在文本到3D义务上的定性比拟。

为了确保偏心比拟，一切方法都经常使用相反的生成图像作为输入。可以看出，这些基线方法在简直一切状况下都失败了，而Direct3D依然能够生成高品质的网格，展现了本文方法的宽泛实用性。钻研者们还启动了用户钻研，以定量比拟D3D-DiT与其余方法。渲染了每种方法生成的网格旋转360度的视频，并请46名志愿者依据网格的品质和与输入图像的分歧性启动评分。下表1的结果标明，D3D-DiT在网格品质和分歧性方面优于其余基线方法。

生成纹理网格 。得益于Direct3D生成的平滑和粗疏的几何状态，可以应用现有的纹理分解方法轻松装璜网格。如下图6所示，经常使用SyncMVD取得了精巧的纹理网格。

论断

本文引见了一种陈腐的方法，可以直接从单个图像生成3D状态，无需多视角重建。应用混合架构，提出的D3D-VAE能够高效地将3D状态编码为紧凑的潜在空间，增强了生成状态的保真度。本文的图像条件3D Diffusion Transformer（D3D-DiT）经过在像素级和语义级别集成图像消息，进一步提高了生成品质，确保了生成的3D状态与条件图像的高分歧性。在图像到3D和文本到3D义务上启动的少量试验标明，Direct3D在3D生成方面体现优秀，优于现有方法的品质和泛化才干。

局限性 。虽然Direct3D能够生成高保真度的3D资产，但目前仅限于生成单个或多个对象，不可生成大规模场景。

原文链接:

<<自回归可以战败分散模型吗在图像生成畛域

多模态大模型解读>>