豪华一文详解3D内容生成算法

2024-11-15

文章链接：

近年来，人工智能生成内容（AIGC）方面取得了清楚停顿，触及多种输入方式，如文本、图像、视频、音频和3D内容。其中，3D内容是最凑近实在环球3D环境的视觉方式，并包括着渺小的常识量。3D内容生成展现了学术和通常价值，同时也面临着渺小的技术应战。本文旨在总结3D内容生成畛域的开展，提出了一个新的分类法，将现有方法分为三类：3D豪华生成方法、基于2D先验的3D生成方法和混合3D生成方法。这项考查涵盖了大概60篇触及关键技术畛域的论文。此外探讨了3D内容生成技术的局限性，并指出了未来上班的开明应战和有前景的方向。

一个超棒的3D内容生成资源地址：

引见

生成模型在人造言语处置（NLP）和图像生成畛域取得了渺小的成功。最近的开展，如ChatGPT和Midjourney，曾经彻底扭转了许多学术和工业畛域。例如，AI写作和设计助手清楚缩短了论文写作和图像设计的期间。在3D畛域，随着3D数据量的参与以及其余畛域生成技术的成功，3D生成技术也取得了严重提高。

由于其宽泛的运行，3D内容生成的钻研越来越遭到关注。典型的运行包括:

过去几年见证了3D豪华生成方法的许多停顿。这些方法的关键思想是首先经常使用3D数据集训练网络，而后以前馈方式生成3D资源。这一系列方法的一个局限性是须要少量的3D数据集，而3D数据的数量很少。

由于图像文本对的数量远远大于3D对应物，最近发生了一种新的钻研方向，即基于大规模配对图像文本数据集训练的2D分散模型构建3D模型。一个代表性方法是DreamFusion，它经过经常使用分数蒸馏采样（SDS）损失来优化NeRF。

最近还发生了混合3D生成方法，将3D豪华和基于2D先验的生成方法的长处结合起来。典型的例子是one2345++，它经过经常使用基于2D先验的多视角图像输入来训练3D分散模型生成3D模型。最近两年见证了3D生成技术的清楚开展，特意是文本到3D和图像到3D义务。这些停顿为3D内容生成提供了许多潜在的处置打算，如3D豪华生成、基于2D先验的3D生成和混合3D生成。

依据最新了解，与本文的考查相关的只要两篇综述文章。[Shi等，2022]简直只涵盖了状态生成和单视图重建的早期技术。[Li等，2023a]只包括了部分基于2D先验的3D生成方法，并没有涵盖最近的大部分3D豪华和混合生成方法。

但是，这个畛域教训了极速的开展，包括3D豪华、基于2D先验的和混合生成方法。因此，迫切须要一份综合性的考查来整合这些新停顿，并协助从业者更好地探求始终裁减的钻研前沿。

本文奉献总结如下:

初步

3D示意

有效地示意3D几何数据关于生成3D内容至关关键。引见3D示意关于了解生成3D内容至关关键。的3D示意通常分为两类，即显式示意和隐式示意。

显式示意

显式示意通常指的是间接和明白地示意3D对象的几何状态或结构。它触及明白定义对象的外表或体积示意，例如经过经常使用点云、体素或网格。显式示意的长处在于它能够成功更准确的几何控制和多尺度编辑。

「点云」

点云是3D数据的基本示意，触及从3D对象或环境中采样外表点。点云通常间接从深度传感器中失掉，因此在各种3D场景了解疑问中失掉宽泛运行。深度图和法线图可以视为点云范式的特定实例。鉴于失掉点云数据的便利性，在AIGC-3D畛域，这种示意方法被宽泛经常使用。

「体素」

体素是另一种经常出现的3D示意，触及在基于规定的栅格结构上调配值。这使得一集体素可以编码一个3D状态或场景。由于体素的规定性质，它们与卷积神经网络的集成良好，并在深度几何学习义务中失掉宽泛运行。由于与CNN的兼容性，体素也是应用深度神经模型的生成3D内容技术的经常出现选用。

「网格」

网格示意经常使用一组顶点、边和面来建模3D状态和场景。这使得网格可以编码外表的3D位置消息和拓扑结构。与体素相比，网格专门关注建模外表几何，提供了更紧凑的存储格局。与点云相比，网格提供了外表元素之间的显式衔接，从而使点之间的空间相关建模成为或者。由于这些长处，网格常年以来在经典计算机图形学畛域（如几何处置、动画和渲染）中被宽泛经常使用，其中准确性、互操作性和效率是优先思索的起因。在这些维度上取得平衡，网格曾经成为3D内容创立中关键的示意方法。

隐式示意

隐式示意将3D对象或状态隐含地定义进去。通常驳回代表对象外表的水平集或函数。它提供了一种紧凑而灵敏的3D状态示意，准许对对象、场景和具备复杂几何和纹理的人物启动建模。隐式示意的长处在于其与微分渲染管线的灵敏嵌入。

神经辐射场（NeRF）是一种新兴的神经渲染方法，曾经在复杂场景的新视图分解方面取得了令人印象深入的结果。NeRF包括两个关键组件，包括体积光线跟踪器和多层感知器（MLP）。虽然NeRF在渲染输入方面或者会较慢，但它通常被用作AIGC-3D运行中的全局示意。

「3D Gaussian Splatting」

3D Gaussian Splatting（3D GS）引入了一种有效的方法，用一组位于3D空间中的加权高斯散布隐式地示意3D场景，从而成功了新视图分解。经过将外表元素或点建模为高斯blobs，这种方法能够经常使用大批散布来捕捉复杂的场景结构。经过基于散布的范式隐式地编码丰盛的场景消息，3D Gaussian Splatting在新视图分解中锋芒毕露，成为一种翻新的技术。虽然3D Gaussian Splatting能够极速生成结果，但结果不稳固，在AIGC-3D中最近也有了运行。

「有符号距离函数」

有符号距离函数（SDF）将3D外表定义为距离场的零水平集，其中空间中的每个点被赋予一个值，该值对应于其到外表的有符号最短距离。SDF经过应用距离值而无需显式网格示意来成功高效的操作，例如结构实体几何。它们经环节度集方法成功了平滑的外表重建，并支持初级模拟。DMTet驳回了一种混合示意方法，结合了有符号距离函数（SDF）和网格，通罕用于优化生成的3D几何体。

2D分散模型

分散模型指的是一类基于去噪分散概率模型（DDPM）框架的生成技术。DDPM训练模型口头逆分散环节——从一个噪声信号开局，并运行迭代去噪步骤来恢还原始数据散布。从数学上讲，这个环节可以示意为，其中是原始信号经过t个分散步骤后的带噪声版本，参与了高斯噪声ϵ∼ N (0,σ

3D豪华生成方法

3D豪华生成方法间接在3D数据的监视下生成3D示意，其中示意和监视是生成品质的两个关键组成部分。现有的3D豪华生成方法可以分为三类：物体、场景和人物。下图1中展现了几个关键的里程碑方法。

物体

经过适当的条件输入，3D豪华生成器可以被训练用于物体级别的生成。早期的尝试，例如Text2Shape在言语和3D物理属性之间树立了多对多的相关，成功了对色彩和状态的生成控制。

但是，Text2Shape只搜集了15K个椅子和桌子的75K个言语形容。ShapeCraft逐渐演化出更多短语，构建了一个包括369K个状态-文本对的数据集，命名为Text2Shape++。为了支持递归生成，ShapeCraft 经常使用了矢量量化的深度隐式函数来捕捉部分细节。最近，SDFusion提出了将条件特色嵌入到分散训练的去噪层中，准许多模态输入条件。

遭到可用3D数据和相应字幕的限度，先前的3D豪华生成模型只能处置有限的类别。为了支持大词汇量的3D生成，先驱性上班Point-E和Shap-E搜集了数百万个3D资源和相应的文本字幕。Point-E 训练了一个图像到点分散模型，其中将CLIP视觉潜在code输入到Transformer中。Shap-E 进一步引入了潜在投影，以成功SDF示意的重建。但是，提出的数据集并未向群众颁布。作为代替，最近的上班必定基于一个相对较小的数据集Objaverse启动试验。

LRM提出了学习一个图像到三面隐空间，而后从新塑造潜在特色以重建基于三面的隐式示意。DMV3D将LRM视为一个去噪层，进一步提出了一个T步骤分散模型，以基于LRM生成高品质的结果。TextField3D 提出了用于开明词汇生成的方法，其中文本潜在空间注入了灵活噪声以裁减潜在特色的表白范围。

场景

早期方法应用生成反抗网络（GAN），明白地融合了一个参数化函数，称为辐射场。该函数以3D坐标和相机姿态作为输入，并为3D空间中的每个点生成相应的密度标量和RGB值。但是，GAN存在训练病态疑问，包括形式解体，并且很难在不存在规范坐标系的数据上启动训练，这就是3D场景的状况。

为了克制这些疑问，GAUDI学习了一个适宜于经常使用智能解码器学习的一组场景潜在变量的去噪分散模型。但是，这些模型都具备一个固有的缺陷，即试图将整个场景捕捉到一个条件神经辐射场中的单个向量中。这限度了拟合复杂场景散布的才干。

NeuralField-LDM首先将图像和姿态对示意为潜在code ，并学习分层分散模型来成功场景生成。但是，的方法耗时且分辨率相对较低。最近的驳回了分层体素潜在分散，以粗到精的方式生成更高分辨率的3D示意。

虚构人

早期的3D虚构人生成方法依赖于参数化模型，这些模型经常使用一组预约义的参数来创立具备体现力的人脸或人体的3D网格。3D可变形模型（3DMM）是一种统计模型，将虚构人面部的外在属性分解为身份、表情和反射。这些属性被编码为低维向量，可以用于从2D图像或视频素材生成真切的3D人脸。

关于人体，最宽泛经常使用的参数化模型之一是皮肤多人线性（SMPL）模型，它经常使用线性和非线性变换的组合来创立真切的人体3D网格。SMPL基于从少量身材扫描数据集中学习的统计身材状态和姿态模型。虽然参数化模型取得了成功，但它们具备一些限度，特意是在建模复杂几何状态，如头发和宽松服装方面。

近年来，人们越来越多地驳回基于学习的方法来建模3D虚构人。这些方法经常使用深度学习算法从3D扫描或多视角图像数据集中学习真切而具体的虚构人。PIFu引入了像素对齐的隐式函数，可以从单个图像生成具备复杂状态的高度具体的着装虚构人3D模型。

HeadNeRF提出了基于NeRF的参数化头部模型，可以生成具备高保真度的头部图像，并具备操纵渲染姿态和各种语义属性的才干。SMPLicit和gDNA经常使用来自已注册的3D扫描数据的隐式函数训练着装虚构人的3D生成模型。最近，Rodin基于三面示意提出了一种滚动分散网络，可以从大规模的分解多视角数据集中学习具体的3D虚构头部。

基于2D先验的3D生成方法

先前，大少数3D豪华生成方法局限于像ShapeNet这样的受限数据集，其中仅包括固定的物体类别。文本到图像分散模型的最新停顿开拓了新的或者性。DreamFusion应用分数蒸馏抽样技术，将弱小的2D分散模型的常识转化为优化3D示意，如NeRF，从而清楚提高了文本到3D分解品质。这一范式将基于分散的方法的范围迅速裁减到了从物体到场景和虚构人等其余畛域。下图2中展现了几个关键的方法。

物体

DreamFusion开创了依据每个文本输入或每个图像优化惟一的3D示意的范式，受弱小的预训练2D分散模型的指点。这种方法确立了一个新的基础，但也提醒了行进的关键应战 - 即在分辨率、几何细节和纹理保真度方面成功高保真度品质；确保在多种视角下生成分歧，即“多面Janus疑问”；以及为交互运行程序优化分解速度。

为了成功高保真度品质，Magic3D引入了一个两阶段的粗到精的优化战略。这种方法提高了速度和品质。Fantasia3D对几何和外观建模启动了解耦，推进了文本到3D的品质。关于几何部分，它依赖于混合场景示意，并将提取的外表法线编码到图像分散模型的输入中。

在外观方面，Fantasia3D引入了空间变动的双向反射散布函数，用于学习生成几何的外表资料，以成功照片般真切的渲染。虽然早期方法存在过饱和和低多样性的疑问，但ProlificDreamer引入了变分分数蒸馏来处置这些应战。

但是，由于稳固分散对2D前视图的偏好，其3D输入往往偏差于重复不同角度的前视图，而不是生成连接的3D对象。与在多视角3D数据上微调以缓解多面扬尼斯疑问同样，一些上班探求了代替方法。

例如，DreamControl应用自顺应视角采样和边界完整性度量。虽然基于NeRF的以前的每个样本优化方法在3D生成义务中速度较慢，但3DGS的极速开展成功了打破。

DreamGaussian将3DGS整合到生成式3D内容创立中，与基于NeRF的方法相比，成功了约10倍的减速。与NeRF中经常使用的占用剪枝相比，3D高斯的渐进密集化关于这些3D生成疑问收敛速度清楚更快。DreamGaussian引入了一种高效的算法，将生成的高斯函数转换为带纹理的网格。这项开创性的上班展现了3DGS如何成功AIGC-3D的更快训练。

除了联结几何和纹理生成之外，另一种范式触及给定预约义几何的纹理映射，称为“纹理绘制” - 也是一种内容创立方式。这一畛域的代表上班包括TEXTure和TexFusion，它们应用预训练的深度到图像分散模型，并运行迭代打算将纹理绘制到从多个视角观察的3D模型上。经过将纹理生成与几何建模的分别应战离开，这些方法提供了一个值得探求的代替钻研方向。

场景

基于2D先验的场景生成的关键思想是应用2D预训练大模型生成部分场景。而后，运行修补战略来生成大规模场景。Text2room是经常使用2D预训练模型生成2D图像深度的典型例子。而后，对图像启动了更深的修补。这些深度被兼并以生成大规模场景。

LucidDreamer首先应用修补战略从输入中生成多视角分歧的图像。而后，将修补后的图像优化到3D空间并预计深度图，将新的深度图兼并到3D场景中。SceneTex经常使用深度到图像分散先验为室内场景生成场景纹理。该方法的外围在于提出了一个隐式编码网分内观的多分辨率纹理场。而后，在相应的RGB渲染中经常使用VSD损失对目的纹理启动优化。

此外，SceneDreamer引入了俯瞰视角（BEV）场景示意和神经体积渲染器。该框架从2D图像汇合中学习一个无条件的生成模型。借助这个模型，可以从噪声中生成无界的3D场景，而不须要任何特定的条件。

虚构人

在文本疏导的3D人物生成畛域，参数模型被宽泛用作基本的3D先验，由于它们可以提供准确的几何初始化并清楚降落优化难度。AvatarCLIP 是第一个将视觉言语模型与来自参数模型的隐式3D示意相结合，成功了全身虚构人的零样本文本驱动生成。在经常使用预训练的2D潜在分散模型提供能源的SDS生成3D对象取得成功后，最近的上班也将这些方法裁减到了人物生成。

HeadSculpt经过将预训练的分散模型与从3D参数化头部模型取得的多视图地标图启动条件化，生成分歧的3D头像。遵照这一打算，DreamWaltz提出了思索遮挡的SDS和骨架条件化，以坚持3D分歧性并在优化环节中增加伪影。经过在imGHUM的语义签名距离空间中优化NeRF并经常使用多个细粒度损失，DreamHuman生成具备特定实例外表变形的可灵活变动的3D人物。HumanGaussian将SDS与SoTA 3DGS示意相结合，成功了更高效的文本驱动3D虚构人生成。

混合型3D生成方法

早期的3D豪华生成方法受限于稀缺的3D数据集，而2D先验方法只能提炼有限的3D几何常识，钻研人员探求了将3D消息注入预训练的2D模型中。新创方法包括在多视角对象图像上微调稳固分散以生成分歧的视角，以及从多个视图启动3D重建和生成。

这种范式转变处置了上述的缺陷，经过应用丰盛的2D视觉资源和有针对性的3D监视来克制每种方法独自的限度。下图3中引见了几个具备里程碑意义的方法。

物体

第一次性尝试是Zero123，它运行3D数据来微调预训练的2D分散模型，成功了基于单个输入视角的新视角生成。这项具备洞察力的上班标明，稳固分散实质上包括了宽泛的3D常识，可以经过多视角微调来解锁。

在此基础上，One-2-3-45应用Zero123生成多个视角。而后，它衔接了一个重建模型，在短短45秒内从单个图像生成3D网格，并取得了令人满意的结果。这种方法逾越了先前依赖于2D先验的优化，清楚提高了3D生成的速度。

虽然Zero123中重生成的视角与给定的视角分歧，但在生成的新视角之间却没有坚持分歧性。作为回应，一些上班旨在同时发生具备面试分歧性的多个视角。

SyncDreamer，MVDream都能够同时生成多个视角，视角之间启动消息替换以确保分歧性。Wonder3D引入了一个法向模型，并经过对多视角稳固分散模型启动微调，同时跨视角输入RGB和法线图。One-2-3-45++经过增强的Zero123模块推进了多视角3D生成，成功了同时的跨视角留意力，以及一个多视角条件化的3D分散模块，随着期间的推移启动了粗到细的纹理网格预测。

随后的几项上班引入了3D先验初始化以提高3D生成内容的品质。Dreamcraft3d经常使用视角相关的分散模型对DMTet示意启动初始化。Gsgen应用Point-E初始化3D高斯位置以启动生成。经过提早兼并不同方式的3D结构消息，这些论文与缺乏初始化技术的先前方法相比，发生了更分歧的3D输入。

在像LRM这样的大规模重建模型取得成功之后，Instant3d也驳回了一个两阶段的方法。在第一阶段，它启动了多视图生成。而后，第二阶段经过基于Transformer的新型稠密视图重建器间接对生成的图像回归NeRF。结合多视角稳固分散和大规模重建模型可以有效处置多面和生成速度的疑问。

场景

最近提出了几种关于3D场景生成的方法。MVDiffusion同时生成一切图像并具备全局看法，有效处置了误差积攒的经常出现疑问。MVDiffusion的关键特点是其能够经常使用预训练的文本到图像分散模型并行处置透视图像，同时结合陈腐的对应感知留意力层来增强跨视图的交互作用。

ControlRoom3D是一种仅经过用户提供的房间格调文字形容和用户定义的房间规划来生成高品质3D房间网格的方法。便捷的基于规划的3D房间生成方法不能发生正当的网格。为了处置几何疑问并确保分歧的格调，ControlRoom3D应用了疏导全景图生成和几何对齐模块。

SceneWiz3D引入了一种从文本分解高保真度3D场景的方法。给定一段文字，首先生成规划。而后，运行粒子群优化技术依据规划智能搁置3D对象并隐式优化3D场景。

SceneWiz3D还应用RGBD全景分散模型进一步改善了场景几何。

虚构人

关于3D人物生成的几项钻研曾经应用了2D和3D数据/先验，以成功更实在和普遍的3D人物分解，其中3D数据提供准确的几何消息，而2D数据提供多样化的外观。

SofGAN提出了一个可控的人脸生成器，其几何和纹理的解耦潜空间是从未配对的2D图像和3D面部扫描数据集中学习的。3D几何消息被编码到语义占用场中，以促成分歧的自在视角图像生成。

相似地，SCULPT也提出了一种未配对的学习环节，有效地从中等规模的3D扫描数据集和大规模的2D图像数据集中学习全身衣着人类的几何和纹理的分别散布。

Get3DHuman经过结合两个预训练网络，即StyleGAN-Human图像生成器和3D重建器，防止了对3D训练数据的需求。

受近期文本到图像分解模型的严重停顿的推进，钻研人员曾经开局应用3D人物数据来增强弱小的2D分散模型，以分解具备高频细节的真切3D虚构人。

DreamFace经过将视觉言语模型与可动和基于物理的面部资源相结合，生成真切的可动3D头像头像。经过一个陈腐的纹理分散模型和预先训练的分散先验相结合，成功了真切的渲染品质。

HumanNorm提出了一个用于3D人物生成的两阶段分散pipeline，首先经过一个顺应法线的分散模型生成具体的几何消息，而后经常使用一个与生成的几何消息相对齐的分散模型分解真切的纹理。这两个分散模型都在一个包括2.9K个3D人物模型的数据集上启动了微调。

灵活3D

灵活3D生成近来惹起了宽泛关注，经过同时优化2D、3D和视频先验。开创性上班MAV3D提出了生成静态3D资源，而后经过文本到视频分散来为其参与动画，其中，引入了一种名为六面体平面的4D示意，以裁减具备期间维度的3D空间。在MAV3D之后，一系列上班基于静态到灵活的pipeline创立了灵活3D内容，同时提出了不同的4D示意和监视方法以提高生成品质。

Animate124引入了一个图像到4D的框架，其中六面体平面被4D网格编码代替。除了静态和灵活阶段外，进一步提出了一个细化阶段，用ControlNet疏导图像输入和4D创立的语义对齐。

4D-fy提出了一种多分辨率哈希编码，将3D和期间空间离开示意。它强调了3D生成品质的关键性，并应用3D先验来指点静态阶段的优化。

最近的钻研尝试基于生成的视频重建3D场景，引入了一种新的4Dpipeline，生成视频而后补充其3D示意。

4DGen经过多视角分散先验生成伪多视角视频，并基于多分辨率六面体平面优化高斯散布的重建。

DreamGaussian4d应用3D感知分散先验监视给定视频的多视角重建，并经常使用视频分散先验对相应的场景启动细化。

未来方向

虽然近年来在3D内容生成方面取得了一些停顿，但依然存在许多未处置的疑问，这些疑问将极大地影响3D内容生成方法的品质、效率和可控性。在本节中，咱们总结了这些应战，并提出了几个未来的方向。

应战

就品质而言，的AIGC-3D方法存在一些局限性。在几何方面，它们不可生成紧凑的网格，并且不可模拟正当的连线。在纹理方面，它们缺乏生成丰盛细节贴图的才干，并且很难消弭光照和阴影的影响。材质属性也得不到很好的支持。

就可控性而言，现有的文本/图像/素描到3D方法不可准确输入合乎条件要求的3D资源。编辑才干也无余。在速度方面，基于GS的前馈和SDS方法速度更快，但品质比基于NeRF的优化方法较低。总的来说，以消费级品质、规模和精度生成3D内容依然没有失掉处置。

数据

关于数据，一个应战在于搜集包括数十亿个3D对象、场景和人物的数据集。经过一个开明环球的3D游戏平台或者可以成功这一目的，用户可以自在创立和上行自己定制的3D模型。此外，从多视角图像和视频中提取丰盛的隐式3D常识将是有价值的。具备这种多样、无标签的大规模3D数据集具备推进无监视和自监视学习方法在生成式3D内容创立方面的渺小后劲。

模型

有必要探求更有效的3D示意和模型架构，能够随着数据集的增长展现出规模化的功能。这提供了一个有前景的钻研方向。在未来几年，咱们或者会看到专门用于3D内容生成的基础模型的发生。此外，未来的大型言语模型或者会成功高水平的多模态智能，例如GPT-5/6，可以通常上了解图像、文本，甚至以专家级水平运转3D建模软件。但是，确保这种弱小系统的有益开展将须要启动少量钻研。

基准测试

目前，对3D内容品质的评价关键依赖于人工评分。引入了一种用于文本到3D生成的智能化人工评价器。但是，片面评价3D输入是具备应战性的，由于它须要了解物理3D属性和预期设计。3D生成的基准测试在2D图像生成基准测试方面停顿缓慢。基于真切规范开发能片面权衡几何和纹理保真度的持重目的，可以推进该畛域的开展。

论断

在本调研中，对3D生成内容技术启动了片面的剖析，包括3D本地生成、基于2D先验的3D生成和混合3D生成。引见了一种陈腐的分类方法，繁复地总结了近期用于生成3D内容的方法的停顿。此外，还总结了该畛域尚未处置的应战，并提出了几个有前景的钻研方向。坚信这项钻研将成为一项贵重的资源，疏导着该畛域的进一步开展，钻研人员将从本钻研中吸取灵感，处置这个畛域中有目共睹的未解疑问。

原文链接:

<<一文读懂OpenGVLab带来的最新视觉预训练框架

光与AI 视障玩家的黑神话应战悟空>>

豪华 一文详解3D内容生成算法

引见

初步