ECCV 2024

2024-11-14

论文一作兰宇时为南洋理工大学（NTU）博士生，导师为 Chen Change Loy。本科毕业于北京邮电大学，目前重要钻研兴味为基于神经渲染的 3D 生成模型、3D 重建与编辑。

在 ECCV 2024 中，来自南洋理工大学 S-Lab、上海 AI Lab 以及北京大学的钻研者提出了一种原生 3D LDM 生成框架。详细来讲，他们针对现有原生 3D 生成模型可拓展性差、训练效率低、泛化性较差等疑问，提出一种基于 3D VAE 和 3D-DiT 的两阶段通用 3D 生成框架 Latent Neural ﬁelds 3D Diffusion (LN3Diff)。该方法在 Objaverse 数据集上启动了大规模训练，并在多个基准测试中取得了优秀效果，并领有更快的推理速度。

钻研背景

近年来，以可微渲染和生成模型为外围的神经渲染技术 (Neural Rendering) 取得了很大的停顿，并在新视角分解、3D 编辑和 3D 物体生成上取得了十分好的效果。但是，相较于一致图片 / 视频生成的 LDM 框架，基于 diffusion 模型的原生 3D 生成模型依然缺少通用的框架。

目前基于 SDS 蒸馏的方法受限于优化时长和饱和度较高的疑问，而基于多视图生成 + Feedforward 重建的两阶段方法受限于多视图生功效果与多样性。这些限度极大地制约了 3D AIGC 的功能与自在度。

为了处置上述疑问，钻研者提出 将基于 LDM (Latent Diffusion Model) 的原生生成框架引入 3D 生成，经过在 3D 隐空间间接启动 diffusion 采样来成功高效、高品质的 3D 资发生成 。

方法效果图

方法

方法概览图

虽然之前的上班也尝试经常使用 LDM 间接启动 3D 生成，但受制于可拓展性、生功效率与在大数据上的泛化才干，并没有成为干流的 3D 生成打算。

因此，钻研者提出 Latent Neural ﬁelds 3D Diffusion (LN3Diff)，一种实用于恣意 Neural Fields 的通用 3D 生成框架，以成功高效、高品质、可控的 3D 生成。

3D-aware VAE : 高效消息紧缩

首先，和图片 / 视频生成模型相似，3D 隐空间生成模型须要与之适配的 VAE 模型来成功高效的消息紧缩。为了更好地兼容 3D 模态，相较于间接经常使用 SD VAE 模型来启动消息编码，本文选用在大规模 3D 数据上从新训练 3D-aware VAE 模型。

在编码器端，钻研者选用 3D 物体的多视图 (multi-view images) 作为 3D VAE 的输入方式，以保管纹理建模才干并更好地兼容 2D 图像编码器的结构。同时将多视图图像、对应的深度图以及 Plucker 相机消息作为模型输入，并在 token 空间启动 3D-aware attention 运算以成功更好地 3D 分歧性。

在解码器端，为了成功更优的消息紧缩，钻研者经常使用基于 3D-DiT 的 VAE 解码器。为了更好地允许 3D-aware 操作，在 3D-DiT 解码器端提出 Self-plane attention 与 Cross-plane attention 来经常使用留意力运算在 token 空间优化 3D-aware 表白才干。随后，3D-DiT 解码器输入的 tokens 会逐渐上采样为 tri-plane, 并渲染成多视图来启动目的函数计算:

其中

为多视图重建损失，

为 VAE KL 解放，

为物体外表几何平滑解放，

用于优化 3D 材质实在性。在实验数据上，钻研者经常使用目前最大规模的开源 3D 数据集 Objaverse 来启动 VAE 训练，并发布了 DiT-L/2 尺寸的 VAE 预训练模型供用户经常使用。

DiT-based 3D Latent Diffusion Model: 通用 3D 生成框架

在第二阶段，钻研者在训练成功的 3D VAE space 上启动 conditional 的 diffusion 训练。得益于 3D-VAE 弱小的紧缩功能与隐空间的通用性，他们可以间接在紧缩获取的 3D latent space 上经常使用成熟的 conditional latent diffusion model 框架启动训练。

在 ShapeNet 等较小规模数据集上，钻研者经常使用 U-Net 模型结构启动 image-conditioned 训练；在较大规模的 Objaverse 数据集上，钻研者经常使用 3D-aware DiT 模型启动 image-condition 和 text-condition 两个版本的模型训练。得益于 3D latent space 高效的表白才干，经常使用有限的计算资源 (4xA100 80GB) 便可以成功高品质的 3D diffusion 训练，并将模型尺寸 scale up 至 DiT-L/2。

实验

数据集 ShapeNet 对比

为了与目前 3D 生成方法启动偏心对比，钻研者同时选用了小规模数据集 ShapeNet 与大规模通用 3D 数据集 Objaverse 启动实验。

结果显示，在数据集 ShapeNet 的三个子类上，本文方法在各名目的均取得了 SoTA 的功能。相比于目前 unconditional 的生成方法，本文方法同时允许 text/image conditioned 生成。

以文本为条件的Objaverse3D 生成

在大规模 3D 数据集 Objaverse 上，本文基于 DiT 的 3D 生成模型允许从文本形容间接生成丰盛、带有细节纹理的高品质 3D 资产，并允许 textured-mesh 的导出。得益于原生 3D diffusion 框架的允许，生成环节仅需数秒即可成功。

在数值目的上，LN3Diff 雷同优于目前最优的原生 text-conditioned 3D 生成方法。

以图像为条件的 Objaverse 3D 生成

思考到 3D 内容创作更多驳回图片作为参考，本文方法雷同允许在给定单目图片条件下成功高品质 3D 生成。相比于多视图生成 + 重建的两阶段方法，本文方法在 3D 生功效果、多样性以及 3D 分歧性上有更稳固的体现:

模型输入 (single image condition):

模型输入:

模型成功 / 开源

目前名目一切模型和测试 / 训练代码均已片面开源至 Github/Huggingface, 并允许多卡、智能混合精度训练、flash-attention 以及 BF16 等减速技巧。

原文链接:

<<逾越人类 AI大言语模型在高阶心智实践义务上展现惊人体现

这得来问问AI了！ AI时代下哪些专业更有出路高考完结了>>

ECCV 2024

钻研背景

方法

实验

您可能还会对下面的文章感兴趣：

随便看看