ECCV 2024

论文一作兰宇时为南洋理工大学(NTU)博士生,导师为 Chen Change Loy。本科毕业于北京邮电大学,目前重要钻研兴味为基于神经渲染的 3D 生成模型、3D 重建与编辑。

在 ECCV 2024 中,来自南洋理工大学 S-Lab、上海 AI Lab 以及北京大学的钻研者提出了一种原生 3D LDM 生成框架。详细来讲,他们针对现有原生 3D 生成模型可拓展性差、训练效率低、泛化性较差等疑问,提出一种基于 3D VAE 和 3D-DiT 的两阶段通用 3D 生成框架 Latent Neural fields 3D Diffusion (LN3Diff)。该方法在 Objaverse 数据集上启动了大规模训练,并在多个基准测试中取得了优秀效果,并领有更快的推理速度。

钻研背景

近年来,以可微渲染和生成模型为外围的神经渲染技术 (Neural Rendering) 取得了很大的停顿,并在新视角分解、3D 编辑和 3D 物体生成上取得了十分好的效果。但是,相较于一致图片 / 视频生成的 LDM 框架,基于 diffusion 模型的原生 3D 生成模型依然缺少通用的框架。

目前基于 SDS 蒸馏的方法受限于优化时长和饱和度较高的疑问,而基于多视图生成 + Feedforward 重建的两阶段方法受限于多视图生功效果与多样性。这些限度极大地制约了 3D AIGC 的功能与自在度。

为了处置上述疑问,钻研者提出 将基于 LDM (Latent Diffusion Model) 的原生生成框架引入 3D 生成,经过在 3D 隐空间间接启动 diffusion 采样来成功高效、高品质的 3D 资发生成

方法效果图

方法

方法概览图

虽然之前的上班也尝试经常使用 LDM 间接启动 3D 生成,但受制于可拓展性、生功效率与在大数据上的泛化才干,并没有成为干流的 3D 生成打算。

因此,钻研者提出 Latent Neural fields 3D Diffusion (LN3Diff),一种实用于恣意 Neural Fields 的通用 3D 生成框架,以成功高效、高品质、可控的 3D 生成。

3D-aware VAE : 高效消息紧缩

首先,和图片 / 视频生成模型相似,3D 隐空间生成模型须要与之适配的 VAE 模型来成功高效的消息紧缩。为了更好地兼容 3D 模态,相较于间接经常使用 SD VAE 模型来启动消息编码,本文选用在大规模 3D 数据上从新训练 3D-aware VAE 模型。

在编码器端,钻研者选用 3D 物体的多视图 (multi-view images) 作为 3D VAE 的输入方式,以保管纹理建模才干并更好地兼容 2D 图像编码器的结构。同时将多视图图像、对应的深度图以及 Plucker 相机消息作为模型输入,并在 token 空间启动 3D-aware attention 运算以成功更好地 3D 分歧性。

在解码器端,为了成功更优的消息紧缩,钻研者经常使用基于 3D-DiT 的 VAE 解码器。为了更好地允许 3D-aware 操作,在 3D-DiT 解码器端提出 Self-plane attention 与 Cross-plane attention 来经常使用留意力运算在 token 空间优化 3D-aware 表白才干。随后,3D-DiT 解码器输入的 tokens 会逐渐上采样为 tri-plane, 并渲染成多视图来启动目的函数计算:

其中

​为多视图重建损失,

为 VAE KL 解放,

为物体外表几何平滑解放,

用于优化 3D 材质实在性。在实验数据上,钻研者经常使用目前最大规模的开源 3D 数据集 Objaverse 来启动 VAE 训练,并发布了 DiT-L/2 尺寸的 VAE 预训练模型供用户经常使用。

DiT-based 3D Latent Diffusion Model: 通用 3D 生成框架

在第二阶段,钻研者在训练成功的 3D VAE space 上启动 conditional 的 diffusion 训练。得益于 3D-VAE 弱小的紧缩功能与隐空间的通用性,他们可以间接在紧缩获取的 3D latent space 上经常使用成熟的 conditional latent diffusion model 框架启动训练。

在 ShapeNet 等较小规模数据集上,钻研者经常使用 U-Net 模型结构启动 image-conditioned 训练;在较大规模的 Objaverse 数据集上,钻研者经常使用 3D-aware DiT 模型启动 image-condition 和 text-condition 两个版本的模型训练。得益于 3D latent space 高效的表白才干,经常使用有限的计算资源 (4xA100 80GB) 便可以成功高品质的 3D diffusion 训练,并将模型尺寸 scale up 至 DiT-L/2。

实验

数据集 ShapeNet 对比

为了与目前 3D 生成方法启动偏心对比,钻研者同时选用了小规模数据集 ShapeNet 与大规模通用 3D 数据集 Objaverse 启动实验。

结果显示,在数据集 ShapeNet 的三个子类上,本文方法在各名目的均取得了 SoTA 的功能。相比于目前 unconditional 的生成方法,本文方法同时允许 text/image conditioned 生成。

以文本为条件的Objaverse3D 生成

在大规模 3D 数据集 Objaverse 上,本文基于 DiT 的 3D 生成模型允许从文本形容间接生成丰盛、带有细节纹理的高品质 3D 资产,并允许 textured-mesh 的导出。得益于原生 3D diffusion 框架的允许,生成环节仅需数秒即可成功。

在数值目的上,LN3Diff 雷同优于目前最优的原生 text-conditioned 3D 生成方法。

以图像为条件的 Objaverse 3D 生成

思考到 3D 内容创作更多驳回图片作为参考,本文方法雷同允许在给定单目图片条件下成功高品质 3D 生成。相比于多视图生成 + 重建的两阶段方法,本文方法在 3D 生功效果、多样性以及 3D 分歧性上有更稳固的体现:

模型输入 (single image condition):

模型输入:

模型成功 / 开源

目前名目一切模型和测试 / 训练代码均已片面开源至 Github/Huggingface, 并允许多卡、智能混合精度训练、flash-attention 以及 BF16 等减速技巧。

原文链接:​ ​​ ​

您可能还会对下面的文章感兴趣: