文本间接生成多视角3D图像 Meta推出翻新模型

2024-11-15

随着分散模型的不时翻新，文生图畛域发生了Midjourney、Stable Diffusion、DALL-E 3等一系列出名产品。

但在文本生成多视角3D图像方面不时存在诸多技术难点，Meta和德国慕尼黑工业大学的钻研人员联结开发了翻新模型——ViewDiff。

用户经过文本、图像或二者结合经常使用，就能生成高品质多视角3D图像，可协助游戏开发、元宇宙等行业极速构建模型。

依据测试数据显示， ViewDiff生成的图像在分歧性和视觉品质方面十分杰出，并将FID、KID的数据，区分优化了30%和37% 。

论文地址：

名目地址：

目前，文本生成分歧性、多视角3D图像重要有三大难点： 理论不可生成实在的背景环境，大少数只能在便捷或纯色背景上渲染3D物体模型,不足与人造环境的融合；

生成图像的品质和多样性不现实，因为受限于训练数据的规模,一些方法只能发生品质有限、格调繁多的输入；

不足多视角和分歧性，大少数方法都是独立生成繁多视角,不可确保同一物体在不同视角下的几何和外观的分歧性,这极大限度了3D图像的适用性。

而ViewDiff经常使用了一种翻新架构，先经常使用文生图模型作为先验常识和图像流生成器，而后经过显式的3D建模为图像赋予生成分歧性、多视角3D图像的才干。

增强U-Net架构

为了使文生图模型能够有效捕捉3D几何和全局格调,钻研人员对原有U-Net架构启动了翻新,参与了两种新的层:跨帧留意力层和投影层。

1）跨帧留意力层： 重要交流了U-Net中的规范自留意力层。不同于只关注单个图像外部的特色,跨帧留意力层将每个图像的特色与其余一切图像的特色启动交互,成功了跨图像的格调婚配。

2）投影层： 只管跨帧留意力层能协调全局格调,但它不可显式地对3D几何常识启动建模。

因此,钻研人员又开发了投影层,将多视图2D特色集成为一个显式的3D体素特色,再将其渲染回2D特色,保障了输入图像的3D几何分歧性。

原U-Net架构在跨帧留意力层和投影层的增强下,使得ViewDiff能够在各个尺度上对2D特色启动3D感知建模,并成功多视图图像的格调协调,最终生成分歧性、高品质的3D图像。

自回归生成

为了在恣意视角上生成更多的3D分歧性图像，ViewDiff开发了自回归生成模块，将准许从已生成的图像继续生成更多的图像，以出现不同的视角。

首先，给定一个初始图像，可以是输入的多视角生成的图像中的恣意一个。这个初始图像将作为生成环节的终点。

而后初始图像经过编码器网络，提取出特色示意。编码器网络理论由卷积层和池化层组成，用于逐渐减小特色图的尺寸和提取初级语义特色 。

接着编码器的特色示意被送入解码器网络，解码器网络的结构与编码器同样。解码器逐渐参与特色图的尺寸，并经过反卷积等操作生成更高分辨率的图像。

解码器的每个步骤都会生成一个新的图像，并将其与之前生成的图像启动叠加，构成一个新的输入。

这个新的输入将作为下一个步骤的输入，以生成下一个新的图像。经过不时迭代生成新的图像，使得ViewDiff能够在恣意视角上生成更多的3D分歧性图像。

原文链接:

Lumina>>