文本生成高品质3D模型仅需1分钟

2024-11-14

环球社交、科技巨头Meta颁布了全新文生3D模型——Meta 3D-Gen。

用户经过Meta 3D-Gen仅需1分钟就能生成人物、生物、道具、服饰、工业设计等不同类型的高品质3D模型。

Meta 3D-Gen不只生成的内容是高分辨率的纹理和材质贴图，还允许物理渲染光影效果十分好，实用于游戏开发、电影制造、虚构事实、修树立计等畛域，协助开发人员节俭少量期间。

多视图到3D重建是Meta 3D-Gen的两大外围模块之一，重要将用户输入的文本揭示转换为3D空间中的详细外形，包括外形、结构、材质、纹理等。例如，“一只衣着绿色羊毛毛衣的暴龙”，须要依据文本中的绿色、毛衣、暴龙等元素解析出对应的建模。

首先，Meta经常使用了自研的一个多视图和多通道版本的文本到图像生成模型Emu，来生成一系列相对分歧的物体视角图像。该环节就像是经过不同角度拍摄同一物体的照片，为后续的3D模型重建提供了多视角的视觉消息。

Emu模型经过精心微调，经常使用了分解3D数据的渲染图像，以便在视图空间中启动多视图生成，同时也在UV空间中启动生成，从而发生更优质的纹理。

而后，从这些多视角图像中提取出3D物体的初步版本，将其转换为体积空间中的示意。这是经过从多个角度的图像中重建3D外形的环节，相似于从多个快照中拼接出一个平面模型。

重建后的3D模型不只蕴含了物体的外形，还附带了初步的纹理和物理渲染材质贴图，这关于在实在环球中运行十分有协助。

为了更精准地失掉3D外形，Meta 3D-Gen还经常使用了基于有符号距离场的提升示意法 ，这是一种用于形容3D外形的方法，可以计算出物体外表相关于某点的距离，关于坚持外形的细节和准确性十分有效，能够在保障3D模型结构完整性和细节丰盛性的同时，也确保了模型的拓扑品质。

在第一阶段失掉精准的3D模型之后，就须要借助3D纹理生成进一步细化、增强3D模型效果。

纹理细化是基于初始的3D模型和用户提供的文本形容，生成一系列物体的多视图图像。这些图像不只仅是便捷的渲染，还蕴含了物体的光照外观以及其固有色，也就是在没有外部光源影响下的物体基本色彩。

在提升的环节中，Meta 3D-Gen经过一个神经网络可将多个视角下的消息启动融合，生成一个在视觉上连接且分歧的纹理 。为了增强纹理的效果，Meta 3D-Gen还内置了提升增强神经网络，输入的视图从新投影到纹理空间，生成2K、4K或更明晰的纹理细节。

为了测试该模型的功能，钻研人员将Meta 3D-Gen与CSM Cube 2.0、Tripo3D、Rodin Gen-1 V0.5和Meshy v3出名文本生成3D模型启动了综合对比。

结果显示，Meta 3D-Gen在文本语义恢复、视觉品质和纹理、生功效率等关键评测目的上逾越了这些模型。尤其是Meta 3D-Gen的生功效率十分高，比现有模型快3—60倍左右。

原文链接:

<<CVPR`24

文本生成高品质3D模型 仅需1分钟