3D模型的制造门槛被打上去了！还能换装！南京大学颁布AvatarBooth 几张照片即可定制自己的3D化身

2024-11-15

苹果Vision Pro颁布后，再次掀起了一股「元宇宙」热潮，不过通往元宇宙的大门却没那么容易关上。

目前生成3D化身的方法大多依赖于低廉且复杂的采集设施来重建高保真的化身模型，往往须要多视角的图像或深度图，关于生产级别的运行开发来说是累赘不起的。

随着大规模预训练的视觉言语模型功能获取飞速优化，一种全新的流派开局兴起，即依据文本或图像来生成3D人类化身模型，宽泛运行于数字人、电影业和虚构理想等畛域。

最近，南京大学的钻研人员提出了一种全新的方法AvatarBooth，可以依据文本揭示或图像汇合生成高品质和可定制的化身，能够准确反映特定集体的视觉和文字特色。

论文链接：

名目链接：

与之前只能基于繁难的文本形容生成化身的方法不同，该方法能够从恣意捕捉的面部或身材图像生成共性化头像，并且也允许基于文本的模型生成和编辑。

AvatarBooth学习了一个神经隐含外表来示意人类化身的状态和外观，区分由脸部和身材的预训练或微调的潜分散模型来监视学习。

并且在外观定制生成的义务中，文中提出了姿态分歧的解放，以增强分散模型的微调，可以提供了更准确的多视图监视，在姿态空间中具备分歧的外观。

此外，模型中还包括一个多分辨率的SDS打算，可以从粗到细地预测化身的精细结构和外观。

只须要一团体的几张照片，模型就可以分解3D化身，不只具备共性化共同的外观，而且还可以合乎输入文本揭示中指定的笼统特色，比如「戴眼镜」或「某种格调的帽子」等属性，用户可以很繁难地编辑和修正化身的全体视觉笼统。

Avatarbooth

文中提出的生成框架以一组图像或文字揭示作为输入，并分解一个由神经隐式外表（NeuS，Neural Implicit Surfaces）表征的的三维细节化身。

整个生成pipeline由三个模块组成：

1. 在化身建模模块（avatar modeling module）中，将一个简化的SMPL渲染模型训练为神经隐式场（neural implicit field），由一个SDF网络和一个着色网络（color network）组成。

2. 在渲染模块（rendering module）中，从位于化身空间周围的预约义虚构摄像机中取得三种类型的渲染结果。

为了同时优化人脸和人体，钻研人员驳回了两套渲染参数区分以人脸和整团体体为核心

3. 在评分蒸馏采样（SDS，Score Distillation Sampling）训练模块中，选用或联合预训练和微调的潜分散模型，而后经过渲染来监视NeuS的训练。

Dual Model Fine-tuning

钻研人员提出应用两个分散模型来监视整个身材和头部的训练，并且对这两个模型区分启动微调。

只管之前的上班参与了面部周围的渲染样本以改善面部细节，但并没无应用微调视觉言语模型的后劲，所以不能提高共性化化身生成的功能。

钻研人员刚开局只经常使用一个分散模型来监视全身的训练，可以观察到，繁多的SDS损失与DreamBooth3D的微调战略不可在面部外观和身材衣服的建模之间取得平衡。

详细来说，在早期的训练步骤中，模型可以学习到身材上衣服的外观，但面部外观依然不明晰；假设启动更多的训练步骤，面部外观会变得明晰，但全局特色如衣服的样式或者会适度顺应输入的图像，也象征着在混合形式下很难经过文本揭示编辑身材。

此外，还可以观察到，DreamBooth3D的Img2Img阶段不能发生虔诚于输入图像的准确的人物身份，或者是由于面部外观和身材外观之间的比例差异较大，造成SDS训练中收敛率不分歧。

为了处置这个疑问，钻研人员提出了双模型微调（dual model fine-tunign）战略，当在外观定制形式或混合形式运转时，将输入图像分为全身照（body shot）和头像（headshot），区分用于微调两个预训练的模型。

在SDS训练阶段，框架对脸部和全身周围的摄像头启动随机采样，而后驳回不同的分散模型来指点脸部和身材的生成，区分驳回面向头部的渲染和全身的渲染。

姿态分歧性解放

间接应用DreamBooth和基于SDS的方法不可生成令人满意的化身结果，由于DreamBooth模型偏差于适度顺应微调时期经常使用的相机视图。

为了增强由微调分散模型生成化身的面部细节，钻研人员经常使用ControlNet来优化分解图像的多视图分歧性，从而消弭不受控制的人体姿态的搅扰，并生成高品质的外观和几何状态。

多分辨率SDS

由于间接渲染来自神经隐含场的高分辨率图像在计算上老本很高，一个经常出现的处置打算是渲染低分辨率的图像，而后将其上采样到更高的分辨率启动SDS训练；将上采样的图像编码到潜空间后，用于监视神经隐含场的训练。

不过钻研人员观察到，间接参与上采样的分辨率会造成训练解体或不分歧的外观，所以文中提出了一个多分辨率的优化战略，逐渐提高上采样的分辨率，使SDS的训练愈加稳固。

从NeuS渲染的图像开局，经过训练几步512×512的上采样分辨率来初始化网络，而后逐渐提高监视分辨率到640×640和768×768

在初期的训练步骤中，较低的分辨率为训练环节提供了一个毛糙但持重的终点，而在前面的步骤中较高的分辨率有助于学习详细的几何状态和高品质的外观。

试验结果也证实了这个繁难的战略可以有效提高早期训练阶段的稳固性，并提高了外观品质，最终可以生成一个更准确且视觉上可信的化身。

运转形式

依据预训练的分散模型在SDS训练中的经常使用形式，Avatarbooth框架可以在三种形式下运转：

1. 揭示生成形式（Prompt generative mode）

与AvatarCLIP和AvatarCraft相似，只经常使用文本揭示作为输入，生成合乎形容的化身，并没有对预训练的分散模型启动微调。

由于文本揭示只能形容通用的或妇孺皆知的外表，所以这种形式只实用于分解具备大抵婚配的外表或名人的头像。

2. 外观定制形式（Appearance customized mode）

钻研人员提出定制分散模型以及学习到化身笼统，以婚配给定的一组图像的外观，其中图像可以是从恣意视角自在拍摄的全身或面部图像。

即使输入的图片中蕴含不完整的或稍有矛盾的笼统，详细的外观和服装的细节也会被传递到生成化身模型上。

3. 混合形式（Hybrid mode）

上述两种形式可以在一个模型生成中同时启动，可以成功较为复杂的化身条件生成，比如在依据输入图片分解外观的前提下，经过文字揭示修正主体的衣服、发型、年龄、胡须等。

试验结果

用户钻研

为了量化化身的生成品质，钻研人员招募了30名志愿者，并用对比方法CLIP-Actor、AvatarCLIP和TEXTure从随机选用的文本揭示中生成10个化身，让用户从四个方面（与文本揭示的对应性、外观品质、几何品质和面部保真度）对结果启动评价，打分范围从1（最差）到5（最好）。

从结果中可以看到，文中提出的新方法在四个目的上都取得了最高分，证实了该模型有才干生成具备更详细外观和几何状态的化身。

文本到图像的度量

目前还没有可以间接定量评价文本到3D生成模型的目的，所以钻研人员将生成的化身模型渲染成图像，而后经常使用文本到图像的目的启动评价。

详细的流程是先将其余方法所生成的化身渲染成25个不同视角的2000张图像，而后用文本到图像的度量目的PickScore来对比化身的品质，能够依据学习的人类偏好来权衡生成内容的实在性。

PickScore结果显示，文中提出的方法比CLIP-Actor、AvatarCLIP和TEXTure要好很多，即具备更好的客观品质。

参考资料：

3D化身图像照片

<<Canary Copilot 微软颁布键可自定义关上运行键盘 27729 11 预览版 Windows

如何经常使用虚构理想创立可继续修建>>

3D模型的制造门槛被打上去了！ 还能换装！南京大学颁布AvatarBooth 几张照片即可定制自己的3D化身