ACM MM24

2024-11-14

文章链接：链接：

总结速览

处置的疑问

Hi3D框架旨在处置从高分辨率图像生成3D模型时面临的应战，特意是如何在多个视角之间坚持几何分歧性和高品质的纹理细节。传统方法往往在生成多视角图像时不足时期分歧性，造成生成的3D内容在视觉上不连接。

提出的打算

Hi3D提出了一种基于视频分散的新范式，经过将单个图像从新定义为多视角图像，构成一个序列图像生成的环节（即轨道视频生成）。该打算应用3D感知先验（如相机姿态条件）来增强预训练的视频分散模型，从而生成低分辨率的多视角图像。接着，经常使用学习到的3D感知视频到视频的细化器进一步优化这些图像的分辨率和细节。

运行的技术

视频分散模型：用于生成多视角图像，特意关注时期分歧性。3D感知先验：经过相机姿态条件增强模型的生成才干。3D高斯点云：用于进一步增强生成的多视角图像，以便启动高保真网格重建。

到达的成果

试验结果标明，Hi3D能够生成具备高度详细纹理的优越多视角分歧图像。少量关于新视图分解和单视图重建的试验验证了该方法在生成高保真3D模型方面的有效性，清楚优化了生成内容的几何分歧性和视觉品质。

方法

本文设计了一种新的高分辨率图像到3D生成架构， 称为Hi3D，翻新性地将视频分散模型整合到3D感知的360°序列图像生成中（即轨道视频生成）。 本文的登程点是应用视频分散模型中固有的时期分歧性常识，以增强3D生成中的视角分歧性。首先在本节中详细论述图像到3D生成的疑问表述,再详细引见Hi3D框架中两阶段视频分散范式的细节。

第一阶段，本文从新构建了预训练的图像到视频分散模型，参与了相机姿态的条件，而后在3D数据上启动微调，以成功轨道视频生成。在第二阶段，本文经过3D感知的视频到视频细化器进一步优化多视角图像的分辨率。最后，本文引入了一种陈腐的3D重建 pipeline，从这些高分辨率的多视角图像中提取高品质的3D网格。Hi3D的全体架构如下图2所示。

疑问表述

第一阶段：基本多视图生成

之前的图像到3D生成方法理论依赖于预训练的图像分散模型来成功多视图生成。这些方法理论经过注入多视图交叉留意力层，将图像分散模型中的2D UNet裁减为3D UNet。这些新增的留意力层在3D数据集上从头开局训练，以学习多视图分歧性。但是，为了确保训练的稳固性，这些方法中的图像分辨率被限度在256×256。正如Zero123所指出的，坚持预训练图像分散模型中的原始分辨率（512×512）会造成收敛速度变慢和方差参与。因此，由于这种低分辨率限度，这些方法不可齐全捕捉输入2D图像中的丰盛3D几何和纹理细节。

此外，钻研者们观察到这些方法依然存在多视图不分歧的疑问，特意是关于复杂物体的几何状态。这或者是由于底层预训练的2D分散模型仅在单个2D图像上训练，不足对多视图相关性的3D建模。为了处置上述疑问，将单张图像到多视图图像从新定义为3D感知序列图像生成（即轨道视频生成），并应用预训练的视频分散模型成功这一目的。特意是，从新应用Stable Video Diffusion (SVD) 从输入图像生成多视图图像。SVD的吸引力在于它在少量不同的视频上启动了训练，使网络在训练时期能够遇到物体的多个视图。这或者缓解了3D数据稀缺疑问。此外，SVD曾经经过期期留意力层明白建模了多帧相关。咱们可以承袭这些时期层中固有的多帧分歧性常识，以谋求3D生成中的多视图分歧性。

w（t）是一个对应的权重因子。本文并没有间接在高分辨率（即 1024 × 1024）下训练去噪神经网络，而是以粗到细的模式将这个复杂的疑问分解为更稳固的子疑问。在第一阶段，经常使用公式 (4) 在 512 × 512 分辨率下训练去噪神经网络，以生成低分辨率的多视角图像。第二阶段则进一步将 512 × 512 的多视角图像转换为高分辨率（1024 × 1024）的多视角图像。

第 2 阶段：3D 感知多视图细化

阶段一输入的 512 × 512 多视角图像展现了良好的多视角分歧性，但仍未能齐全捕捉输入的几何和纹理细节。为了处置这个疑问，参与了一个额外的阶段，经过新的 3D 感知视频到视频的精细化器，进一步加大第一阶段的低分辨率输入，从而生成更高分辨率（即 1024 × 1024）的多视角图像，具备更精细的 3D 细节和分歧性。

3D 网格提取

试验

试验设置

数据集与评价。 经过在两个重要义务上启动试验来实证验证本文的Hi3D模型的优越性，即新视图分解和单视图重建。在Google扫描物体（GSO）数据集上启动定量评价。在新视图分解义务中，驳回三种罕用目的：PSNR、SSIM 和LPIPS。在单视图重建义务中，经常使用Chamfer距离和体积IoU来权衡重建3D模型的品质。此外，为了评价本文Hi3D的泛化才干，对来自互联网的各种格调的单幅图像启动了定性评价。

成功细节。 在基本多视图生成的第一阶段，将视频数据集缩放为512 × 512的视频。在多视图精细化的第二阶段，不只经常使用第一阶段的输入，还驳回分解数据生成战略（相似于传统的图像/视频复原方法启动数据增强。该战略旨在减速训练环节并增强模型的鲁棒性。全体试验在八个80G A100 GPU上启动。详细来说，第一阶段教训了80,000个训练步骤（大概3天），学习率为1 × 10⁻⁵，总批量大小为16。第二阶段蕴含20,000个训练步骤（约3天），学习率为5 × 10⁻⁵，批量大小缩小为8。

对比方法。 本文将Hi3D与以下最先进的方法启动比拟：RealFusion和Magic123应用2D分散模型（Stable Diffusion）和SDS损失从单视图图像重建。Zero123学习从不同视角生成同一物体的新视图图像，并可以与SDS损失结合启动3D重建。Zero123-XL和Stable-Zero123经过提高训练数据品质进一步更新Zero123。One-2-3-45经过多视图图像（即Zero123的输入）间接学习显式3D示意，应用3D有符号距离函数（SDFs）。Point-E和Shap-E在一个宽泛的外部OpenAI 3D数据集上启动预训练，从而能够间接将单视图图像转换为3D点云或以MLP编码的状态。SyncDreamer引入了3D全局特色体积以坚持多视图分歧性。Wonder3D和EpiDiff应用3D留意力机制，经过交叉留意力层使多视图图像之间能够相互作用。值得留意的是，在新视图分解义务中，本文仅蕴含局部基线（即Zero123系列、SyncDreamer、EpiDiff），以便与本文的Hi3D启动偏心比拟。

陈腐的视图分解

下表1总结了新视图分解义务的功能比拟，下图3展现了在两种不同视图下的定性结果。Hi3D在功能上一直优于现有的基于2D分散的方法。详细来说，Hi3D的PSNR到达了24.26%，比最佳竞争对手EpiDiff高出3.77%。Hi3D的最高图像品质得分突显了视频分散基于范式的关键好处，即应用3D先验常识来优化新视图分解的成果。

由于图像独立翻译，Zero123系列（例如，Stable-Zero123）未能成功多视图分歧性结果（例如，上图3（a）中闹钟头部在不同视图下的一/两个环）。SyncDreamer和EpiDiff经过应用3D两边消息或经常使用多视图留意机制进一步增强了多视图分歧性。但是，由于遭到限度的低图像分辨率（256×256），它们的新视图结果依然存在含糊和不实在的疑问（例如，上图3（a）中含糊的闹钟数字）。同样，经过开掘3D先验并经过视频分散模型优化多视图图像分辨率，本文的Hi3D成功生成了多视图分歧且高分辨率的1024×1024图像，从而成功了最高的图像品质（例如，上图3（a）中明晰可见的闹钟数字）。

单视图重建

下表2中评价了Hi3D的单视图重建功能。此外，下图4展现了Hi3D与现有方法的定性比拟。总体而言，Hi3D在两个目的上均优于最先进的方法。One-2-3-45间接应用Zero123的多视图输入启动重建，但其3D分歧性较差，理论造成生成的网格过于平滑，细节较少。Stable-Zero123经过经常使用更高品质的训练数据进一步提高了3D分歧性，但依然存在缺失或过于平滑的网格疑问。与Zero123中的独立图像翻译不同，SyncDreamer、EpiDiff和Wonder3D经过2D分散模型同时启动多视图图像翻译，从而成功了更好的3D分歧性。但是，由于低分辨率多视图图像的限度，它们在重建复杂的3D网格和丰盛细节方面依然面临应战。相比之下，Hi3D充散施展了预训练视频分散模型中固有的3D先验常识，并将多视图图像优化到更高的分辨率。这种设计使得3D网格重建的品质更高，细节更丰盛（例如，下图4中鸟和企鹅的脚部）。

消融钻研

3D感知多视图优化阶段的成果。 在这里审核第二阶段（即3D感知多视图优化）对新视图分解的有效性。下表3详细列出了Hi3D的消融试验结果。详细而言，第二行去除了整个第二阶段，功能大幅降低。这验证了经过3D感知视频到视频的优化器优化多视图图像分辨率的有效性。此外，当仅去除第二阶段中的深度条件（第三行）时，功能清楚降低，这标明深度条件在增强多视图图像之间的3D几何分歧性方面的有效性。

3D重建中插值视图数量的影响。 下表4显示了经常使用不同数量的插值视图

<<3B Mistral 颁布反派性边缘模型功能与隐衷双料俱佳 AI 和8B Ministral

14 项义务测上去 GPT4V Gemini等多模态大模型竟都没什么视觉感知才干>>