腾讯&amp 新加坡国立颁布IFAdapter 即插即用优化文生图模型实例特色和位置生成准确性

2024-11-15

文章链接：名目链接：

总结速览

处置的疑问 :传统的文本生成图像 (T2I) 分散模型在生成单个实例时成果很好，但在多个实例的特色生成和准确定位上存在应战。虽然规划生成图像 (L2I) 义务经过经常使用边界框提供空间控制来处置定位疑问，但在实例特色的准确生成上依然无余。

提出的打算 :为了处置这一疑问，提出了 实例特色生成 (IFG) 义务，旨在同时确保生成实例的准确定位和特色保真度。为此，引入了 实例特色适配器 (IFAdapter) ，作为一种模块，能够在不同模型中灵敏运行。该模块经过额外的外观tokens和实例语义图对齐实例特色与空间位置，从而增强特色体现。

运行的技术 :IFAdapter 应用了 外观tokens 来增强特色生成，并经过 实例语义图 将实例特色与空间位置对齐。这种方法可作为分散环节中的模块，适配不同的社区模型。

到达的成果 :试验结果标明，IFAdapter 在定量和定性评价中均优于其余模型，有效优化了实例的定位准确性和特色保真度。同时，为此义务奉献了 IFG 基准 ，并开发了验证pipeline，主观比拟不同模型生成实例的才干。

方法

疑问定义

在本上班中，旨在控制实例特色和位置的生成。经常使用开源的 Stable Diffusion 作为基础模型。为了处置实例特色失落的疑问，引入了外观tokens，作为高频消息的补充。此外，为了引入更强的空间先验，确保对位置和特色的准确控制，应用外观tokens构建了 实例语义图 ，以疏导生成环节。

外观tokens

L2I Stable Diffusion 经过引入部分形容和位置作为附加条件，具备丰盛特色的实例。现有的方法理论经常使用预训练的 CLIP 文本编码器生成的高低文明token（即文本完结token，EoT token）来疏导实例特色的生成。虽然 EoT token 在前景生成中起着关键作用，但重要用于生成粗略的结构内容，因此须要额外的标志来补充高频细节。因此，现有的 L2I 方法若摈弃其余一切标志，则不可生成详细的实例特色。

一种便捷的缓解方法是经常使用 CLIP 文本编码器生成的一切 77 个 tokens作为实例级条件。但是，这种方法在推理和训练环节中都会清楚参与内存需求。此外，这 77 个 tokens中蕴含少量的填充token，它们对生成没有奉献。虽然移除填充 token可以降低计算老本，但由于形容长度的不同，这种战略不可与批量训练兼容。为了处置这一疑问，本文提出将特色消息紧缩到一小组外观tokens中，并应用这些tokens来补充 EoT token。

实例语义图疏导生成

除了确保生成详细的实例特色外，IFG 义务还要求在指定位置生成实例。先前的方法经常使用顺序锚定标志作为条件，这种方法缺乏强壮的空间对应性，或者会造成特色错位或走漏等疑问。因此，引入了一种名为 实例语义图 (ISM) 的地图，作为更强的疏导信号。由于一实际例的生成都由 ISM 疏导，在构建该语义图时必定思考两个重要疑问：

为了处置这些疑问，首先独立生成每个实例，而后在堆叠区域启动聚合。以下部分将详细解释这些环节。

单实例特色生成

门控语义融合

学习环节

在训练环节中，解冻了 SD 的参数，仅训练 IFAdapter。用于训练的损失函数是蕴含实例级条件的 LDM 损失：

为了使本文的方法在推理阶段口头无分类器疏导 (CFG)，在训练时期将全局条件y和部分条件c随机设置为 0。

试验

实施细节

训练数据集 。经常使用 COCO2014数据集和 LAION 5B 的 100 万子集作为数据起源。应用 Grounding-DINO和 RAM对图像中的实例位置启动标注。而后，咱们经常使用最先进的视觉言语模型 (VLMs) QWen和 InternVL为图像和单个实例生成题目。

训练细节 。经常使用 SDXL，因其弱小的细节生成才干，作为咱们的基础模型。IFAdapter 运行于 SDXL 的中层和解码器层的子集，这些层对前景生成奉献清楚。经常使用 AdamW优化器，以学习率 0.0001 训练 IFAdapter 100,000 步，批量大小为 160。在训练环节中，有 15% 的概率摈弃部分形容，30% 的概率摈弃全局题目。

在推理阶段，经常使用 EulerDiscreteScheduler启动 30 次采样步骤，并将无分类器疏导 (CFG) 比例设置为 7.5。

试验设置

将本文的方法与先前的 SOTA L2I 方法启动了比拟，包括基于训练的方法 InstanceDiffusion、MIGC和 GLIGEN，以及无训练方法 DenseDiffusion和 MultiDiffusion。

评价数据集

依照先前的设置（Li et al., 2023; Zhou et al., 2024b; Wang et al., 2024c），在规范的 COCO2014 数据集上构建了 COCO IFG 基准。详细而言，经常使用与训练数据相反的方法对验证集中的位置和部分形容启动标注。每种方法都须要生成 1,000 张图像启动验证。

评价目的

关于 IFG 义务的验证，模型必定生成具备准确特色的实例，并在适当的位置生成。

比拟

定量剖析

下表 1 展现了在 IFG 基准上的定性结果，包括 IFS 率、空间准确性和图像品质的目的。

IFS 率 为了计算 IFS 率，咱们应用了三个最先进的视觉-言语模型 (VLMs)：QWenVL、InternVL 和 CogVL。这种多模型方法确保了更片面和严厉的验证。如上表 1 所示，本文的模型在一切三个 IFS 率目的上均优于基线模型。引入外观tokens和在训练中归入密集实例形容清楚优化了咱们模型生成精确实例细节的才干。值得留意的是，InstanceDiffusion 在 IFS 率上体现优于其余基线模型。这或者是由于其训练数据集也蕴含了密集的实例级形容。这一观察进一步强调了高品质实例级标注的必要性。

空间准确性 如上表 1 所示，IFAdapter 在 GroundingDINO AP 中取得了最佳结果。这一成功归因于地图疏导生成设计，该设计结合了额外的空间先验，从而成功了更准确的实例位置生成。

图像品质 如前面表 1 所示，本文的方法在 CLIP 评分上体现更高，标明增强部分细节有助于图像与题目分歧性的同时提高。此外，本文的方法成功了更低的 FID，说明本文的方法生成的图像品质高于基线模型。将这一改善归因于本文模型的适配器设计，该设计使得在不清楚障碍图像品质的状况下成功空间控制。

定性剖析

在下图 1(a) 中，咱们展现了生成的具备多个复杂实例的场景结果。钻研者们进一步在下图 3 中评价了模型生成多样化特色实例的才干。如所示，本文的方法在各种实例细节的保真度方面体现最佳。

用户钻研

虽然 VLMs 可以在必定水平上验证明例细节，但与人类感知相比仍存在差距。因此，约请了专业标注员进后退一步验证。

设置启动了一个蕴含 270 个疑问的钻研，每个疑问都关联到一个随机抽样的生成图像。评价者被要求对图像品质、实例位置准确性和实例细节启动评分。总共搜集了 30 个有效照应，发生了 7,290 个评分。

结果如下表 2 所示，本文的方法在一切三个维度上都到达了最高的分数和用户偏好率。值得留意的是，这些维度的趋向与表 1 中的结果分歧，进一步证明了 VLM 验证的有效性。

与社区模型的集成

由于 IFAdapter 的即插即用设计，它可以对预训练的分散模型施加空间控制，而不会清楚影响生成图像的格调或品质。这使得 IFAdapter 能够有效地与各种社辨别散模型和 LoRAs集成。如下图 4 所示，将 IFAdapter 运行到几个社区模型，包括 PixlArt、LeLo-LEGO、Claymation和 BluePencil。生成的图像不只合乎指定的规划，而且准确反映了各自的格调。

消融钻研

本文引入外观tokens以处置 EoT tokens在生成高频细节方面的无余。这个消融钻研重要讨论了这两种标志类型在实例生成中的作用。

appearance tokens. 如下表 3 所示，去除外观tokens会造成模型的 IFS 率和 FID 降低，标明详细特色的失落。此外，如下图 5 所示，没有外观tokens生成的图像体现出实例特色的不婚配，进一步证明了外观tokens重要担任生成高频外观特色。

在没有 EoT token的状况下生成图像时，IFS 率清楚降低。这重要是由于 EoT token担任生成实例的粗略语义。此外，上图 5 指出，去除 EoT token会造成语义级别的疑问，照实例类别失误和实例遗漏。

论断

本文提出了 IFAdapter，以对预训练的 Stable Diffusion 模型启动细粒度的实例级控制。经过引入外观tokens，增强了模型生成详细实例特色的才干。应用外观tokens构建实例语义图，将实例级特色与空间位置对齐，从而成功了弱小的空间控制。定性和定量结果都标明本文的方法在生成详细实例特色方面体现杰出。此外，由于其即插即用的个性，IFAdapter 可以作为插件无缝集成到社区模型中，而无需从新训练。

原文链接:

<<阿里RAG新框架R4 增强检索器

优化文本嵌入大幅优化RAG检索速度>>

腾讯&amp 新加坡国立颁布IFAdapter 即插即用 优化文生图模型实例特色和位置生成准确性