无需低廉标注！大幅优化SDXL和SD3

2024-11-14

文章链接：

亮点直击

总结速览

处置的疑问 传统的间接偏好优化（DPO）方法依赖少量人工标注的数据集来对文本生成图像（T2I）模型启动对齐，但这种方法老本高昂，且数据容易过期，难以顺应T2I模型极速优化的需求。

提出的打算 本钻研提出一种齐全分解的数据集搜集方法，用于DPO训练。经过预训练的处罚函数生成成对图像的偏好数据，代替人工标注，极大地优化数据集的搜集效率。同时，引入RankDPO方法，经过排名反应增强DPO训练，优化模型的偏好学习成果。

运行的技术 驳回预训练的处罚函数生成成对图像的偏好数据，并在SDXL和SD3-Medium模型上运行RankDPO技术。数据集“Syn-Pic”用于允许该方法，防止人工介入标注并提供更高效的偏好数据生成模式。

到达的成果 经过经常使用“Syn-Pic”分解偏好数据集和RankDPO方法，清楚优化了模型的文本追随才干（如T2I-Compbench、GenEval和DPG-Bench基准测试）和视觉品质（经过用户钻研验证），为开发更优质的偏好数据集、优化文本生成图像模型的功能和安保性提供了一个适用且可裁减的处置打算。

方法

本节首先概述用于文本生成图像的分散模型及其间接偏好优化方法。接上去，探讨筹划和标注可裁减的偏好优化数据集的环节。最后，形容一种基于排名的偏好优化方法RankDPO，以应用该排序偏好数据集。下图2中对这两个组成局部启动了说明。算法3提供了在Syn-Pic上训练RankDPO的伪代码。

用于分散模型的DPO

Bradley-Terry（BT）模型经过以下公式定义成对偏好：

分解标注偏好数据集 (Syn-Pic)

探讨本文的数据搜集方法具备以下几个优势：

基于排名的偏好优化 (RankDPO)

该损失函数不只激励模型满足成对的偏好，还要尊重为相反揭示生成的图像的全体排名。经过经常使用从排名中取得的增益和折扣来加权传统的 DPO 目的，确保模型依据排名优先生成品质更高的图像，从而在美学和揭示对齐方面成功更分歧的改良。

试验

实施细节 试验中经常使用开源的 SDXL和 SD3-Medium 模型。从 Pick-a-Picv2 搜集了 58K 个揭示，并经常使用四个模型，即 SDXL、SD3-Medium、Pixart-Σ 和 Stable Cascade，预备了 Syn-Pic 数据集。在 8 张 A100 GPU 上训练 RankDPO，继续 16 小时，批次大小为 1024，训练步。

比拟结果

短揭示 在前面表 1 中，报告了 GenEval上的结果。RankDPO 在简直一切类别上都继续改善了功能，使得 SDXL 的平均功能从 0.55 提高到 0.61，SD3-Medium 的平均功能从 0.70 提高到 0.74。特意是观察到在“两个物体”、“计数”和“色彩归属”等方面有清楚优化，增幅近 10%。在前面表 2 中的 T2I-Compbench中，也观察到了相似的趋向，其中 SDXL 在“色彩”和“纹理”上优化超越 10%，并在其余类别中也有改良。

长揭示 在前面表 3 中，进一步在 DPG-Bench上评价了模型的视觉品质和揭示对齐性，该基准蕴含长且详细的揭示。为了测量揭示对齐性，经常使用了原始 DSG 目的和 VQAScore，而关于视觉品质，经常使用了 Q-Align 模型。

Diffusion-DPO（标志为 DPO-SDXL）在 Pick-a-Picv2 上训练，能够在揭示对齐性方面提供无心义的改良，而对 SDXL 启动 MaPO和 SPO的微调（标志为 MaPO-SDXL 和 SPO-SDXL）则提高了视觉品质。但是，虽然 RankDPO 仅在分解偏好上启动训练，但一切目的都有清楚优化（例如，SDXL 的 DSG 得分从 74.51 提高到 79.26，Q-Align 得分从 0.72 提高到 0.81），并到达了最新的揭示对齐目的。关于 SD3-Medium，在经常使用RankDPO 启动微调后，继续看到模型功能的优化。

用户钻研 为了进一步验证本文方法的有效性，在 DPG-Bench 上对 450 个揭示启动了用户钻研。要求用户依据他们的全体偏好（即结合文本与图像的对齐性和视觉品质）选用更好的图像。前面图 3 显示，RankDPO 的胜率优于 DPO-SDXL和 SDXL，这标明其在提高生成图像全体品质方面的有效性。

下图 4 中展现了来自 DPG-Bench的揭示的定性示例。与基础 SDXL 和其余偏好调整模型相比，RankDPO 在文本渲染方面有清楚改良，能够捕捉到一切揭示中形容的对象，而其余模型则遗漏了这些对象，并且在图像中对对象之间复杂相关的建模更佳。

计算老本探讨 须要 10 个 A100 GPU 天来生成图像并标注偏好，这是一次性性老本。在生成数据上运转 RankDPO 启动步训练，SDXL 在 1024² 像素下大概须要 6 个 GPU 天。相比之下，现有的处罚优化方法在较小的 SD1.5 模型（512² 像素）上须要 64-95 个 A100 GPU 天。相似地，与 Diffusion-DPO相比，RankDPO 在三分之一的数据上训练，同时防止了手动整顿的偏好。还有一些经过经常使用文本编码器（如 T5/LLaMA 模型）来增强文本到图像模型的方法，这些方法须要 1000 万到 3 万个密集标注的图像，并训练 50-120 个 A100 GPU 天。

消融剖析

数据和标注函数的影响 由于生成偏好是 RankDPO 的关键方面，在下表 4 中评价了不同的标注选用。尝试随机标注，即随机选用偏好并运行 DPO。这仅能提供有限的功能优化（从 74.65 优化至 75.66 的 DSG 得分）。还展现了来自繁多处罚模型（HPSv2.1）的成对偏好的结果，以及从 5 个模型中平均偏好的结果。虽然 HPSv2.1 对揭示对齐和视觉品质都提供了良好的改良，但跨多个模型的预测集成进一步提高了却果。这些结果优于运行于 Pick-a-Picv2 的 DPO，突显了在构建偏好数据集时图像品质的关键性。最后，考查了用于构建 Syn-Pic 的不同模型的影响。这是经过仅更改种子，构建与 SDXL 图像相似的数据集来成功的。虽然在揭示对齐方面简直获取了相反的改良，但在视觉品质上只看到了小幅优化。这标明，分解偏好调优可以运行于任何模型的输入，但经常使用不同模型生成的图像可以进一步改善结果。

学习目的剖析 偏好优化的一个关键方面是学习目的的选用，在上表 4 中启动各种试验启动比拟。除了惯例的 DPO 公式外，一些钻研标明，在经过精心筛选的高品质数据上启动监视微调的好处，也将其归入比拟。基线包括以下几种方法：

可以看到，RankDPO 成功了最佳结果，突显了基于成对偏好的排名规范的整合对增强偏好优化的好处。

论断与探讨

本文提出了一种弱小且具备老本效益的文本到图像模型偏好优化方法。详细而言，展现了如何经过火解生成偏好优化数据集来搜集更优的信号（例如，排名与成对偏好、跨模型集成偏好）。还提出了一种便捷的方法来应用更强的信号，从而在多个基准测试中成功了针对揭示追随和视觉品质的最新结果，无论是在分散模型还是批改流模型中。宿愿本文的上班为未来在文本到图像模型上裁减有效的前期训练处置打算铺平路线。

原文链接:

<<AI 大模型在金融行业的运行场景

2024高分论文 ICML>>

​无需低廉标注！大幅优化SDXL和SD3