卡内基梅隆&amp 浙大&amp 刷新流婚配模型单步文本到图像生成纪录！北大&amp 西湖大学 FGM

2024-11-15

文章链接：

亮点直击

总结速览

处置的疑问 在AIGC畛域中，流婚配模型因其松软的通常基础和弱小的大规模生成才干而取得了清楚成功。但是，这些模型的采样环节对计算资源要求极高，由于它们须要多步数值常微分方程 (ODEs) 的计算。

提出的打算 本文提出了一种名为“流生成婚配 (Flow Generator Matching, FGM)”的翻新方法，经过将流婚配模型的采样减速为一步生成，降低了对计算资源的需求，同时保障了模型功能。

运行的技术 FGM 模型在 CIFAR10 无条件生成基准测试上取得了优秀的效果，发明了3.08的最新 Fréchet Inception Distance (FID) 分数，逾越了原有的50步流婚配模型。此外，经过 FGM 对 Stable Diffusion 3 启动了蒸馏，生成了一步文本生成图像的 MM-DiT-FGM 模型。

到达的效果 在 GenEval 基准测试上，MM-DiT-FGM 展现出出色的生功效果，在单步生成的高效性下，生成品质可与多步模型相媲美。

流生成婚配

本节引见流生成婚配(Flow Generator Matching, FGM)，这是一种专为流婚配模型设计的一步蒸馏设计的通用方法。首先定义疑问设置和符号，而后引见咱们的婚配指标函数以及 FGM 如何最小化该指标。最后，将 FGM 与现有的流蒸馏方法启动比拟，突出咱们方法的阅历和通常长处。

疑问设置

疑问表述 。本文的框架基于一个预训练的流婚配模型，该模型能够准确地迫近边沿向量场。流在噪声散布和数据散布之间建设了咨询。同时，也知道条件转移，这象征着。假定预训练的流婚配模型对数据散布有足够好的迫近，即是实在的数据散布。

本文的指标是训练一个一步生成器模型，间接将随机噪声转换为样本。令示意在校生模型生成样本的散布，示意经过转移的边沿概率门路。

该在校生边沿概率门路隐式地疏导了生成该门路的流向量场，该向量场未知且难以处置。

无法处置的指标 。一步流生成婚配的指标是使在校生散布与数据散布婚配。为此，思考将边沿向量场与预训练的向量场启动婚配，从而使得散布和能够彼此婚配。

本节定义流生成婚配的指标。基于之前的探讨，指标是最小化隐式向量场和预训练流模型向量场之间的希冀距离，示意为

留意到样本依赖于参数。在必要时，可以经常使用来强调这种参数依赖相关。

显然，当且仅当一切诱导向量场分歧时，，即简直处处对成立。因此，这象征着简直处处对成立，这标明两个散布简直处处对婚配。但是，虽然最小化指标可以获取一个弱小的一步生成器，但它是无法处置的，由于咱们不知道和生成器散布之间的相关。上方引见本文的关键奉献：一个具备通常保障的、与（4.1）等价且可处置的训练指标。

可处置的指标

本文的指标是优化参数以最小化指标。但是，隐式向量场是未知且无法处置的，因此无法间接最小化该指标。不过，经过对求损失函数的梯度，可以获取

其中，和定义为

公式 (4.3) 中的梯度思考了关于参数的一切导数。

请留意，第一个梯度可以经过中止对的-梯度来取得，即。这造成了一个代替损失函数，其梯度与分歧。

但是，第二个梯度 (4.5) 蕴含一个无法处置的项。关于在校生生成器，咱们只能从条件概率门路中有效地采样，但向量场及其关于的梯度未知。幸运的是，在本文中，咱们提出了如下定理 4.2，使得在校生向量场的-梯度愈加可处置。在此之前，咱们须要首先引入一个新的流乘积恒等式（Flow Product Identity），这是咱们的奉献之一，即定理 4.1。

定理 4.1 （流乘积恒等式） 设为一个向量值函数，经常使用 4.1 节中的符号，在平和的条件下，该恒等式成立：

接上去，展现可以引入一个等效的可处置损失函数，该损失函数与无法处置的损失函数 (4.1) 在参数梯度上相反，如定理 4.2 所示。

定理 4.2. 假设散布满足某些狭义正则性条件，则关于一切不依赖于参数的向量值函数，关于一切参数，该等式成立：

公式 (4.8) 标明，无法处置的梯度的希冀可以与来自在校生模型的可微样本的可处置希冀启动调换。

恒等式 (4.8) 的间接结果是，梯度 Grad2() 与以下可处置损失函数 (4.9) 分歧，该损失函数在生成器向量中对施加了中止梯度操作：

将 (4.6) 和 (4.9) 结合到 (4.3) 中，获取一个等效的损失函数，用于最小化原始指标，即：

定义在 (4.6) 和 (4.9) 中的 L1(θ) 和 L2(θ)。这发生了经过最小化损失函数 (4.10) 提出的流生成婚配 (FGM) 指标。下算法 1 总结了流生成婚配的伪算法，将预训练的流婚配模型蒸馏成一个单步生成器。

与分散蒸馏的区别 FGM 从单步分散蒸馏中取得灵感，旨在最小化散布发散，但是，所获取的通常与单步分散蒸馏的通常实质上是不同的。FGM 和单步分散蒸馏之间最清楚的区别在于，流婚配并不象征着对概率密度启动显式建模，如分散模型所做。因此，散布发散的定义不能运行于流模型及其蒸馏。但是，FGM 经过间接处置流婚配指标而不是散布发散来克制这个疑问。关键的见地是咱们提出的显式-隐式梯度等效通常绕过了无法处置的流婚配指标，从而发生具备通常保障的弱小适用算法。定理 4.2 也或者为未来对流婚配模型的钻研带来新的奉献。

与其余流蒸馏方法的比拟 目前有少数现有上班尝试将流模型减速到单步或少步生成模型。分歧性流婚配 (CFM)是最近的一项上班，将预训练的流模型蒸馏为一个或两个步的模型。虽然 CFM 显示出不错的结果，但无通常和实践方面与咱们的 FGM 不同。首先，CFM 面前的通常建设在流模型的轨迹分歧性上，这间接从分歧性模型中推行。相反，咱们的 FGM 是以流婚配指标为登程点，试图用真值老师流来训练单步生成器的隐式流，并具备通常保障。在实践方面，在 CIFAR10 生成上，展现了训练的单步 FGM 模型在流模型中到达了 3.08 的新的 SoTA FID，超越了 CFM 最好的 2 步生成结果 5.34 的 FID。如此弱小的实证体现使得 FGM 成为在规范基准上减速流婚配模型的牢靠处置打算。除了便捷的 CIFAR10 生成，在第 5.2 节中，咱们还经常使用 FGM 蒸馏上游的大规模文本到图像流模型，取得了简直没有功能降低的十分弱小的单步文本到图像模型。

试验

这里启动了试验以评价 FGM 的有效性和灵敏性。试验涵盖了规范评价基准、无条件 CIFAR10 图像生成和经常使用Stable Diffusion 3 (SD3)的大规模文本到图像生成。这些试验展现了 FGM 在构建高效单步生成器的才干，同时坚持高品质样本。

单步 CIFAR10 生成

试验设置 首先在 CIFAR10 数据集上评价 FGM 的有效性，这是生成模型功能的规范测试平台。在 CIFAR10 上经常使用 ReFlow 指标 (3.6) 预训练流婚配模型启动条件和无条件生成。参考了用于 EDM 模型的神经网络架构。以 512 的批量大小训练条件和无条件模型 20,000 张图像，获取的外部训练流模型显示出 CIFAR10 无条件 FID 为 2.52，生成步为 300，这稍微低于原始 ReFlow 模型，其 FID 为 2.58，经常使用 127 个生成步。但是，在下表 1 中，发现这样的稍微较差模型并不会影响强单步生成器的蒸馏。

这些流模型作为流生成婚配 (FGM) 的老师模型。而后运行 FGM 从流模型中蒸馏单步生成器。经过FID评价生成图像的品质。较低的 FID 分数示意样本品质和多样性更高。

留意损失 (4.11) 和损失 (4.12) 独特构成 FGM 损失的完整参数梯度。咱们发现这两个损失在经常使用多层感知机启动 2D 数据集生成时效果很好。在通常中，发现经常使用损失 (4.11) 在 CIFAR10 模型上会造成不稳固，这与 Poole et al. (2022) 的观察相似，即其雅可比项的条件数或者不适定。因此，在训练时咱们不经常使用损失 (4.11)，而是观察到良好的功能。

用预训练流模型初始化生成器 受分散蒸馏技术的启示，用预训练流模型初始化单步生成器。回想流模型的训练指标 (3.6)，预训练流模型θ大抵预测从随机噪声到数据的方向。因此，咱们经常使用预训练流来构建咱们的单步生成器。详细来说，构建单步生成器：

θ 是生成器的可学习参数，而是预先确定的最佳期间步。

定量评价 经常使用 Fretchet Inception Distance（FID）评价每个模型，这是评价 CIFAR10 数据集上图像生成结果的黄金规范。上表1和表2总结了生成模型在 CIFAR10 数据集上的 FID。在无条件生成义务中，咱们的老师流模型在50个生成步和100个生成步下区分取得了 3.67 和 2.93 的 FID。FGM 模型在仅经常使用一个生成步的状况下取得了 3.08 的 FID，清楚逾越了老师模型在50个生成步下的结果，幅度到达了16%。在 CIFAR10 条件生成义务中，咱们的一步 FGM 模型取得了 2.58 的 FID，逾越了老师流模型在100个生成步下的 2.87 FID。在 CIFAR10 生成基准上的结果展现了 FGM 的优越功能，它能够在清楚幅度上逾越多步老师流模型。

CIFAR-10 生成义务相对便捷。启动了试验，训练大型的一步文本到图像生成器，驳回来自顶级功能的基于Transformer的流模型启动蒸馏。

文本到图像生成试验：

上方展现了经过 FGM 蒸馏的一步 T2I 生成器在其余行业级模型中展现出最先进的结果。在进一步的试验中，FGM 被运行于从顶尖的流婚配模型（如Stable Diffusion 3 Medium）中训练单步文本到图像生成器。用于训练的大型数据集蕴含大概 200 万条记载，增强了模型生成高品质图像的才干。虽然在经常使用某些损失函数时训练灵活存在初始不稳固性，FGM 依然坚持了与多步模型的竞争力，展现了其在处置复杂文本输入生成图像方面的鲁棒性。

总的来说，提出的 FGM 框架为生成模型的效率和有效性带来了有宿愿的停顿，为流婚配和文本到图像生成技术的未来开展铺平了路线。

定性评价 对所提出的蒸馏方法的定性评价，以剖析其功能。下图2展现了多个样本输入，比拟了老师模型 Hyper-SD3和 Flash-SD3的方法。结果显示，即使在仅经常使用单步生成的状况下，视觉品质依然很高，尤其是在细节和色彩再现方面。特意是，一步的 MM-DiT-FGM 在每个生成图像上展现了美学上的光影效果。与现有的蒸馏方法相比，咱们的模型在生成品质上到达了可比水平，但老本清楚降低。这种长处使得 FGM 在须要实时交互的运行中变得实际可行。

GAN 损失的整合 显然，纯 FGM 算法在训练时并不依赖任何图像数据。近年来，许多钻研标明，在蒸馏中引入 GAN 损失关于提高生成图像的高频细节是有益的。因此，也将 GAN 损失与 FGM 结合用于训练单步文本到图像模型，并发现了其优势。

在训练环节中，观察到在 FGM 效率较低的某些噪声调度距离中，GAN 损失能够提供有效的梯度，从而改善模型输入的品质。因此，GAN 损失的一个关键长处是能够补偿 FGM 在某些噪声调度中的效率无余，从而对咱们的损失函数构成补充。

论断

本文引见了流生成婚配（FGM），一种强有力的概率性单步蒸馏方法，专为流婚配模型而设计。本文建设了 FGM 的通常基础，并验证了其在单步 CIFAR10 生成和大规模单步文本到图像生成方面的弱小阅历体现。

虽然 FGM 具备松软的通常基础和弱小的阅历体现，但它依然存在一些局限性。第一个局限性是目前 FGM 仍需额外的流模型来近似生成器惹起的流向量。这一要求参与了蒸馏的内存开支，并在预训练的流模型和生成器的模型大小较大时或者带来应战。其次，FGM 是一种齐全不依赖图像数据的方法，这象征着在蒸馏时不须要实在的图像数据。但是，妇孺皆知的一个论点是，继续引入高品质图像数据关于提高文本到图像生成模型的功能至关关键。宿愿未来的上班能够探求如何将数据整合到蒸馏环节中。

原文链接:

<<CVPR 2024

VisRAG 清华大学&amp 面壁自动提出了一种新的RAG思绪效果优化清楚>>

卡内基梅隆&amp 浙大&amp 刷新流婚配模型单步文本到图像生成纪录！ 北大&amp 西湖大学 FGM