大规模视觉指令数据集图像编辑多义务一扫而空！PromptFix 罗切斯特大学&amp 微软新型分散模型&amp

2024-11-14

文章链接：名目链接：

总结速览

处置的疑问 ：现有分散模型在处置自定义用户指令时缺乏多样化数据，尤其是在低级义务中体现无余。此外，分散环节的随机性造成难以保管生成图像的细节。

提出的打算 提出了PromptFix框架，经过构建大规模指令追随数据集、引入高频疏导采样方法以及设计辅佐提醒适配器来增强模型的指令口头才干。

运行的技术 ：经常使用高频疏导采样控制去噪环节，坚持未处置区域的高频细节；应用视觉-言语模型（VLMs）增强文本提醒，提高义务泛化才干。

到达的成果 ：PromptFix在多种图像处置义务中体现优于现有方法，并在零样本盲修复和组合义务中展现出更强的才干，同时坚持了与基准模型相当的推理效率。

数据整顿

现有的带有指令标注的图像数据集重要用于促成图像编辑钻研，涵盖了色彩迁徙、对象交流、对象移除、背景更改微格调迁徙等义务。但是，它们与低级运行的堆叠有限。此外，现有模型在图像修复义务中的体现难以令人满意。本文的目的是构建一个专门针对低级义务的综合视觉指令追随数据集。取得了约101万训练三元组实例。

配对图像搜集 。最后从多个现有数据集中搜集源图像，随后生成退步和修复后的图像，以创立少量的配对图像数据集。共搜集了大概两百万个原始数据点，涵盖八个义务：图像修复、对象创立、图像去雾、图像上色、超分辨率、低光增强、雪去除和水印去除。关于测试集，为每个义务随机选用了300对图像。

方法

设示意退步的输入图像。PromptFix 模型旨在经过提醒和分散模型来增强图像。

因为 SDE 的清楚个性，后向分散环节经过 Fokker-Planck 能源学从新表述，以发生具备分歧概率密度确实定性转移，从而构成概率流常微分方程（ODE）：

基于 VLM 的辅佐提醒模块

思考到低级图像处置专一于处置退步图像而非实在环球图像，驳回集成 VLM 来为低级图像I预计辅佐提醒。该辅佐提醒蕴含语义题目和毛病形容，以增强目的图像的语义明晰度，从而处置低级图像处置义务中固有的指令差距。

高频疏导采样

在图像复原和生成义务中有一个基本要求：处置后的图像必定在语义上坚持高准确性。观察到，普通的 VAE 重构往往会失落图像细节，例如文本渲染，这蕴含高频消息，如下图 5 所示。因此，提出高频疏导采样，以平衡生成的品质和保真度。

试验

试验设置

基准和目的 。驳回基于指令的普通模型，例如 InstructP2P、MGIE 和 InstructDiffusion 作为重要比拟。MGIE 经常使用 VLM 疏导的技术启动图像编辑，而 InstructDiffusion 处置与训练目的堆叠的义务，包括水印去除和修补。此外，还评价了不允许指令输入的全能图像修复方法，如 AirNet 和 PromptIR，以及专门为特定子义务微调的图像修复专家模型。经常使用 PSNR、SSIM 和 LPIPS 等目的评价生成图像与实在图像的相似性。关于无参考图像品质评价，应用 ManIQA 目的。

定量和定性结果

下表 1 展现了经过 LPIPS 和 ManIQA 目的评价的图像修复和编辑技术的比拟剖析。专家模型 Diff-Plugin 在低光增强 (LPIPS/ManIQA: 0.227/0.453) 和去雪 (0.133/0.508) 中体现有限但清楚。普通方法中，AirNet 在去雪和去雾等义务中展现出平衡才干，LPIPS/ManIQA 得分区分为 0.245/0.589 和 0.039/0.780。但是，基于指令的分散方法提醒了更粗疏的图景，PromptFix 显得特意有宿愿。在着色义务中，它体现优秀 (LPIPS/ManIQA: 0.233/0.489)，在对象去除 (0.054/0.810) 和水印去除 (0.071/0.811) 中继续逾越其余方法。InstructP2P 和 InstructDiff 在低光增强和去雾等特定义务中体现良好，但在全体多配置性上无法与 PromptFix 匹敌。虽然 MGIE 在某些畛域有效，但缺乏 "PromptFix (Ours)" 所展现的分歧性。这突显了 PromptFix 在多种图像处置义务中的鲁棒性和出色体现，并标明 PromptFix 具备在该畛域设定新基准的后劲，得益于先进的基于指令的分散方法。

下图 3 展现了一切选用的基线模型之间的视觉比拟。在着色义务中，PromptFix 生成的结果最具视觉准确性和活泼性，与实在图像十分凑近。在水印去除义务中，它有效地复原了原始图像，而未引入伪影，逾越了 MGIE 和其余方法。在去雪和低光增强中，PromptFix 成功了更明晰、更人造的输入，清楚缩小了噪声并增强了可见性。此外，在超分辨率方面，PromptFix 展现出出色的明晰度和准确性，保管了细节，逾越了一切比拟方法。在去雾方面，虽然 PromptFix 的性能在视觉上与图像修复专家 PromptIR 和 AirNet 相当，但 PromptFix 逾越了最近的基于Stable Diffusion的方法 Diff-Plugin，出现出洁净、明晰的外观，且与实在图像高度婚配。

消融钻研

高频疏导采样的有效性。引入高频疏导采样（HGS）方法以平衡保真度和品质。为了验证 HGS 的有效性，咱们启动了定性和定量试验。如下图 5 所示，在低光场景中，模型旨在增强输入图像的可见性（品质），同时保管其原始文本细节（保真度）。关于应用Stable Diffusion作为生成先验的基线方法，变分自编码器（VAE）弱小的紧缩才干也带来了空间消息损失的疑问，如图 5 中的 InstructDiff、MGIE 和 Diff-Plugin 所示。这个疑问与模型有效遵照指令的才干有关。经过变体 “Ours w/o HGS” 可以看出，咱们的方法在增强低光图像方面清楚优于三种基线，但依然无法保管小规模的文本结构。经过引入 HGS，如 “Ours” 所示，所提出的框架提供了一个高保真度的处置打算，同时满足低光增强的指令。F(·) 和 S(·) 的经常使用提高了生成图像的品质，这在下表 4 中的定量结果获取了验证。

VLM 指点的盲修复 。应用 LLaVA 生成辅佐提醒，并将指令提醒留空。这种方法使得用户可以输入图像，而无需提供修复指令。评价了模型在这种盲修复义务上的体现，包括低光增强、去雪和去雾。如下表 3 所示，咱们的模型在性能上与四个基线模型相当，与实在图像的感知差异最小，且具备更优越的zero-shot 才干。

多义务处置

虽然PromptFix并未经过专门训练以同时处置同一图像中的多个低级义务，但它展现出了多义务处置的才干。咱们构建了一个蕴含200张图像的验证数据集，每张图像蕴含3个复原义务，如上色、水印去除、低光增强、去雪、去雾和超分辨率。咱们将PromptFix与AirNet和PromptIR这两种通用图像复原方法，以及以指令驱动的分散方法InstructP2P和InstructDiff启动了基准测试。如下表2所示，PromptFix的体现逾越了这些基线，到达了更优的图像品质、结构相似性，并且与实在图像的感知差异最小，体如今竞争力的PSNR、SSIM和LPIPS得分上，同时更高的ManIQA得分也标明其结果在视觉上令人愉悦且品质高。同样，虽然像InstructP2P和InstructDiff的方法在特定目的上体现良好，但它们未能婚配PromptFix的全体平衡性能。这些结果标明了PromptFix的鲁棒性和多样性。

不同类型的指令提醒

经过与三种类型的提醒启动消融比拟来验证PromptFix对各种人类指令的泛化才干，如下表5所示：训练时期经常使用的指令，以及少于20个单词和40-70个单词的训练外人类指令。PromptFix在训练外指令下的性能略有降低，但变动可以疏忽不计。这标明PromptFix对少于20个单词的指令具备鲁棒性，这理论关于低级处置义务来说是足够的。咱们观察到在较长指令下的性能降低，或者是因为训练数据中指令长度的长尾效应。虽然低级处置义务理论不须要长指令，但经过用更长的指令增强数据集来处置这一疑问或者是未来上班的一个方向。

论断

是一种新型的基于分散的模型，以及一个大规模的视觉指令训练数据集，旨在促成基于指令的低级图像处置。PromptFix经过高频疏导采样和基于视觉言语模型（VLM）的辅佐提醒模块，有效处置了空间消息失落和退步顺应关系的应战。这些机制提高了模型在基于指令的图像处置范式中的性能。少量试验结果证实了PromptFix在生成准确且高品质图像方面的先进才干。除了在传统目的上的改良，还观察到PromptFix在多义务处置和低光增强、去雪和去雾等盲复原义务中的有效性。

原文链接:

<<定制化视频生成新榜样！零样本主体驱动阿里等颁布DreamVideo 准确静止控制！复旦&amp

多模态融合解码人类决策环节的新战略人造迷信期刊>>

大规模视觉指令数据集 图像编辑多义务一扫而空！PromptFix 罗切斯特大学&amp 微软 新型分散模型&amp