曾爆火的 InstantID又有了新玩法已开源格调化图像生成

2024-11-15

格调化图像生成，也常称为格调迁徙，其指标是生成与参考图像格调分歧的图像。此前基于 diffusion 的方法（比如 LoRA）理论须要批量的同格调数据启动训练，不可迁徙到新的格调中，或许基于 inversion（如 StyleAlign），经过将格调图像恢复到 latent noise 后，将其前向流传获取的 K、V 用于交流格调图像生成中的 K、V，但这类方法往往因为 inversion 的操作，形成格调退步。

最近，InstantID 原班团队推出了格调迁徙的新方法InstantStyle，与人脸 ID 不同，它是一个通用的图像格调注入框架，驳回两种便捷但十分有效的技术，来成功格调和内容与参考图像的有效分别。

作者在文中花了较大篇幅引见动机，（1）首先格调是欠定的，没有明晰的规范来定义，它囊括泛滥元素，比如色调、气氛、材质、规划等，即使是人工评估，也很难有一致的论断；（2）此前基于 inversion 的方法会形成显著的格调退步，这对局部格调是不可接受的，比如纹理；（3）图像格调的注入，最辣手的疑问是如何平衡格调注入强度以及参考图像的内容暴露。

对此，作者团队启动了一系列试验剖析，他们发现，IP-Adapter 的疑问被其它许多方法都显著夸张了，作者仅经过手动调整图像特色注入的权重，就处置了大局部论文中宣称的内容暴露疑问。虽然如此，在一些状况下，IP-Adapter 依然较难找到一个适合的阈值来平衡。因为目前 Adapter-based 的方法广泛经常使用 CLIP 提取图像特色，作者经过图像检索的例子确认，在 CLIP 特色空间中，图像和文本的特色是可以相加减的，答案显而易见，为什么不在注入网络之前，显式地减去或许会暴露的内容消息，从而对图像特色启动内容微格调解耦呢？

最后，遭到 B-LoRA 方法的启示，作者粗疏剖析了 IP-Adapter 在每一层注入的成果，惊奇地发现存在两个独立的层区分照应格调和空间规划的消息。为此，作者引出了提出的方法。

方法引见

基于以上的观察和试验，作者提出了 InstantStyle 方法，如图所示，该方法外围蕴含两个模块：

（1）特色相减：应用 CLIP 闲暇的特性，显式地启动特色相减，去除图像特色中内容的消息，缩小参考图片内容对生成图片的影响。其中相比于格调的欠定，内容消息往往容易经过文本便捷形容，所以可以应用 CLIP 的文本编码器提取内容特色，用于解耦。

（2）仅格调层注入：仅在特定格调层成功特色注入，隐式地成功格调和内容的解耦。作者在 UNet 的 mid block 左近，发现了区分控制格调和空间规划的两个特定层，并发如今某些格调中，空间规划或许也属于格调的一种。

全体而言，InstantStyle 的思绪相当便捷易懂，仅仅经过几行代码，就缓解了格调迁徙中最困扰的内容暴露疑问。

试验结果

作者在文中展现了两种战略的生成结果，这两种战略不局限于特定模型，可以离开独立经常使用，都成功了优秀的成果。

特色相减的结果：

仅格调层注入：

和目前上游方法的对比：

基于原图的格调化：

社区玩法

InstantStyle 曾经提供了丰盛的代码成功，开发者可以间接经过 GitHub 找到，包括文生图、图生图以及 Inpainting。近日还被视频生成名目 AnyV2V 作为介绍的格调化工具。关于社区用户，InstantStyle 恢复活就允许了 ComfyUI（该结点作者也是 InstantStyle 的独特作者），用户可以经过降级 IP-Adapter 结点即可极速尝试。

作为 InstantID 作者，又怎样少得了和 InstantID 的联名呢，相比于 InstantID 中仅经过文原本控制生成格调，InstantStyle 无疑可以让格调愈加多样。作者团队会在 GitHub 星标抵达 1000 后，官网允许人脸的格调化配置。

作者也官网允许了 Huggingface Demo，可以在线试玩。

原文链接:

<<Packing LLM 疑问及优化长序列 Attention Sample 训练的

Advanced 和再优化 11 对用户输入的内容启动 RAG 分类处置>>

曾爆火的 InstantID又有了新玩法 已开源 格调化图像生成

方法引见

试验结果

社区玩法

您可能还会对下面的文章感兴趣：

随便看看

曾爆火的 InstantID又有了新玩法已开源格调化图像生成