逾越SDXL！分散模型失宠端侧非自回归图像生成基础模型Meissonic退场

2024-11-15

最近，YouTube和Reddit上产生了一个惹起宽泛讨论的图像生成模型，来自日本、韩国、美国、印度、中东和英国的网友们纷繁介入讨论。

那么，这究竟是怎样回事呢？让咱们一同来看看吧。

近年来，大言语模型在自然言语处置畛域取得了渺小的打破，以LLaMA和Qwen等为代表的模型展现了弱小的言语了解和生成才干。

但是，图像生成技术的打破关键得益于分散模型，如Stable Diffusion XL在图像品质、细节和概念分歧性方面设立了理想规范。但是，这些分散模型与自回归言语模型的上班原理和架构清楚不同，造成在视觉和言语义务上成功统永世成方法面临应战。

这种差异不只使这些模态的整合变得复杂，还凸显了须要翻新的方法来弥合它们之间的差距。自回归文本到图像模型（如LlamaGen）经过预测下一个token生成图像，但因为生成的图像token数量庞大，自回归模型在效率和分辨率上也面临瓶颈，难以运行到实践场景。

于是，一些Masked Image Modeling（MIM）技术，例如MaskGIT和MUSE被提出。这些方法展现了高效图像生成的后劲。

虽然MIM方法具备必定的前景，它们仍面临两个关键限度：

1.分辨率限度

的MIM方法只能生成最大分辨率为512×512像素的图像。这一限度阻碍了它们的宽泛运行和进一步开展，尤其是在文本生成图像的社区中，1024×1024分辨率逐渐成为规范。

2. 功能差距

现有的MIM技术尚未到达上游分散模型如SDXL所体现的功能水平，特意是在图像品质、复杂细节和概念表白等关键畛域体现不佳，而这些对实践运行至关关键。这些应战须要探求新的翻新方法，Meissonic的指标是使MIM能够高效生成高分辨率图像（如1024×1024），同时增加与顶级分散模型的差距，并确保其计算效率适宜生产级配件。

Meissonic模型提出了全新的处置打算，基于非自回归的掩码图像建模（MIM），为高效、高分辨率的T2I生成设定了新规范。

论文链接:

GitHub Code:

Huggingface Model:

经过架构翻新、先进的位置编码战略和优化的采样方法，Meissonic不只在生成品质和效率上与上游的分散模型（如SDXL）相媲美，甚至在某些场景中逾越了它们。

此外，Meissonic应用高品质的数据集，并经过基于人类偏好评分的宏观条件启动训练，同时引入特色紧缩层，清楚优化了图像的保真度与分辨率。

以下是Meissonic在方法上的几项关键技术改良：

1. 增强型Transformer架构

Meissonic联合了多模态与单模态的Transformer层，旨在捕捉言语与视觉之间的互动消息。从未池化的文本示意中提取有用信号，构建两者之间的桥梁；单模态Transformer层则进一步细化视觉示意，优化生成图像的品质与稳固性。钻研标明，这种结构按1:2比例能够成功最佳功能。

2. 先进的位置编码与灵活采样条件

为坚持高分辨率图像中的细节，Meissonic引入了旋转位置编码（RoPE），为queries和keys编码位置消息。RoPE有效处置了随着token数量参与，传统位置编码方法造成的高低文关联失落疑问，尤其在生成512×512及更高分辨率图像时。

此外，Meissonic经过引入掩码率作为灵活采样条件，使模型自顺应不同阶段的采样环节，进一步优化图像细节和全体品质。

3. 高品质训练数据与宏观条件

Meissonic的训练依赖于经过精心挑选的高品质数据集。为优化图像生功效果，Meissonic在训练中参与了图像分辨率、裁剪坐标及人类偏好评分等宏观条件，清楚增强了模型在高分辨率生成时的稳固性。

4. 特色紧缩层

为了在坚持高分辨率的同时优化生功效率，Meissonic引入了特色紧缩层，使其在生成1024×1024分辨率图像时可以有效降落计算老本。

那么，Meissonic究竟有多弱小呢？让咱们来看看它的体现：

在HPS V2.0基准测试中，Meissonic以平均0.56分的长处逾越了SDXL。

在图像编辑才干评测数据集Emu-Edit上，Meissonic的Zero-shot图像编辑功能甚至逾越了经过图像编辑指令微调后的模型。

在格调多样性生成方面，Meissonic展现出逾越SDXL的体现。

而这一切，都只有SDXL 1/3的推理期间和1/2的显存占用。值得留意的是，Meissonic可以在8GB显存下运转，让中低端显卡的用户也能受益。

此外，Meissonic还展现了超强的zero-shot图像编辑才干，无需微调即可灵敏编辑有mask和无mask的场景，提供了更多创作或者性。

高效推理与训练的联合

在文本到图像分解畛域，Meissonic模型仰仗出色的效率锋芒毕露。该模型不只在推理环节中成功了高效性，同时在训练阶段也清楚优化了效率。Meissonic驳回了一套精心设计的四阶段训练流程，逐渐优化生功效果。

阶段一：了解图像基础概念

钻研标明，原始LAION数据集的文本形容不可充沛满足文本到图像模型的训练需求，通常须要多模态大型言语模型（MLLM）启动优化，但这消耗少量计算资源。

为此，Meissonic在初始阶段驳回了愈加平衡的战略，应用经过挑选的高品质LAION数据学习基础概念，经过降分辨率的方法提高效率，最终保管约2亿张高品质图像，并将初始训练分辨率设定为256×256。

阶段二：成功文本与图像对齐

第二阶段的重点在于优化模型对长文本形容的了解才干。团队挑选了审美分数高于8的图像，构建了120万对优化后的分解图文对及600万对外部高品质图文对。此阶段，训练分辨率优化至512×512，配对数据总量到达约1000万对，从而清楚优化了Meissonic在处置复杂揭示（如多样格调和虚构角色）以及形象概念方面的才干。

阶段三：成功高分辨率图像生成

在Masked Image Modeling（MIM）畛域，生成高分辨率图像依然是一个应战。Meissonic经过特色紧缩技术高效成功了1024×1024分辨率的图像生成。引入特色紧缩层后，模型能够在较低计算老本下成功从512×512到1024×1024的平滑过渡，此阶段的数据集经过进一步挑选，仅保管约600万对高分辨率、高品质的图文配对，以1024分辨率启动训练。

阶段四：精细化美学细节生成

在最后阶段，Meissonic经过低学习率微调模型和文本编码器，并引入人类偏好评分作为训练条件，进一步优化了生成图像的品质和多样性。这一阶段的训练数据与第三阶段坚持分歧，但愈加器重对高分辨率图像生成的美学细节的打磨。

经过上述四个阶段的训练，Meissonic在训练数据和计算老本上成功了清楚降落。详细而言，在训练环节中，Meissonic仅经常使用210万张图像，相较于其余干流模型（如SD-1.5和Dall-E 2），训练数据的经常使用量清楚增加。

在经常使用8个A100 GPU启动训练的状况下，Meissonic的训练期间仅需19天，清楚低于Würstchen、SD-2.1等模型的训练期间。

宽泛影响

最近，移动设施上的端侧文本到图像运行如谷歌Pixel 9的Pixel Studio和苹果iPhone 16的Image Playground相继推出，反映出优化用户体验和包全隐衷的日益趋向。作为一种资源高效的文本到图像基座模型，Meissonic在这一畛域代表了关键的停顿。

此外，来自斯坦福大学的守业团队Collov Labs在一周内就成功复现出雷同架构的Monetico，生功效果可以与Meissonic相媲美，推理效率愈加高效，并荣登huggingface趋向榜第一名。这也显示出Meissonic架构在资源高效上的渺小后劲和运行价值。

参考资料：

分散模型 SDXL 基础模型

<<机器学习中必会的最强总结个关键术语！！ 15

微软甲骨文协作减速云转型上部署 Oracle 可在数据库服务 Azure>>

逾越SDXL！ 分散模型失宠 端侧非自回归图像生成基础模型Meissonic退场