国际首个中文原生DiT架构SOTA大模型片面开源！

2024-11-14

十分令人激动，腾讯混元文生图大模型已在 Hugging Face 平台及 Github 上颁布，蕴含模型权重、推理代码、模型算法等完整模型。

且不论是企业还是团体开发者，所有收费可用。

主页：代码：

上方来详细引见下混元大模型的技术细节，等候国际更多大模型能颁布，让AIGC行业运行片面迸发：

Hunyuan-DiT ，这是一种具有细粒度了解才干的文本到图像分散transformer，能够处置中文和英文。为了构建Hunyuan-DiT，精心设计了transformer结构、文本编码器和位置编码。此外，还从头开局建设了完整的数据pipeline，以降级和评价数据，启动迭代的模型优化。

为了成功细粒度的言语了解，训练了一种多模态大言语模型，用于细化图像的题目形容。

最终，Hunyuan-DiT能够与用户启动多轮多模态对话，依据高低文生成和优化图像。经过咱们综合的人类评价协定，超越50位专业评价员介入评价，Hunyuan-DiT在中文到图像生成方面相比其余开源模型设立了新的标杆。

引见

基于分散的文本生成图像模型，如DALL-E、Stable Diffusion和Pixart，曾经展现了生成史无前例品质图像的才干。但是，它们不足间接了解中文揭示的才干，限度了其在中文文本揭示下的图像生成后劲。为了提高中文了解才干，提出了AltDiffusion、PAI-Diffusion和Taiyi，但它们的生成品质仍需改良。

在本报告中，引见了构建Hunyuan-DiT的完整流程，该模型可以依据中文和英文揭示生成不同分辨率的高品质详细图像。

Hunyuan-DiT的奉献：

为了片面评价Hunyuan-DiT的性能，还制订了一个蕴含50多位专业评价员的评价协定。该协定细心思考了文本生成图像模型的不同维度，包括文本-图像分歧性、AI伪影、主体明晰度、美学等。评价协定被归入数据护航中以更重生成模型。

Hunyuan-DiT在开源模型中成功了SOTA性能。在中文生成图像方面，Hunyuan-DiT在文本-图像分歧性、扫除AI伪影、主体明晰度和美学方面优于现有开源模型，包括Stable Diffusion 3。在主体明晰度和美学方面，其体现与顶级闭源模型如DALL-E 3和MidJourney v6相当。

在中文元素了解方面，包括现代汉诗和中国菜等类别，Hunyuan-DiT生成的图像品质和语义准确性较其余比拟算法更高。Hunyuan-DiT支持长文本了解，最多可达256个token。Hunyuan-DiT可以经常使用中文和英文文本揭示生成图像。在本报告中，除非另有说明，一切图像均经常使用中文揭示生成。

方法

基于分散transformer的改良生成

Hunyuan-DiT 是一个在潜空间中运转的分散模型，如下图7所示。依照潜分散模型（Latent Diffusion Model），经常使用预训练的变分自编码器（VAE）将图像紧缩到低维潜空间，并训练一个分散模型来学习数据散布。分散模型经过transformer启动参数化。为了编码文本揭示，结合了预训练的双语（中文和英文）CLIP和多言语T5编码器。上方将详细引见每个模块。

经常使用SDXL中的VAE，该模型在512 × 512图像上启动了微调，基于SD 1.5的VAE。试验结果显示，基于高分辨率SDXL VAE训练的文本到图像模型在明晰度、过饱缓和解和失真缩小方面优于SD 1.5 VAE。由于VAE的潜空间极大地影响生成品质，将在未来探求更好的VAE训练范式。

文本编码器 一个高效的文本编码器在文本生成图像环节中至关关键，由于它们须要准确了解和编码输入的文本揭示以生成对应的图像。CLIP和 T5已成为这些编码器的干流选用。Matryoshka分散模型、Imagen、MUSE和 Pixart-α仅经常使用 T5 来增强对输入文本揭示的了解。相比之下，eDiff-I和 Swinv2-Imagen融合了 CLIP 和 T5 两种编码器，以进一步提高其文本了解才干。Hunyuan-DiT 选用结合 T5 和 CLIP 启动文本编码，以应用这两种模型的长处，从而增强文本生成图像环节的准确性和多样性。

位置编码和多分辨率生成 在视觉transformer中，一种经常出现的做法是运行正弦位置编码来编码token的相对位置。在Hunyuan-DiT中，驳回旋转位置embedding（RoPE），同时编码相对位置和相对位置依赖性。经常使用二维RoPE，将RoPE裁减到图像域。

虽然裁减位置编码更易于成功，但咱们发现它在多分辨率训练中是次优选用。它无法对齐不同分辨率的图像，也无法笼罩 h 和 w 都较大的稀有状况。相反，中心插值位置编码准许不同分辨率的图像共享相似的位置编码空间。经常使用中心插值位置编码，模型收敛更快，并能更好地推行到新分辨率。

提高训练稳固性 为了稳固训练，提出了三种技术：

数据pipeline

数据处置

训练数据预备pipeline由四局部组成，如图20所示：

数据类别系统

咱们发现训练数据中数据类别的笼罩范围关于训练准确的文本生成图像模型至关关键。这里咱们探讨两个基本类别：

数据评价

为了评价引入专业数据或新处置数据对生成模型的影响，设计了一个“数据护航”机制，如图21所示，详细包括：

成功运转该机制须要一个完整的文本生成图像模型评价协定。咱们的模型评价协定由两局部组成：

细粒度中文了解的题目优化

从互联网上抓取的图文对通常是低品质的，为图像提供更好的对应题目对训练文本生成图像模型十分关键。Hunyuan-DiT 驳回训练良好的多模态大言语模型（MLLM）来重重生成原始图文对的题目，以提高数据品质。驳回结构化题目来片面形容图像。此外，还经常使用原始题目和蕴含环球常识的专家模型，以便在重重生成题目时生成不凡概念。

经常使用结构化题目重重生成题目 现有的MLLMs，例如 BLIP-2 和 Qwen-VL，往往生成过于简化的题目，这些题目相似于 MS-COCO 题目或高度冗余且与图像有关的题目。为了训练适宜改良原始图文对的MLLM，咱们构建了一个大规模的结构化题目数据集，并对MLLM启动了微调。

咱们经常使用AI辅佐pipeline来构建数据集。人工标注图像题目十分艰巨，且标注品质难以规范化。因此，经常使用三阶段pipeline，经过AI辅佐提高标注效率。在第一阶段，集成多个基本图像标注模型的题目，并结合人工标注，取得初始数据集。在第二阶段，用初始数据集训练MLLM，而后用训练好的模型为图像生成新题目。随着重重生成题目准确性的提高，人工标注的效率提高了约4倍。

咱们的模型结构相似于LLAVA-1.6，由视觉局部的ViT、言语局部的仅解码LLM和衔接视觉与文本的适配器组成。训练目的是与其余自回归模型相反的分类损失。

经过消息注入重重生成题目 在人类对结构化题目启动标注时，环球常识总是缺失的，由于人类无法能识别图像中的一切不凡概念。咱们驳回两种方法将环球常识注入题目中：

多轮对话中的揭示增强

了解人造言语指令并与用户启动多轮交互关于文本到图像系统至关关键。它有助于建设一个灵活而迭代的创作环节，逐渐将用户的想法逐突变为事实。在本节中，咱们将详细引见如何赋予Hunyuan-DiT口头多轮对话和图像生成的才干。曾经有许多上班致力为文本到图像模型装备了经常使用MLLM的多轮配置，例如Next-GPT、SEED-LLaMA、RPG和DALLE-3。这些模型要么经常使用MLLM生成文本揭示，要么经常使用文本嵌入来为文本到图像模型生成文本。咱们选用了第一种选用，由于生成文本揭示更灵敏。咱们训练MLLM以了解多轮用户对话并输入用于图像生成的新文本揭示。

主题分歧性的保障 在多轮文本到图像中，用户或者要求AI系统屡次编辑特定主题。咱们的目的是确保跨多个对话轮次生成的主题尽或者坚持分歧。为了成功这一目的，咱们在对话AI代理的“对话揭示”中参与了以下解放条件。关于基于前几轮生成的图像启动的图像生成，转换后的文本揭示应满足用户的需求，同时尽量少地扭转与之前图像经常使用的文本揭示。此外，在给定对话的推理阶段，咱们固定了文本到图像模型的随机种子。这种方法清楚参与了对话中的主题分歧性。

推理阶段的优化

工程优化 将Hunyuan-DiT部署给用户是低廉的，咱们驳回了多种工程优化战略来提高推理效率，包括ONNX图优化、内核优化、运算符融合、估量算和GPU内存重用。

算法减速 最近，提出了各种方法来缩小基于分散的文本到图像模型的推理步骤。咱们尝试将这些方法运行于减速Hunyuan-DiT，出现了以下疑问：

思考到这些疑问，咱们选用了渐进蒸馏。它具有稳固的训练，并准许在减速比和性能之间平滑地启动掂量，为咱们提供了最廉价和最快的模型减速模式。为了激励在校生模型准确模拟老师模型，咱们在训练环节中细心调整了优化器、无分类器指点和正则化。

评价协定

评价目的

评价维度 ：在确定评价维度时，参考了现有文献，并另外约请了专业设计师和个别用户介入访谈，以确保评价目的既具有专业性又具有适用性。详细来说，在评价咱们的文本到图像模型的才干时，驳回了以下四个维度：文本-图像分歧性、AI伪影、主题明晰度和全体美感。关于惹起安保疑问的结果（如触及色情、政治、暴力或流血等），间接token为无法接受。

多轮交互评价 ：在评价多轮对话交互的才干时，还评价了额外的维度，如指令合乎性、主题分歧性和多轮揭示增强对图像生成的性能。

评价数据集构建

数据集构建 将人工生成的测试揭示与人类创立的测试揭示相结合，构建了一个具有各种难度级别的分层评价数据集。详细而言，咱们依据文本揭示内容的丰盛水平、形容元素的数量（主题、主题润色语、背景形容、格调等）、元素能否经常出现以及能否蕴含形象语义（如诗歌、成语、谚语等）等起因，将评价数据集分为三个难度级别 - 便捷、中等和艰巨。

此外，由于经常使用人工创立测试揭示时存在同质性和常年消费周期的疑问，咱们依赖于LLM来参与测试揭示的多样性和难度，极速迭代揭示生成，并缩君子工休息。

评价数据集类别和散布 在构建分层评价数据集的环节中，剖析了用户在经常使用文本到图像生成模型时经常使用的文本揭示，并结合用户访谈和专家设计师意见，笼罩了配置运行、角色性质、中国元素、多轮文本到图像生成、艺术格调、主题细节等关键类别。

不同的类别进一步分为多个档次。例如，“主题细节”类别进一步细分为生物、植物、车辆和地标等子类别。关于每个子类别，咱们坚持揭示数量超越30。

评价口头

评价团队 评价团队由专业评价人员组成。他们具有丰盛的专业常识和评价阅历，能够准确口头评价义务并提供深化剖析。评价团队领有50多名成员。

评价流程 评价流程包括两个阶段：评价规范培训和多人校对。在评价规范培训阶段，咱们为评价人员提供详细的培训，以确保他们对评价目的和工具有明晰的了解。在多人校对阶段，让多名评价人员独立评价同一组图像，而后总结和剖析评价结果，以减轻评价人员之间的客观成见。

特地是，评价数据集以3级分层模式构建，包括8个一级类别和70多个二级类别。关于每个二级类别，咱们在评价集中有30 - 50个揭示。评价集总共有3000多个揭示。详细来说，咱们的评价分数计算步骤如下：

经过上述环节，咱们可以取得模型在不同类别级别上的经过率，以及总体经过率，从而片面评价模型的性能。

评价结果剖析 ：在评价后，咱们对结果启动深化剖析，包括：

评价协定演进

在评价框架的继续优化中，将思考以下几个方面来改良咱们的评价协定以顺应新的应战：

结果

定量评价

与最新技术的比拟 将混沌-DiT与最新技术的模型启动了比拟，包括开源模型（Playground 2.5、PixArt-α、SDXL）和闭源模型（DALL-E 3、SD 3、MidJourney v6）。遵照前面中的评价协定。一切模型都在四个维度上启动评价，包括文本-图像分歧性、扫除AI伪像的才干、主题明晰度和美感。如表1所示，与其余开源模型相比，Hunyuan-DiT在一切四个维度上取得了最佳得分。与闭源模型相比，Hunyuan-DiT在主题明晰度和图像美感方面可以到达与MidJourney v6和DALL-E 3等SOTA模型相似的性能。就总体经过率而言，Hunyuan-DiT在一切模型中排名第三，优于现有的开源代替打算。Hunyuan-DiT总共有15亿参数。

消融钻研

试验设置 咱们遵照先前钻研中的设置，在MS COCO 256×256验证数据集上经常使用零样本Frechet Inception Distance（FID）评价模型的不同变体，经过从验证集中的揭示生成30,000张图像。还报告了这些生成图像的平均CLIP分数，以审核文本揭示和图像之间的对应相关。这些消融钻研是在较小的0.7B分散Transformer上启动的。

跳过模块的影响 长跳过衔接用于在U-Net中的对称位置的编码和解码层之间成功特色融合。咱们在Hunyuan-DiT中经常使用跳过模块来模拟这种设计。如图所示，观察到去除长跳过衔接会参与FID并降低CLIP分数。

旋转位置编码（RoPE） 将正弦位置编码（DiT中的原始位置编码）与RoPE启动了比拟。结果如图15所示。咱们发如今大少数训练阶段，RoPE位置编码的性能优于正弦位置编码。特地是，咱们发现RoPE减速了模型的收敛。咱们假定这是由于RoPE能够封装相对位置消息和相对位置消息。

咱们还评价了在文本特色中蕴含一维RoPE位置编码的状况，如图15所示。咱们发现，将RoPE位置编码参与到文本嵌入中并没有带来清楚的收益。文本编码器咱们评价了三种文本编码打算：

在图16中，仅经常使用CLIP编码器的性能优于仅经常使用多言语T5编码器。此外，将双语CLIP编码器与多言语T5编码器相结合，充沛应用了CLIP的高效语义捕捉才干和T5的细粒度语义了解长处，造成FID和CLIP分数清楚提高。

咱们还在图17中探求了两种兼并CLIP和T5特色的方法：沿通道维度兼并和沿长度维度兼并。咱们发现，沿文本长度维度衔接文本编码器的特色可以取得更好的性能。咱们的假定是，经过沿文本长度维度衔接，模型可以充沛应用Transformer的全局留意力机制来聚焦于每个文本槽。这有助于更好地理解和整合T5和CLIP提供的不同维度的语义消息。

总结

本报告引见了构建Hunyuan-DiT的整个流程，这是一个具有了解中文和英文才干的文本到图像模型。报告说明了Hunyuan-DiT的模型设计、数据处置和评价协定。经过从不同方面的致力结合起来，Hunyuan-DiT在开源模型中成功了在中文到图像生成方面的最佳性能。宿愿Hunyuan-DiT能成为社区训练更好的文本到图像模型的有用参考。

原文链接:

<<揭去奥秘面纱张俊林 Sora关键技术逆向工程图解

Mistral 谷歌&amp 具有空间看法的文本 AI颁布TIPS>>