同架构可收费商用重磅！腾讯发表混元文生图大模型开源 Sora 中英文原生DiT

2024-11-14

5月14日，腾讯发表旗下的混元文生图大模型片面更新并对外开源，目前已在 Hugging Face 平台及 Github 上发布，蕴含模型权重、推理代码、模型算法等完整模型，可供企业与团体开发者收费商用。

这是业内首个中文原生的DiT架构文生图开源模型，允许中英文双语输入及了解，参数量15亿。更新后的混元文生图大模型驳回了与 sora 分歧的DiT架构，不只可允许文生图，也可作为视频等多模态视觉生成的基础。

评测数据显示，最新的腾讯混元文生图模型效果远超开源的 Stable Diffusion 模型，是目前效果最好的开源文生图模型；全体才干属于国际上游水平。

自研新一代文生图模型

大模型的优秀体现，离不开上游的技术架构。更新后的腾讯混元文生图大模型驳回了全新的DiT架构（DiT，即Diffusion With Transformer），这也是Sora和 Stable Diffusion 3 的同款架构和关键技术，是一种基于Transformer架构的分散模型。

过去，视觉生成分散模型重要基于 U-Net 架构，但随着参数量的优化，基于 Transformer 架构的分散模型展现出了更好的裁减性，有助于进一步优化模型的生成品质及效率。腾讯混元是业界最早探求并运行大言语模型结合 DiT 结构的文生图模型之一。从 2023 年 7 月起，腾讯混元文生图团队就明白了基于DiT架构的模型方向，并启动了新一代模型研发。往年终，混元文生图大模型已片面更新为DiT架构。

在DiT架构之上，腾讯混元团队在算法层面优化了模型的长文本了解才干，能够允许最多 256 字符的内容输入，到达行业上游水平。同时，在算法层面翻新成功了多轮生图和对话才干，可实如今一张初始生成图片的基础上，经过人造言语形容启动调整，从而到达更满意的效果。

中文原生 也是腾讯混元文生图大模型的一大亮点，此前，像 Stable Diffusion 等干流开源模型外围数据集以英文为主，对中国的言语、美食、文明、习俗都了解不够。混元文生图是首个中文原生的DiT模型，具有中英文双语了解及生成才干，在新诗词、俚语、传统修建、中富丽食等中国元素的生成上体现杰出。

评测结果显示，新一代腾讯混元文生图大模型视觉生成全体效果，相比前代优化超越 20%，在语义了解、画面质感与实在性方面片面优化，在多轮对话、多主体、中国元素、实在人像生成等场景下效果优化清楚。

为了片面比拟HunyuanDiT与其余模型的生成才干，钻研团队构建了4个维度的测试集，包括文本图像分歧性、扫除AI伪影、主题明晰度、审美。 超越50名专业评价人员 启动评价。

目前Hunyuan-DiT曾经在HuggingFace和Github上开源，感想趣的好友可亲手体验一番。

腾讯混元文生图才干，曾经宽泛被用于素材创作、商品分解、游戏出图等多项业务及场景中。往年终，腾讯广告基于腾讯混元大模型，发布了一站式 AI 广告创意平台腾讯广告妙思，可为广告主提供文生图、图生图、商品背景分解等多场景创意工具，有效提高了广告消费及投放效率。《央视资讯》《新华日报》《深圳特区报》《南边都市报》《羊城晚报》等20余家媒体，也曾经将腾讯混元文生图用于资讯内容消费。

腾讯文生图担任人芦清林示意：“腾讯混元文生图的研发思绪就是适用，保持从通常中来，到通常中去。此次把最新一代模型完整开源进去，是宿愿与行业共享腾讯在文生图畛域的通常阅历和钻研成绩，丰盛中文文生图开源生态，共建下一代视觉生成开源生态，推进大模型行业减速开展。”

基于腾讯此次开源的文生图模型，开发者及企业无需重头训练，即可间接用于推理，并可基于混元文生图打造专属的AI绘画运行及服务，能够浪费少量人力及算力。透明地下的算法，也让模型的安保性和牢靠性获取保证。

同时，基于放开、前沿的混元文生图基础模型，也无利于在以 Stable Diffusion 等为主的英文开源社区之外，丰盛以中文为主的文生图开源生态，构成更多样的原生插件，推进中文文生图技术研发和运行。

<<JavaScript 探寻不依赖的成功之道独自经常使用HTML原型

AI招聘时代下的红海竞争战略万码科技开创人周媛>>

同架构 可收费商用 重磅！腾讯发表混元文生图大模型开源 Sora 中英文原生DiT

自研新一代文生图模型

您可能还会对下面的文章感兴趣：

随便看看

同架构可收费商用重磅！腾讯发表混元文生图大模型开源 Sora 中英文原生DiT