抖音 AI绘本特效 播放超11亿 豆包大模型再造爆款

国庆时期,抖音上一款名为“AI治愈绘本”的特效仰仗暖和柔美的画风和高恢复度吸引了数百万用户投稿,驳回了灵活绘本的拟物玩法,“AI治愈绘本”特效初次经常使用了3D平面翻书的方式,奇妙地将首张用户图作为书皮出现,玩法陈腐幽默。基于该特效投稿的“成为绘本里的暖和主角”话题播放量超越11亿。

据了解,“AI治愈绘本”特效底层经常使用了 的图像生成才干,技术团队经过多项自研算法,保证了模型有更好的格调照应度、画面美观度,让格调化效果更富裕体现力,并且更大水平恢复了人物面部特色、服装样式、色彩、配饰等主体特色,在“美且像”的维度上取得了良好的效果。

为出现更好的交互方式,技术团队还经常使用了自研的主体抹除、扩图才干,对格调化结果图启动后解决,使得多张结果图可以在端上启动切换。上述环节中运行到的IP坚持技术RealCustom和 AI扩图和AI消弭技术ByteEdit,两项效果区分中选CVPR2024和ECCV2024。

RealCustom :生功效果又美又像自己的IP坚持技术

RealCustom是一种共性化定制技术即IP坚持,关于恣意开放域物体或人物 IP 均可成功无需微调的实时定制化生成,在AI绘本中重要起到坚持输入图片特色的作用。不同于以往格调化特效中用的图片特色坚持方法, RealCustom不只能够恢复图片的细节特色,还具有对图片的形象语义了解,从而可以依据文本输入自顺应地做出变动,并生成愈加谐和的效果。为了更好的恢复主体外观,RealCustom经常使用了多个档次的图片消息融合,为了让视觉消息跟文本消息能更好的融合,RealCustom 经过自顺应模块学习了视觉条件与文本条件之间的对齐才干,并依据不同时辰的形态准确地推导出相应的视觉条件。从而能对用户多种多样的输入做出自顺应的解决,在保证难看的格调化效果的同时,稳固的坚持图片特色。

RealCustom 论文已中选CVPR2024,了解具体内容见:,

ByteEdit:让填充背景更人造谐和的AI扩图和AI消弭才干

特效中用到了AI扩图和AI消弭的才干,其中AI消弭是指消弭图像中指定的某个物体或区域,并依据周围的背景来填充消弭位置的内容;AI扩图则依据指定的裁减比例来延展原图像的内容。这两个义求实质上都是依据已知图像的内容去填充周围的区域,重点在于如何让填充的内容和原图没有违和感。

为了到达这个目标,首先,技术团队增大了训练数据量级,让模型「看到」更多泛化场景,此外,ByteEdit提出了一种翻新的框架,应用反应学习来增强生成性图像编辑义务。ByteEdit经过集成图像鼓励模型来优化美学品质、图像与文本的分歧性,并引入密集的像素级鼓励模型以增强输入的分歧性,让宿愿填充的区域和非填充区域愈加的谐和。此外,提出了一种反抗性和渐进式反应学习战略,以放慢模型的推理速度。

左:鼓励模型前生成的图;右:添加鼓励模型后的图。

左:鼓励模型前生成的图;右:添加鼓励模型后的图。

除此之外,“AI治愈绘本”特效可以允许用户上行多张图,在做才干部署时,技术团队针对该场景独自做了一套多服务并行逻辑以及功能减速战略,最大水平保证了在流量高峰期时,能够在最短时期内将格调化结果图、后解决结果图等顺利前往到端上。端上失掉多张结果图后,技术团队附丽自研的书本3D静止和阴影追随算法,对书内各个物体的静止曲线启动参数智能化调整,在模拟书本翻页以及内页跳出的环节中,阴影效果可以随书页人造移动,更大水平保管了书页翻动的平面感与人造感,边缘的阴影过渡相对流利。

豆包大模型是字节跳动自研的大言语模型,经过字节跳动旗下云服务平台火山引擎面向企业开放服务。目前豆包模型家族已片面笼罩言语、语音、图像、视频等全模态,全方位满足不同行业和畛域的业务场景需求。

您可能还会对下面的文章感兴趣: