AIGC 百度商业多模态了解及翻新通常

2024-11-14

首先来引见一下咱们对多模态内容的感知。

1、多模态了解

优化内容了解才干，让广告系统在细分场景下更懂内容。

在优化内容了解才干时，会遇到很多事实的疑问：

什么是好的多模态基础表征。

什么是一个好的多模态表征？

从广度上要扩展数据运行的范围，从深度上要优化视觉成果，同时保障场景的数据微调。

之前，惯例的思绪是，训练一个模型去学习图片的模态，一个自回归的义务，而后做文本的义务，再套用一些双塔的形式，去拉近二者的模态相关。那时的文本建模比拟便捷，大家更多的是在钻研视觉怎样建模。最开局是CNN，前面包括一些基于指标检测的形式去优化视觉的表征，比如bbox形式，但这种形式的检测才干有限，并且太重了，并不利于大规模的数据训练。

到了2020年和2021年前后， VIT形式成为了干流。这里不得不提的一个比拟有名的模型就是 OpenAI在20年颁布的一个模型CLIP，基于双塔的架构区分去做文本和视觉的表征。再用cosine去拉进二者的距离。该模型在检索上方十分低劣，但在VQA义务等一些须要逻辑推理的义务上，就稍显才干无余了。

学表征： 优化人造言语对视觉的基础感知才干。

咱们的指标就是要优化人造言语对视觉的基础感知才干。数据方面，咱们的商业域有着亿级的数据，但依然不够，咱们须要进一步扩展，引入商业域以往的数据，并启动荡涤和梳理。构建了百亿级别的训练集。

咱们构建了VICAN-12B多模态表征+生成模型，应用生成义务让视觉对文本的恢复，进一步确保视觉表征对文本的融合成果，优化人造言语对视觉的基础感知才干。上图中展现了模型的全体结构，可以看到它还是一个双塔+单塔的复合结构。由于首先要处置的是一个大规模图片检索的义务。左边的框中的局部咱们称之为视觉的感知器，是一个20亿参数规模的ViT结构。左边可以分两层看，上方为了做检索，是一个文本的transformer的重叠，上方为了做生成。模型分为了三个义务，一个是生成义务，一个是分类义务，一个是图片对比义务，基于这三个不同指标去训练模型，所以到达了比拟好的成果，但咱们还会进一步去优化。

一套高效、一致、可迁徙的多场景全域表征打算。

联合商业场景数据，引入了LLM模型优化模型了解才干。CV模型是感知器，LLM模型是了解器。咱们的做法就是须要把视觉特色启动相应的迁徙，由于刚才提到，表征是多模态的，大模型是基于文本的。咱们只要要让它去适配咱们的文心LLM的大模型就可以了，所以咱们须要应用Combo attention的形式，去做相应的特色融合。咱们须要保管大模型的逻辑推理才干，所以尽量不动大模型，只是添加商业场景反应数据，去促成视觉特色到大模型的融合。咱们可以用few shot的形式去撑持下义务。关键义务包括：

上方，重点分享下场景化精调。

2、场景化精调

视觉检索场景，基于基础表征的双塔微调。

以基础表征为基础，联合文本大模型，应用商业各场景的图片点击反应信号为Labelers，精细化描写不同场景图文偏序相关。咱们在7大数据集上启动了评测，均能到达SOTA的成果。

排序场景，受文本切词启示，将多模态特色语义量化。

表征以外，另一个疑问是如何优化排序场景中视觉的成果。先来看一下畛域背景，大规模团圆DNN为业内排序模型干流开展方向，团圆特色也是排序模型优化的外围。文本入模型，基于切词将其token化，与其余团圆特色组合，成果好。而关于视觉，咱们宿愿也能将其启动token化。

ID类特色其实是一个极具特性化的特色，然而泛化特色通用性好了，其描写精度或许就变差了。咱们须要经过数据和义务去灵活调理这个平衡点在哪。也就是宿愿找到一个和数据最相关的尺度，去把特色启动相应的”切词”变成一个ID，像文本一样去切分多模态特色。所以咱们提出了一个多尺度、多层级的内容量化学习方法，去处置这一疑问。

排序场景，多模态特色与模型的融合 MmDict。

关键分两步，第一步是学团圆，第二步是学融合。

Step1：学团圆

① 应用稀疏激活将延续信号用多个团圆化信号表白；也就是经过稀疏激活的形式把浓密特色启动切分，而后去激活对应多模态codebook外面的ID，但这外面其实只要argmax操作，会引来无法导的疑问，同时为了去防止特色空间的坍塌，添加了激活神经元与未激活神经元信息交互。

② 引入 STE 战略，处置网络无法导疑问， rebuild原始特色，保障偏序相关不变。

经过encoder-decoder的形式，把浓密特色启动序列量化，再经过正确的形式把量化进去的特色启动恢复。恢复前后要保障它的偏序相关不变，简直可以控制特色在详细义务上的量化损失小于1%，这样的ID具有了当下数据散布特性化的同时，还具有泛化特性。

Step2:学融合

① 与排序模型大规模团圆在 Sparse层融合。

那么刚才提到的隐层复用间接放在上方去，其实成果普通。假设把它ID化，量化之后，到sparse特色层和其余类的特色启动融合，有着比拟好的成果。

② 经过中心 -> 残差2层级， S-M-L 3种尺度，降落损失。

当然咱们也驳回了一些残差，以及多尺度的形式。从2020年开局，咱们把量化的损失逐渐压低，去年到达了一个点以下，这样就可以在大模型抽进去特色之后，咱们用这种可学习量化的形式对视觉内容启动描写，具有语义关联ID的特色其实十分适配咱们如今的商业系统，包括介绍系统的ID的这样一个探求的钻研形式。

二、擎舵

1、商业AIGC 深度联合营销，优化内容消费劲，效率成果联动优化

百度营销AIGC创意平台从灵感到创作，再到投放构成了一个完美的闭环。从解构、生成、反应都在推进优化咱们的AIGC。

2、营销文案生成 = 商业 Prompt 体系+ 文心大模型

一个好的商业Prompt，具有以下一些要素：

3、复合模态的营销数字人视频生成， 3 分钟发明 1 个数字人

视频生成目前曾经比拟成熟。但它其实依然存在着一些疑问：

前期经过prompt来输入，想生成一个什么样的视频，宿愿选用一个什么样的人，让他去说什么，都经过prompt来输入，而后咱们依据其诉求，能够准确控制咱们的大模型去生成相应的脚本。

接上去咱们可以经过咱们的数字人库去召回相应的数字人，然而或许应用AI技术进一步优化数字人的多样性，比如人脸交流、背景交流、口音语音交流去适配咱们的prompt，最后脚本、数字人唇形交流、背景交流、人脸交流，视频压抑之后，就可以获取一个口播视频。客户得以应用数字人的形式去引见产品对应的一些营销卖点。这样3分钟即可做好一个数字人，极大地优化了广告主做数字人的才干。

4、营销海报图生成，联合多模态表征的营销图片生成

大模型还可以协助商业成功营销海报的生成和商品背景的交流。咱们已有一个百亿规模的多模态表征，两边这一层是咱们学的一个分散，咱们基于好的灵活表征去学unet。经过大数据的训练之后，客户还宿愿有一些特意特性化的物品，所以咱们还须要添加一些微调的形式。

咱们提供了一个协助客户微调的打算，一个大模型灵活加载小参数的打算，这也是目前业界的一个通用的处置打算。

首先咱们为客户提供一个生图才干，客户可以经过编辑或许Prompt去扭转这个图片面前的背景。

AIGC 大模型

<<便捷而有局限性的求解形式深度学习

李彦宏称百度国际扩张暂避美国>>

AIGC 百度商业多模态了解及 翻新通常