多模态对齐在小红书介绍的钻研及运行
在 CIKM 2024 上,小红书中台算法团队提出了一种翻新的联结训练框架 AlignRec,用于对齐多模态表征学习模型和共性化介绍模型。本文指出,由于多模态模型与介绍模型在训练环节中存在步伐不分歧疑问,造成联结训练被介绍信号主导,从而失落少量多模态信息。AlignRec 经过火阶段对齐的形式,设计了三种针对性的优化损失函数,使得联结训练能够同时统筹多模态信息和介绍信息。试验结果标明,AlignRec 在多个数据集上的功能超越了现有的 SOTA(state-of-the-art)模型。此外,AlignRec 还提供了在宽泛经常使用的地下数据集亚马逊上的预处置特色,这些特色的效果清楚优于现有的开源特色。
最近多模态是个十分抢手的话题,尤其是在大模型以及 AIGC 畛域,多模态基建和技术是走向未来商业化的奠基石。在过去的多模态大模型钻研方向上,模态的“对齐”曾经被验证十分关键,散布的不分歧侵害不同模态的了解,咱们此无所谓探讨的外围疑问是多模态在介绍中的对齐疑问;
在详细引见论文上班之前,咱们先来引见下咱们过去在介绍和电商中的通常上班:
介绍通常
上述方法是咱们对 BM3论文启动改良 上线的打算,该打算实践上做的是经过损失函数来成功“对齐”上班。咱们的对模型的希冀也是保管共性化的同时,能够对齐行为和多模态的空间,进一步参与长尾的共性化散发才干。先说效果:
该模型试验在介绍发现页取得时长、曝光、点击等内围目的收益,除此之外,在长尾散发上,0 粉作者笔记点击和曝光取得大幅增长,整个召回路参与了全局可散发笔记数 6%,散发笔记集中在 1k-5k 的笔记曝光汇合; 同时,咱们的方法也被复用在了电商场景,散发长尾同时,取得 DGMV 等内围目的收益。
很显然,从上述可以看出,“对齐”的效果空谷传声,在业界运行上咱们曾经取得实质性停顿,但实质上这样的设计打算依然并没有齐全处置多模态介绍疑问,由于咱们的多模态模型和介绍模型是相对割裂的,同等于间接拿表征来经常使用,这样的设计买通了运行范式,却不可判别多模态模型自身才干对效果的下限,关于选用适合多模态表征存在必定的难度。但假设咱们引入文本/图等 Encoder(Transformer)等启动联结训练,会引入如下的疑问:
所以咱们设计联结训练模型,经过设计分阶段对齐的形式和两边目标评价,处置上述联结训练疑问,并且引入了三种针对性的优化损失函数,使得联结训练能够同时统筹多模态信息和介绍信息,处置联结训练中的“对齐”疑问,优化效果下限。
上方咱们从关系上班,外围应战,模型设计引见全体上班。
咱们在这里经过 (a), (b), (c) 形容了在过往的学术界目前多模态介绍方向的关系上班,总结关键的开展门路:
在工业界,现阶段介绍系统关键还是依赖于 ID 特色的学习, 大少数多模态介绍把多模态信息作为 sideinfo 去辅佐 ID 特色的学习。然而, 多模态之间以及 ID 模型与多模态之间都存在着语义鸿沟, 间接经常使用甚至或者大失所望。
外围应战
为了贴合业界实践,设计一款有效的多模态与介绍联结训练模型会遇到如下的应战:
咱们所提出的方法命名为 AlignRec,全体框架如下图所示, 关键蕴含3个模块: Multimodal Encoder Module, Aggregation Module, 以及 Fusion Module, 上方区分启动引见。
Multimodal Encoder Module