多模态对齐在小红书介绍的钻研及运行

2024-11-14

在 CIKM 2024 上，小红书中台算法团队提出了一种翻新的联结训练框架 AlignRec，用于对齐多模态表征学习模型和共性化介绍模型。本文指出，由于多模态模型与介绍模型在训练环节中存在步伐不分歧疑问，造成联结训练被介绍信号主导，从而失落少量多模态信息。AlignRec 经过火阶段对齐的形式，设计了三种针对性的优化损失函数，使得联结训练能够同时统筹多模态信息和介绍信息。试验结果标明，AlignRec 在多个数据集上的功能超越了现有的 SOTA（state-of-the-art）模型。此外，AlignRec 还提供了在宽泛经常使用的地下数据集亚马逊上的预处置特色，这些特色的效果清楚优于现有的开源特色。

最近多模态是个十分抢手的话题，尤其是在大模型以及 AIGC 畛域，多模态基建和技术是走向未来商业化的奠基石。在过去的多模态大模型钻研方向上，模态的“对齐”曾经被验证十分关键，散布的不分歧侵害不同模态的了解，咱们此无所谓探讨的外围疑问是多模态在介绍中的对齐疑问；

在详细引见论文上班之前，咱们先来引见下咱们过去在介绍和电商中的通常上班：

介绍通常

上述方法是咱们对 BM3论文启动改良上线的打算，该打算实践上做的是经过损失函数来成功“对齐”上班。咱们的对模型的希冀也是保管共性化的同时，能够对齐行为和多模态的空间，进一步参与长尾的共性化散发才干。先说效果：

该模型试验在介绍发现页取得时长、曝光、点击等内围目的收益，除此之外，在长尾散发上，0 粉作者笔记点击和曝光取得大幅增长，整个召回路参与了全局可散发笔记数 6%，散发笔记集中在 1k-5k 的笔记曝光汇合；同时，咱们的方法也被复用在了电商场景，散发长尾同时，取得 DGMV 等内围目的收益。

很显然，从上述可以看出，“对齐”的效果空谷传声，在业界运行上咱们曾经取得实质性停顿，但实质上这样的设计打算依然并没有齐全处置多模态介绍疑问，由于咱们的多模态模型和介绍模型是相对割裂的，同等于间接拿表征来经常使用，这样的设计买通了运行范式，却不可判别多模态模型自身才干对效果的下限，关于选用适合多模态表征存在必定的难度。但假设咱们引入文本/图等 Encoder（Transformer）等启动联结训练，会引入如下的疑问：

所以咱们设计联结训练模型，经过设计分阶段对齐的形式和两边目标评价，处置上述联结训练疑问，并且引入了三种针对性的优化损失函数，使得联结训练能够同时统筹多模态信息和介绍信息，处置联结训练中的“对齐”疑问，优化效果下限。

上方咱们从关系上班，外围应战，模型设计引见全体上班。

咱们在这里经过 (a), (b), (c) 形容了在过往的学术界目前多模态介绍方向的关系上班，总结关键的开展门路：

在工业界，现阶段介绍系统关键还是依赖于 ID 特色的学习, 大少数多模态介绍把多模态信息作为 sideinfo 去辅佐 ID 特色的学习。然而, 多模态之间以及 ID 模型与多模态之间都存在着语义鸿沟, 间接经常使用甚至或者大失所望。

外围应战

为了贴合业界实践，设计一款有效的多模态与介绍联结训练模型会遇到如下的应战：

咱们所提出的方法命名为 AlignRec，全体框架如下图所示, 关键蕴含3个模块: Multimodal Encoder Module, Aggregation Module, 以及 Fusion Module, 上方区分启动引见。

Multimodal Encoder Module

多模态

<<介绍算法集锦上

RAG 经过检索增强生成增强LLM的实战演练>>

多模态对齐在小红书介绍的钻研及运行

介绍通常

外围应战

Multimodal Encoder Module

您可能还会对下面的文章感兴趣：

随便看看