聊聊Meta近期的介绍系统大模型

2024-11-15

最近，Meta宣布了两篇和介绍系统关系的大模型上班，这类上班不是讲NLP等畛域的大模型运行到介绍系统，而是间接经常使用介绍系统的数据训练大模型。不时以来，阻碍CTR预估等模型朝大模型开展的一个阻碍是，这类模型并不存在像NLP、CV畛域模型中的scaling law，即模型的成果随着模型尺寸增大、训练数据参与而成果优化，单纯参与模型尺寸看起来并不能优化成果。

当天就跟大家讨论2篇近期Meta宣布的大模型介绍系统上班，这两篇上班设计了不同的方法，建设了介绍系统模型的scaling law。

介绍系统中的Scaling Law

论文题目 ：Wukong: Towards a Scaling Law for Large-Scale Recommendation

下载地址 ：

这篇文章讨论了介绍系统中的模型为什么不遵照scaling law，并提出了一种新的模型结构，可以成功scaling law。从下图可以看出，本文提出的Wukong模型随着复杂度的优化，成果是继续优化的，而其余模型随着复杂度优化，成果优化缓慢或许不再优化。

Wukong的模型结构如下图所示，外围可以分为embedding层、Wukong Layer、深层网络搭建三个局部。

embedding层 ：底层category特色经过embedding table获取对应向量，dense特色经常使用MLP启动映射，一切embedding都做成unit的方式，每个embedding的维度相反。关于关键的特色经常使用多个unit，关于不关键的特色多个经常使用一个unit；

Wukong Layer ：因为FMB和LCB组成。FMB就是factorization machine，启动特色间的二阶交叉，经过多层重叠成功恣意阶特色交叉；LCB就是全衔接；FMB和LCB的输入embedding拼接到一同；

深层网络 ：多层Wukong Layer重叠，经常使用残差网络和Layer Normalization优化网络训练的稳固性。

大模型生成式介绍系统

论文题目 ：Actions Speak Louder than Words: Trillion-Parameter Sequential Transducers for Generative Recommendations

下载地址 ：

这篇文章最近也比拟火，钻研并在业务上落地了第一个生成式介绍系统大模型，对整个建模方式、义务定义都启动了大幅度的修正，可以说是近期介绍系统最具推翻性的上班之一。因为论文中一些细节并没有引见，因此依据一些阅历大抵恢复文中的建模方法。 关键从数据组织方式、义务定义、模型结构等3个方面启动引见。

数据组织方式 ：一切输入特色组织成序列的方式。选用一个最长的序列作为主序列，这里普通就是用户的历史行为item，比如历史观看的视频、历史点击或购置的商品。在每一个item前面，拔出用户对这个item的行为，或许是点击、转化、未点击等。其余的序列作为辅佐序列，也拔出到主序列中，这些辅佐序列变动比拟缓慢，比如用户的关注列表、天文位置等，在有变动的时刻才拔出到序列里。最终生成一个长序列，记载了用户历史的一切交互行为、属性变动。关于userid等静态消息，前面经过相似position embedding的方式输入Transformer中。关于数值类型特色，文中间接疏忽掉，让模型智能从长序列中学到关系消息。

义务定义 ：一切义务都嵌入到这个序列生成模型中。关于召回义务，应用自回归的方式预测用户下一个点击item的概率散布，选用topK个item；关于排序义务，在最后一个token上接不同的MLP head启动多个预估指标的多义务学习。每个位置的预测，都会应用到下面构建的历史全序列消息。

模型结构 ：模型主体驳回Transformer，将长序列输入Transformer中启动消息交互。关键改变，一方面是将原来Transformer的softmax建模方法，修正为point-wise的方法，每个位置的Q*K内积结果前面接一个SiLU激活函数，获取非归一化的打分，再和V相乘。另一方面是在QKV作用的结果之后，参与了一个layernorm和与U的点积，U也是和QKV相似的生成方式，这比拟相似于MaskNet的结构，用来成功特色的进一步交叉。

该打算在Meta曾经落地到相应场景中，取得了比原来的介绍系统形式更优的成果。

本文转载自，作者：

<<GraphRAG RAG 架构设计精髓微软与传统

比GraphRAG还好的LightRAG究竟是何方神圣>>

聊聊Meta近期的介绍系统大模型

介绍系统中的Scaling Law

大模型生成式介绍系统

您可能还会对下面的文章感兴趣：

随便看看