聊聊Meta近期的介绍系统大模型
最近,Meta宣布了两篇和介绍系统关系的大模型上班,这类上班不是讲NLP等畛域的大模型运行到介绍系统,而是间接经常使用介绍系统的数据训练大模型。不时以来,阻碍CTR预估等模型朝大模型开展的一个阻碍是,这类模型并不存在像NLP、CV畛域模型中的scaling law,即模型的成果随着模型尺寸增大、训练数据参与而成果优化,单纯参与模型尺寸看起来并不能优化成果。
当天就跟大家讨论2篇近期Meta宣布的大模型介绍系统上班,这两篇上班设计了不同的方法,建设了介绍系统模型的scaling law。
介绍系统中的Scaling Law
论文题目 :Wukong: Towards a Scaling Law for Large-Scale Recommendation
下载地址 :
这篇文章讨论了介绍系统中的模型为什么不遵照scaling law,并提出了一种新的模型结构,可以成功scaling law。从下图可以看出,本文提出的Wukong模型随着复杂度的优化,成果是继续优化的,而其余模型随着复杂度优化,成果优化缓慢或许不再优化。
Wukong的模型结构如下图所示,外围可以分为embedding层、Wukong Layer、深层网络搭建三个局部。
embedding层 :底层category特色经过embedding table获取对应向量,dense特色经常使用MLP启动映射,一切embedding都做成unit的方式,每个embedding的维度相反。关于关键的特色经常使用多个unit,关于不关键的特色多个经常使用一个unit;
Wukong Layer :因为FMB和LCB组成。FMB就是factorization machine,启动特色间的二阶交叉,经过多层重叠成功恣意阶特色交叉;LCB就是全衔接;FMB和LCB的输入embedding拼接到一同;
深层网络 :多层Wukong Layer重叠,经常使用残差网络和Layer Normalization优化网络训练的稳固性。
大模型生成式介绍系统
论文题目 :Actions Speak Louder than Words: Trillion-Parameter Sequential Transducers for Generative Recommendations
下载地址 :
这篇文章最近也比拟火,钻研并在业务上落地了第一个生成式介绍系统大模型,对整个建模方式、义务定义都启动了大幅度的修正,可以说是近期介绍系统最具推翻性的上班之一。因为论文中一些细节并没有引见,因此依据一些阅历大抵恢复文中的建模方法。 关键从数据组织方式、义务定义、模型结构等3个方面启动引见。
数据组织方式 :一切输入特色组织成序列的方式。选用一个最长的序列作为主序列,这里普通就是用户的历史行为item,比如历史观看的视频、历史点击或购置的商品。在每一个item前面,拔出用户对这个item的行为,或许是点击、转化、未点击等。其余的序列作为辅佐序列,也拔出到主序列中,这些辅佐序列变动比拟缓慢,比如用户的关注列表、天文位置等,在有变动的时刻才拔出到序列里。最终生成一个长序列,记载了用户历史的一切交互行为、属性变动。关于userid等静态消息,前面经过相似position embedding的方式输入Transformer中。关于数值类型特色,文中间接疏忽掉,让模型智能从长序列中学到关系消息。
义务定义 :一切义务都嵌入到这个序列生成模型中。关于召回义务,应用自回归的方式预测用户下一个点击item的概率散布,选用topK个item;关于排序义务,在最后一个token上接不同的MLP head启动多个预估指标的多义务学习。每个位置的预测,都会应用到下面构建的历史全序列消息。
模型结构 :模型主体驳回Transformer,将长序列输入Transformer中启动消息交互。关键改变,一方面是将原来Transformer的softmax建模方法,修正为point-wise的方法,每个位置的Q*K内积结果前面接一个SiLU激活函数,获取非归一化的打分,再和V相乘。另一方面是在QKV作用的结果之后,参与了一个layernorm和与U的点积,U也是和QKV相似的生成方式,这比拟相似于MaskNet的结构,用来成功特色的进一步交叉。
该打算在Meta曾经落地到相应场景中,取得了比原来的介绍系统形式更优的成果。
本文转载自,作者: