文本为王 如何在序列介绍环节中学习言语向量
介绍系统是 1992 年施乐公司的 David Goldberg 在论文中初次提出的。人类历史上第一个宣布的介绍系统算法是协同过滤。该算法常年占据着主导位置。不时到最近,依然有钻研者提问称对比了少量的介绍算法,发现基于东西的协同过滤性能优秀,吊打其余算法。
随着期间的推移,出现了越来越多的介绍系统算法。1998年,亚马逊公司的员工发明了基于东西的介绍系统。随后在 2006 年,由于 Netflix 介绍系统大赛的缘故,基于矩阵合成的介绍系统被发明进去。随后在 2010 年左右,线性模型和排序学习算法风行一时。从 2016 年开局,基于深度学习的介绍算法青出于蓝,一举占据了包含 RecSys 在内的各大学术会议的显要位置,给介绍系统畛域带来了一场彻底的反派。
2017 年开局,人工默认畛域的钻研者开局宽泛关注人工默认伦理疑问。随后,介绍系统的详细场景落地疑问获取了关注,尤其是序列化介绍,成为了抢手钻研课题。本文将率领读者阅读数据开掘顶级会议 ACM KDD 2023 年的论文 Text Is All You Need: Learning Language Representations for Sequential Recommendation。论文的作者来自美国高校 UCSD 和美国公司亚马逊。
图一输入数据中用户消息
图一中显示了这篇文章中的算法应用的输入数据与其余算法的不同:东西不再是由东西 ID 惟一示意的数字,而是一个键值对构成的数据汇合。例如,一台苹果笔记本电脑,不再由一个数字 315 示意,而是由产品称号、品牌称号和色彩代表的数据汇合示意。
在作者设计的算法架构中,共有 4 个嵌入层:
算法架构在 4 个嵌入层求和之后添加了一个 Layer Normalization 层:
随后咱们获取嵌入层的终极示意方法:
咱们随后应用双向 Transformer 结构 Longformer 对嵌入层编码,获取东西的嵌入式向量示意:
给定序列 S,序列中下一个出现的东西为东西 i 的评分由下述公式计算:
预测出现的东西 i 为使下面公式得分值最高的东西:
为了让算法效率更高,作者提出了预训练模型+两阶段微调算法来成功算法架构:
为了使下面的算法口头速度愈加高效,钻研者提出了应用预训练模型来成功上述算法结构。第一种预训练形式是 MLM,也就是 Masked Language Modeling 。MLM 的算法架构流程如下:
另一种预训练形式是 item-item contrative (IIC)。这种预训练形式的损失函数定义如下:
在算法的实践口头中,咱们驳回了加权和的方式:
最后,咱们对算法做两阶段微调。算法的伪代码如下:
作者最后在论文中针对该算法做了对比试验:
经过试验,咱们发现作者在论文中提出的算法性能优越。
介绍系统自降生以来,算法架构变得越来越复杂。随着大模型的兴起,如何应用大模型启动介绍也成为了钻研的热点。假设有一天大模型被证实能使介绍的成果显著好于其余方法,介绍系统的研发将被集中在极少数有才干提供数据和大规模 GPU 集群的公司。因此,趁着这一切还没有出现,广阔中小企业,还有高校师生,以及独立钻研者应该抓紧期间为这一畛域增砖添瓦。
汪昊,达评奇智董事长兼开创人。汪先生在 ThoughtWorks、豆瓣、百度、联想和趣加等公司有超越 13 年的研发和治理阅历。长于介绍系统、风控反欺诈、爬虫和人造言语处置等技术。成功上线了包含豆瓣小组介绍、联想电商介绍和网易段子名目等 10 余款科技产品。在国内学术会议和期刊宣布论文 44 篇。取得 IEEE SMI 2008 (CCF-C) 最佳论文奖,ICBDT 2020、IEEE ICISCAE 2021、AIBT 2023 和 ICSIM 2024 最佳论文报告奖。