文本为王如何在序列介绍环节中学习言语向量

2024-11-14

介绍系统是 1992 年施乐公司的 David Goldberg 在论文中初次提出的。人类历史上第一个宣布的介绍系统算法是协同过滤。该算法常年占据着主导位置。不时到最近，依然有钻研者提问称对比了少量的介绍算法，发现基于东西的协同过滤性能优秀，吊打其余算法。

随着期间的推移，出现了越来越多的介绍系统算法。1998年，亚马逊公司的员工发明了基于东西的介绍系统。随后在 2006 年，由于 Netflix 介绍系统大赛的缘故，基于矩阵合成的介绍系统被发明进去。随后在 2010 年左右，线性模型和排序学习算法风行一时。从 2016 年开局，基于深度学习的介绍算法青出于蓝，一举占据了包含 RecSys 在内的各大学术会议的显要位置，给介绍系统畛域带来了一场彻底的反派。

2017 年开局，人工默认畛域的钻研者开局宽泛关注人工默认伦理疑问。随后，介绍系统的详细场景落地疑问获取了关注，尤其是序列化介绍，成为了抢手钻研课题。本文将率领读者阅读数据开掘顶级会议 ACM KDD 2023 年的论文 Text Is All You Need: Learning Language Representations for Sequential Recommendation。论文的作者来自美国高校 UCSD 和美国公司亚马逊。

图一输入数据中用户消息

图一中显示了这篇文章中的算法应用的输入数据与其余算法的不同：东西不再是由东西 ID 惟一示意的数字，而是一个键值对构成的数据汇合。例如，一台苹果笔记本电脑，不再由一个数字 315 示意，而是由产品称号、品牌称号和色彩代表的数据汇合示意。

在作者设计的算法架构中，共有 4 个嵌入层：

算法架构在 4 个嵌入层求和之后添加了一个 Layer Normalization 层：

随后咱们获取嵌入层的终极示意方法：

咱们随后应用双向 Transformer 结构 Longformer 对嵌入层编码，获取东西的嵌入式向量示意：

给定序列 S，序列中下一个出现的东西为东西 i 的评分由下述公式计算：

预测出现的东西 i 为使下面公式得分值最高的东西：

为了让算法效率更高，作者提出了预训练模型+两阶段微调算法来成功算法架构：

为了使下面的算法口头速度愈加高效，钻研者提出了应用预训练模型来成功上述算法结构。第一种预训练形式是 MLM，也就是 Masked Language Modeling 。MLM 的算法架构流程如下：

另一种预训练形式是 item-item contrative (IIC)。这种预训练形式的损失函数定义如下：

在算法的实践口头中，咱们驳回了加权和的方式：

最后，咱们对算法做两阶段微调。算法的伪代码如下：

作者最后在论文中针对该算法做了对比试验：

经过试验，咱们发现作者在论文中提出的算法性能优越。

介绍系统自降生以来，算法架构变得越来越复杂。随着大模型的兴起，如何应用大模型启动介绍也成为了钻研的热点。假设有一天大模型被证实能使介绍的成果显著好于其余方法，介绍系统的研发将被集中在极少数有才干提供数据和大规模 GPU 集群的公司。因此，趁着这一切还没有出现，广阔中小企业，还有高校师生，以及独立钻研者应该抓紧期间为这一畛域增砖添瓦。

汪昊，达评奇智董事长兼开创人。汪先生在 ThoughtWorks、豆瓣、百度、联想和趣加等公司有超越 13 年的研发和治理阅历。长于介绍系统、风控反欺诈、爬虫和人造言语处置等技术。成功上线了包含豆瓣小组介绍、联想电商介绍和网易段子名目等 10 余款科技产品。在国内学术会议和期刊宣布论文 44 篇。取得 IEEE SMI 2008 (CCF-C) 最佳论文奖，ICBDT 2020、IEEE ICISCAE 2021、AIBT 2023 和 ICSIM 2024 最佳论文报告奖。

介绍系统言语向量人工默认

<<种分片算法一口吻搞懂分库分表 12 大厂都在用

RAG 经常使用Llama index构建多代理>>

文本为王 如何在序列介绍环节中学习言语向量

您可能还会对下面的文章感兴趣：

随便看看

文本为王如何在序列介绍环节中学习言语向量