基于因果推断的介绍系统回忆和前瞻

2024-11-15

本次分享的主题为基于因果推断的介绍系统，回忆过去的相关上班，并提出本方向的未来展望。

为什么在介绍系统中须要经常使用因果推断技术？现有的钻研上班用因果推断来处置三类疑问（参见 Gao et al.的 TOIS 2023 论文 Causal Inference in Recommender Systems: A Survey and Future Directions）：

首先，在介绍系统中存在各种各样的偏向（BIAS），因果推断是一种有效去除这些偏向的工具。

其次，介绍系统或许面临数据稠密和无法准确预计因果效应的疑问。为了处置这一疑问，可以驳回基于因果推断的数据增强或因果效应预计的方法，来有效处置数据稠密性、因果效应难预计的疑问。

最后，借助因果常识或因果先验常识指点介绍系统的设计，可以更好地构建介绍模型。这种方法使得介绍模型逾越传统的黑盒模型，不只在准确性方面有优化，在可解释性、偏心性等方面更有清楚改善。

从这三种思绪登程，本次分享开展引见上方三局部上班：

一、用户兴味和从众性的解纠缠学习

首先，经过因果推断方法为用户的兴味以及从众性区分学习相应的表征。这属于前述分类框架中的第三局部，即在有因果先验常识的状况下，使模型更具可解释性。

回到钻研背景。可以观测到用户和商品的交互面前存在深档次的、不同方面的要素。一方面是用户自身的兴味，另一方面用户或许会倾向于追寻其余用户的做法（从众性/Conformity）。在详细的系统中，这或许体现为销量或盛行度。例如，现有介绍系统会将销量较高的商品展如今靠前的位置，这就造成了用户自身兴味之外的盛行度影响交互、带来偏向。所以，为了启动更精准的介绍，须要区分学习和解纠缠这两局部的表征。

为什么须要学习解纠缠表征呢？在这里，进一步做一个更深化的解读。解纠缠表征可以协助克制离线训练数据和线上试验数据散布不分歧（OOD）的疑问。在实在的介绍系统中，假设在某一个数据散布下训练了一个离线介绍系统模型，须要思考到部署到线上时数据散布或许出现变动。用户最终的行为是由从众性和兴味独特作用发生的，这两局部的相对关键性在线上和线下环境存在区别，或许造成数据散布出现变动；而假设散布出现变动，无法保障学习的兴味依然有效。这是一个跨散布的疑问。下图可以笼统化地说明这个疑问。在这个图中，训练数据集和测试数据集存在散布差异：雷同的外形，其大小和色彩出现了变动。而对外形的预测，传统模型在训练数据集上或许会依据大小和色彩来推断外形，比如矩形都是蓝色的和最大的，但是关于测试数据集推断并不成立。

假设要更好地克制这个艰巨，就须要有效地确保每个局部的表征是由相应的因子选择的。这是学习解纠缠表征的一个动机。能够将潜在因子解纠缠进去的模型，在相似上图的跨散布状况下可以取得更好的效果：比如解纠缠学习到轮廓、色彩和大小等因子，并倾向经常使用轮廓预测外形。

传统做法是经常使用 IPS 方法来平衡商品的盛行度。这种方法在介绍系统模型学习的环节中，处罚过于盛行的商品（这些商品在从众上具备更大的权重）。但这种做法将兴味和从众性捆绑在一同，没有有效地将它们分开。

早期还有一些上班，经过因果推断的方法来学习因果表征（Causal embedding）。这类上班的缺陷是必定依赖于一些无偏的数据集，经过无偏数据集来解放有偏数据集的学习环节。只管不须要太多，但依然须要一小局部无偏数据来学习解纠缠的表征。因此，在实在系统中，其实用性相对有限。

假构想对兴味和从众性解纠缠，须要处置三个应战：

为了针对性处置上述应战，咱们提出了 DICE 方法（Disentangling Interest and Conformity with Causal Embedding (DICE)）。

接上去对这三局部设计（即因果 embedding、解纠缠表征学习、多义务课程学习）详细开展引见。

首先，构建一个结构因果模型，包括兴味和从众行为。

为这两个要素区分调配相应的独立表征，用户侧和东西侧每侧都有两局部表征。经常使用经典的点积来计算婚配分数。在最后的预测义务中，综合思考两局部的内积分数。

在给定上述这样一个对撞结构后，当固定条件 c 时，a 和 b 实践上是不独立的。举一个例子来解释这个效应：比如，a 代表一个在校生的天分，b 代表这个在校生的勤劳水平，c 代表这个在校生能否能够经过一个考试。假设这个在校生经过考试，而且他没有特意强的天分，那么他必定是很致力的。另外一个在校生，他没有经过考试，但是他却十分有天分，那么这个同窗或许不太致力。

基于这样的思维，启动方法设计，分有兴味的婚配和从众度的婚配，并经常使用商品盛行水平作为从众性的代理。

第一个案例：假设一个用户点击了一个比拟盛行的名目 a，而没有点击另外一个不那么盛行的名目 b，相似刚才的例子，会有下图这样的兴味相关：a 对用户的从众性大于 b（由于 a 比 b 更盛行），且 a 对用户的总体吸引力（兴味+从众性）大于 b（由于用户点击了 a 而没有点击 b）。

第二个案例：一个用户点击了一个不盛行的名目 c，但是没有点击一个盛行的名目 d，发生如下的一个相关：c 对用户的从众性小于 d（由于 d 比 c 更盛行），但 c 对用户的总体吸引力（兴味+从众性）大于 d（由于用户点击了 c 而没有点击 d），从而用户对 c 的兴味大于 d（由于对撞相关，如前述）。

总体而言，经过上述方法结构了两个汇合：一是那些比正样本不盛行的负样本（用户对正负样本的兴味的对比相关未知），二是那些比正样本更盛行的负样本（用户对正样本的兴味大于负样本）。在这两个局部上，都可以构建对比学习的相关，从而有针对性地训练两个局部的表征向量。

当然，在实践训练环节中，最关键的目的依然是拟合观测到的交互行为。和大少数介绍系统上班相反，经常使用 BPR loss预测点击行为。（u: 用户，i：正样本商品，j：负样本商品）。

另外基于上述思维，还区分设计了两个局部的对比学习方法，并引入对比学习的损失函数，额外引入两局部表征向量的解放，来优化这两局部的表征向量

此外，还要解放这两局部的表征向量尽或许地远离彼此。这是由于假设距离过近，它们或许会失去区分度。因此，额外引入了一个损失函数来解放两局部表征向量之间的距离。

最终，多义务学习将把多个目的整合在一同。在这个环节中，设计了一种战略，确保能够从学习的难度上逐渐从便捷过渡到艰巨。在训练的开局，经常使用区分度较小的样本，来疏导模型参数在正确的慷慨向上启动优化，而后逐渐寻觅艰巨样本启动学习，进一步精细调整模型参数。（将和正样本的盛行度差异大的负样本视为便捷样本，差异小的视为艰巨样本）。

在经常出现的数据集上，启动了测试，测验方法在关键排序目的上的功能。由于 DICE 是一个通用的框架，不依赖于详细的介绍模型，因此可以将不同模型视为一种 backbone，并将 DICE 作为一种即插即用的框架。

首先是主角 DICE。可以看到在不同的 backbone 上，DICE 的优化比拟持重，因此可以以为它是能带来功能优化的通用框架。

DICE 学习到的表征是可解释的，为兴味和从众度区分学习表征之后，从众局部的向量包括了商品的盛行度。经过启动可视化，发现它确实与盛行度有相关（不同盛行度的表征出现清楚的分层：绿橙黄色的点）。

并且，不同盛行度的商品的兴味向量表征平均散布在空间中（青紫色叉）。从众性向量表征和兴味向量表征也各自占有不同的空间，解纠缠区隔开来。这个可视化验证了 DICE 学习到的表征具备实践意义。

DICE 到达了设计的预期效果。进一步在不同干预强度的数据上启动了测试，结果显示 DICE 的功能在不同试验组上都要好于 IPS 方法。

总结一下，DICE 经过因果推断工具，为兴味和从众性区分学习相应的表征向量，在非 IID 情景下提供了良好的鲁棒性和可解释性。

二、常年兴味和短期兴味的解纠缠学习

第二项上班关键处置序列介绍中常年兴味和短期兴味的解纠缠疑问，详细而言，用户兴味是复杂的，一局部兴味或许相对稳固，被称为常年兴味，而另一局部兴味或许是突发的，被称为短期兴味。在下图这个例子中，用户常年对电子产品感兴味，但短期内想买一些衣服。假设能够很好地识别这些兴味，就能更好地解释每次行为发生的要素，并优化整个介绍系统的功能。

这样的疑问可以称为长短时髦味的建模，即能够自顺应地区分建模长时髦味和短时髦味，并且进一步推断用户的行为关键由哪一局部驱动。假设能够识别驱动行为的兴味，就能更好地依据兴味启动介绍。例如，假设用户在短期间内阅读相反的类别，那或许是一种短时髦味；假设用户在短期间内宽泛探求，那么或许须要更多地参考以前观测到的常年兴味，而不局限于兴味。总的来说，常年兴味和短期兴味性质相异，须要很好地处置常年需求和短期需求的解纠缠。

普通而言，可以以为协同过滤实践上是一种捕捉常年兴味的方法，由于它疏忽了兴味的灵活变动；而现有的序列介绍更多关注短期兴味建模，这造成了常年兴味的忘记，即使思考到了常年兴味，它在建模时仍关键依赖于短期兴味。因此，现有方法在联合这两种兴味学习方面仍有所短少。

一些最近的上班开局思考常年和短期兴味的建模，区分设计短期模块和常年模块，而后将它们间接联合在一同。但这些方法中，最终学习的用户向量只要一个，同时包括短期信号和常年信号，两者依然纠缠在一同，须要进一步改良。

但是，解耦长短时髦味依然是具备应战性的：

针对这个疑问，提出了对比学习的方法，来同时建模长短期兴味。（Contrastive learning framework of Long and Short-term interests for Recommendation (CLSR)）

关于第一个应战——常年兴味和短期兴味分别，咱们为常年和短期兴味区分树立相应的演变机理。在结构因果模型中，设置和期间有关的常年兴味，以及由上一个时辰的短期兴味和通用的常年兴味选择的短期兴味。即在建模环节中常年兴味是比拟稳固的，而短期兴味则是实时变动的。

2.对比学习处置缺乏显式监视信号

第二个应战是关于两局部兴味缺乏显式的监视信号。为了处置这个疑问，引入对比学习方法来启动监视，构建代理标签来代替显式标签。

代理标签分为两局部，一局部是关于常年兴味的代理，另一局部是关于短期兴味的代理。

经常使用整个历史的 pooling 作为常年兴味的代理标签，在常年兴味的学习中，使编码器学习的表征更多地朝向这个方向优化。

关于短期兴味也是相似的，对用户最近若干次行为的平均 pooling，作为短期的代理；雷同地，只管它不间接代表用户兴味，但是在用户短期兴味的学习环节中，尽或许地朝这个方向启动优化。

这样的代理表征，只管并不严厉代表兴味，但是它们代表了一个优化方向。关于常年兴味表征和短期兴味表征而言，它们会尽或许地凑近相应的表征，而远离另外一个方向的表征，从而构建一个对比学习的解放函数。反上来同理，由于代理表征也要尽或许地凑近实践的编码器输入，所以它是一个对称的两局部损失函数，这样的设计有效地补偿了刚刚提到的缺乏监视信号的疑问。

第三个应战是关于给定的行为，判别两局部兴味的关键性，处置方法是自顺应地融合两块兴味。这一局部的设计比拟便捷间接，由于前面曾经有了两局部的表征向量，将它们混合在一同就并不艰巨了。详细而言，须要计算一个权重 α 来平衡两局部的兴味，当 α 比拟大时，的兴味关键由常年兴味主导；反之亦然。最后失掉对交互行为的预估。

关于预测，一方面是前面提到的通用介绍系统的损失，另一方面以加权的方式将对比学习的损失函数参与其中。

这里有两个分别的编码器（BCD），相应的代理表征以及对比学习的目的（A），以及自顺应地混合融合两局部的兴味。

在这个上班中，经常使用了序列介绍的数据集，包括淘宝的电商数据集和快手的短视频数据集。将方法分为常年、短期和长短期联合三种。

观察全体试验结果可以看到，只思考短期兴味的模型比只思考常年兴味的模型体现更好，也就是说，序列介绍模型通常比纯静态的协同过滤模型更好。这是正当的，由于短期兴味建模可以更好地识别最近的一些兴味，而这些最近的行为对以先行为的影响最大。

第二个论断是同时建模常年和短期兴味的 SLi-Rec 模型，并不必定比传统的序列介绍模型更好。这突出了现有上班的无余。要素是，假设只是便捷地混合两种模型，或许会引入偏向或噪音；从这里可以看出，最好的 baseline 实践上是一种序列短期兴味模型。

咱们提出的长短期兴味解耦方法处置了常年和短期兴味之间的解纠缠建模疑问，在两个数据集和四个目的上都能够取得稳固的最佳效果。

为了进一步钻研这种解纠缠效果，为长短期兴味相应的两局部表征启动试验。将 CLSR 学习的常年兴味、短期兴味和 Sli-Rec 学习的两种兴味启动对比。试验结果标明，在每个局部上咱们的上班（CLSR）都能够稳固地取得更好的效果，而且也证实了将常年兴味建模和短期兴味建模融合在一同的必要性，由于经常使用两种兴味启动融合效果是最好的。

进一步，经常使用购置行为和点赞行为来对比钻研，由于这些行为的老本比点击更高：购置须要花钱，点赞须要必定的操作老本，因此这些兴味实践上反映了更强的偏好，更倾向于稳固的常年兴味。首先，在功能对比如面，CLSR 取得了更好的效果。此外，建模的两个方面的权重愈加正当。关于更倾向于常年兴味的行为，CLSR 能够调配相比 SLi-Rec 模型更大的权重，这与之前的动机相吻合。

进一步启动了消融试验和超参数试验。首先，去掉了对比学习的损失函数，发现功能降低，说明对比学习关于解纠缠常年兴味和短期兴味是十分必要的。这个试验进一步证实了 CLSR 是一个更好的通用框架，由于它在现有方法的基础上也能施展作用（自监视对比学习可以优化 DIEN 的功能），是一个即插即用的方法。对 β 的钻研发现，一个比拟正当的值是 0.1。

接上去进一步钻研自顺应融合和便捷融合的相关。自顺应权重融合相比固定权重融合在一切不同的 α 取值上都体现稳固更好，这验证了每次交互行为或许都由不同大小的权重选择，并且验证了经过自顺应融分解功兴味融合以及最先行为预测的必要性。

这项上班提出了一种对比学习方法来建模序列兴味中的常年兴味和短期兴味，区分学习相应的表征向量，成功解纠缠。试验结果证实了该方法的有效性。

前面引见了两个上班，关注在兴味的解纠缠。第三个上班则关注兴味学习的行为纠偏。

短视频介绍成为了介绍系统中一个十分关键的组成局部。但是，现有的短视频介绍系统依然遵照以前长视频介绍的范式，或许存在一些疑问。

例如，如何评价在短视频介绍中用户的满意水平和生动度？优化目的又是什么？经常出现的优化目的是观看期间或观看进展。那些被预估为或许具备更高完播率和观看时长的短视频，或许会被介绍系统排在更前的位置。在训练时或许基于观看时长启动优化，在服务时依据预估的观看时长启动排序，介绍那些观看时长更高的视频。

但是，在短视频介绍中存在一个疑问是更长的观看期间并不必定代表用户对该短视频很感兴味，即短视频的时长自身就是一个很关键的偏向。在经常使用上述优化目的（观看期间或观看进展）的介绍系统中，更长的视频自然具备长处。介绍过多这种长视频，很或许与用户的兴味不婚配，但由于用户跳过视频的操作老本，实践的线上测试或离线训练失掉的评价都会很高。因此，仅依托观看时长是不够的。

可以看到，在短视频中存在两种外形。一种是比拟长的视频，比如 vlog，而另一种是较短的文娱视频。对实在的流量启动剖析后发现，颁布长视频的用户基本上能够取得更多的介绍流量，这个比例十分迥异。仅仅经常使用观看时长来评价不只不能满足用户的兴味，也或许存在不偏心的疑问。

在本上班中，宿愿处置两个疑问：

实践上，外围应战是不同时长的短视频无法间接启动比拟。由于这个疑问是自然且普遍存在于不同的介绍系统中的，而且不同介绍系统的结构差异很大，所以设计的方法须要与模型有关。

首先，选用了几个具备代表性的方法，并经常使用观看时长启动了模拟训练。

可以从曲线中看到时长偏向被增强了：对比 ground truth 的曲线，介绍模型在长视频的观看期间预测结果上清楚偏高。在预测模型中，关于长视频的介绍过多是有疑问的。

此外，还发现介绍结果中存在许多不准确的介绍（#BC）。

咱们可以看到一些 bad case，即观看期间小于 2 秒且用户很不青睐的视频。但是，由于偏向的影响，这些视频被失误地介绍。换而言之，模型只学习到了介绍视频的时长差异，基本上只能区分视频的长短。由于想要预测的结果是介绍更长的视频，以参与用户的观看时长。所以模型选用的是长视频，而不是用户青睐的视频。可以看到，这些模型在 bad case 的数量上甚至与随机介绍一样，因此这种偏向造成了十分不准确的介绍。

进一步说，这里存在不偏心性疑问。当控制 top k 值较小时，较短的视频颁布者很难被介绍；即使 k 值足够大，这种介绍的比例也小于 20%。

为了处置这个疑问，咱们首先提出了一个叫 WTG（Watch Time Gain）的新目的，思考了观看时长，以尝试成功无偏。例如，一个用户观看了一个 60 秒的视频达 50 秒；另一个视频也是 60 秒，但只看了 5 秒。显然，假设控制在 60 秒的视频上，这两个视频的兴味差异就很清楚。这是一个便捷但有效的想法，只要当其余视频数据的时长相近时，观看时长才具备比拟的意义。

首先将一切的视频等间距地划分到不同的时长组中，而后在每个时长组中比拟用户的兴味强度。在固定的时长组中，用户的兴味可以由时长来代表。引入了 WTG 之后，实践上就是间接经常使用 WTG 来示意用户的兴味强度，不再关注原始的时长。在 WTG 的评价下，散布就愈加平均了。

在 WTG 的基础上，进一步思考了排序位置的关键性。由于 WTG 只思考了一个目的（繁多点），进一步地将这种累计效招思考出去。即在计算排序列表中各个元素的目的时，还要思考到每一个数据点的相对位置。这个思绪与 NDCG 相似。因此，在此基础上，定义了 DCWTG。

咱们之前定义了能够反映时长有关的用户兴味的目的，即 WTG 和 NDWTG。接上去，设计一个能够消弭偏向的介绍方法，该方法与详细模型有关，并且实用于不同的 backbone。提出方法 DVR（Debiased Video Recommendation），外围理想是，在介绍模型中，假设能够去除与时长相关的特色，即使输入的特色很复杂，其中或许包括与时长有关的消息，只需在学习环节中能够使模型的输入疏忽这些时长特色，那么可以以为它自身是无偏的，也就是让模型能够过滤掉时长相关的特色，从而成功无偏介绍。这里触及一种反抗的思维，须要另一个模型，基于介绍模型的输入来预测时长，假设它无法准确预测时长，那么以为前一个模型的输入就不包括时长特色。因此，驳回反抗学习方法，在介绍模型上参与一个回归层，该回归层基于预测出的 WTG 来预测原始的时长。假设 backbone 模型确实能够成功没有偏向的效果，那么回归层就无法从新预测恢复出原始的时长。

以上是该方法的细节，用于成功反抗学习。

在微信和快手的两个数据集上启动了试验。首先是 WTG 和观看时长的对比。可以看到，区分经常使用了这两个优化目的，并与 ground truth 中的观看时长启动比拟。经常使用 WTG 作为目的后，模型在短视频和长视频上的介绍效果都更好，WTG 曲线稳固位置于观看时长曲线上方。

此外，经常使用 WTG 作为目的后，带来了更平衡的长短视频介绍流量（传统模型中长视频的介绍份额显然更多）。

提出的 DVR 方法实用于不同的 backbone 模型：测试了 7 种经常出现的 backbone 模型，结果显示没有经常使用去偏方法的功能较差，而 DVR 在一切的 backbone 模型和一切目的上都有必定的优化。

进一步做了一些消融试验。前文中提到，这个方法有三局部设计，区分去掉了这三个局部。第一个是将时长作为输入特色去掉，第二个是将 WTG 作为预测目的去掉，第三个是去掉反抗学习的方法。可以看到每个局部的去掉都会造成功能降低。因此，这三个设计都至关关键。

总结咱们的上班：从增添偏向的思绪来钻研短视频介绍，关注时长偏向。首先，提出了一种新的目的：WTG。它能够很好地消弭实践行为中（用户兴味和时长）时长的偏向。第二，提出了一种通用的方法，使模型不再受视频时长的影响，从而发生无偏的介绍。

最后对本次分享启动总结。首先，对用户兴味和从众度启动了解纠缠学习。接上去，在序列行为建模方面，钻研了常年兴味和短期兴味的解纠缠。最后，针对短视频介绍中观看时长优化的疑问，提出了一种消偏的学习方法。

以上就是本次分享的内容，谢谢大家。

基于因果推断的介绍系统 回忆和前瞻

一、用户兴味和从众性的解纠缠学习

二、常年兴味和短期兴味的解纠缠学习

2.对比学习处置缺乏显式监视信号

相关文献：

您可能还会对下面的文章感兴趣：

随便看看

基于因果推断的介绍系统回忆和前瞻