大言语模型在用户兴味探求中的运行 LLM

2024-11-15

一、论断写在前面

传统的介绍系统经过学习和强化过去的用户-东西交互构成剧烈的反应循环，这反上来限度了新用户兴味的发现。

为了处置这一疑问，论文引入了一种联合大型言语模型（LLMs）和经典介绍模型的混合档次框架，用于用户兴味探求。该框架经过“兴味集群”控制LLMs和经典介绍模型之间的接口，集群的粒度可以由算法设计者明白确定。该方法联合了LLMs在推理和泛化方面的长处，以及经典介绍模型的基础。它首先经常使用言语示意“兴味集群”，并应用经过微调的LLM生成严厉属于这些预约义集群的新兴味形容。在低档次上，它经过限度经典介绍模型（在这种状况下是一个基于Transformer的序列介绍器）前往属于上档次生成的新集群的东西，将这些生成的兴味详细化为东西级别的战略。

论文在一个服务于数十亿用户的工业级商业平台上展现了这种方法的有效性。实时试验标明，新兴味的探求和用户对平台的全体享用度都有清楚优化。未来的上班将重点关注思考常年效应，以进一步改良经常使用LLMs启动介绍系统的分层布局。

二、论文的便捷引见

2.1 论文的背景

介绍系统在协助用户导航当初网络上庞大且始终增长的内容方面无法或缺。但是，这些系统往往遭到剧烈的反应循环的影响，介绍与用户过去行为相似的东西。经典介绍系统依据用户的历史交互推断其下一个兴味。虽然这对短期介入或者有效，但它限度了用户发现新兴味，造成内容疲劳。最近的钻研强调了用户兴味探求的关键性，旨在引入超出用户历史偏好的多样化内容。但是，由于兴味空间的宽广和用户对先前未见兴味的亲和力的高度不确定性，有效地向用户引入新兴味是具备应战性的。

近期在大言语模型（LLMs）和其余基础模型方面的打破为改造介绍系统提供了机会。这些模型中预训练的环球常识有或者经过引入多样化和偶然的介绍来打破介绍反应循环，处置用户兴味探求的应战。虽然先前的上班曾经展现了经过将介绍疑问转化为人造言语处置义务来经常使用LLMs启动介绍的后劲，但在事实环球的工业介绍系统中部署这些方法依然极端应战，要素如下：

(1) 与畛域特定的介绍模型不同，LLMs不足对工业规模在线平台上大规模且极速演化的东西库（例如，YouTube每分钟上行超越500小时的内容，Spotify每秒上行一首新曲目[18]）的深化了解；

(2) 现成的LLMs不了解用户的单干信号，无法捕捉畛域特定的用户行为；

(3) 为每个用户恳求服务的LLMs的提前和老本渺小，无法满足工业介绍平台预期的O(100ms)照应时期和消费查问每秒(QPS)要求。

为了克制上述应战，论文引入了一种联合LLMs和经典介绍模型的混合档次布局范式（如图1所示），用于大规模介绍系统中的用户兴味探求。

图1：基于LLM的混合档次布局图，用于用户兴味探求

为了示意灵活用户兴味并将低廉的LLM推理转移到离线阶段，使其可行地在线提供LLM生成的新的兴味转换。

2.2 论文的方法

这里论文将引见混合档次布局范式以及为成功受控生成和用户行为对齐而设计的LLM微调环节，以将LLMs运行于事实环球的大规模介绍系统中。

图2：当K=2时的新兴味预测揭示

2.2.1 筹备常识

在线平台上东西数量庞大且新东西始终涌入，使得在集体东西层面启动LLM布局变得无法行。因此，论文应用LLM在东西兴味层面的布局才干来增加布局空间。高效档次布局的前提是一组高质量的东西兴味集群，其中每个集群内的东西在主题上是分歧的。遵照与[6]相反的程序，论文依据东西的主题分歧性将其分组为N个流量加权的等尺寸集群，这种方法已被证实能很好地裁减到论文疑问的规模。

为了创立这些集群，论文首先依据东西的元数据（题目、标签等）和内容（帧和音频）将其示意为256维嵌入。而后，论文依据相似性在图中衔接东西并将其聚类为流量平衡的集群。这个聚类环节重复屡次以创立一个4级树结构，每个东西与不同的树级相关联。更初级别的集群代表更宽泛的主题，而更低级别的集群代表更详细的主题。

2.2.2 混合档次布局

混合方法联合了LLM发生言语战略，生成上层级的新兴味，以及经典介绍模型发生东西战略，将这些基于言语的兴味落实到低层级的东西空间。这种混合方法联合了LLM在推理和泛化方面的长处，以及畛域特定的介绍模型在处置东西灵活和增强共性化方面的才干。

初级言语战略。鉴于历史用户兴味按言语启动示意，论文首先经常使用大型言语模型（LLM）来学习一个初级言语战略，该战略能够生成陈腐的用户兴味。论文不再经常使用东西形容来代表用户，而是提出驳回集群形容（即一组关键词）来代表用户消费历史，即用户的过往兴味被示意为其最近K次交互的共同集群序列，每个集群由其形容来示意。详细而言，依据用户先前消费的共同集群，论文可以要求LLM依据图2所示的揭示生成下一个陈腐兴味。

图3：标签（即由微调后的LLM生成)散布：X轴示意标签频率；Y轴示意每个频率范围内标签的百分比

实践应意图义。将LLM部署到工业规模的介绍系统中的一个关键应战在于其高昂的推理老本无法满足提前和QPS要求。依据阅历，论文发现依赖大批历史集群来代表每个用户可以有效平衡示意粒度和计算效率。在论文的试验中，二级聚类发生了761个集群。因此，论文可以枚举一切761 * 761 = 579,121个集群对，并在几小时内经常使用LLM启动批量推理，以失掉每个集群对的翻新兴味。这些翻新兴味连同输入的集群对可以存储在一张表中。在线服务时期，当有新用户恳求时，论文首先经过从其观看历史中抽样个名目来示意用户，并将它们转换为集群对以启动查找，以确定介绍的创意兴味集群。

低级名目战略。一旦失掉了基于言语的新用户兴味，下一步就是将其转换为名目级别的介绍战略。一个间接的方法是依赖搜查引擎依据新兴味的关键词检索最相关的名目。但是，搜查结果往往不足共性化，由于这些基于言语的新兴味或者依然宽泛且不足特同性。为了增强共性化，论文倡导重用特定畛域的介绍模型，特意是基于Transformer的序列介绍模型[8, 27]，但将名目限度在由基于言语的新兴味指定的集群中。详细来说，论文遵照以下两个步骤：(i) 将生成的新兴味映射到集群ID空间，(ii) 在这些集群ID下限度原始名目级别的softmax战略，以仅从这些集群中检索名目。

受控生成。残余的应战是如何指定LLM生成兴味的粒度，并将生成的新兴味映射到集群ID。LLM的自在格局照应或者是恣意的，不太或者间接婚配预约义的集群形容。论文经过档次聚类和选用集群级别来控制生成的粒度。此外，适当微调使LLM能够经常使用兴味集群的言语，生成恰恰婚配预约义集群之一的集群形容。

表4 (a) 模型微调环节。(b) 和 (c) 不同介绍系统在实践试验中的对比。

2.2.3 用户行为对齐的微调

在大规模地下互联网数据上训练的LLMs蕴含了丰盛的环球常识，但是它不足以下才干：1) 受控生成（即在兴味集群空间内生成）和2) 特定畛域用户行为对齐。论文倡导经过经常使用商业平台上实在用户观看历史精心筹划的数据集启动监视微调，注入这些特定畛域的常识。因此，用于微调的数据质量对其成功至关关键。

多样化的数据筹划。以K=2为例，每个微调数据样本，蕴含一个集群对以构成揭示，以及随后的新集群作为微调标签。这些样本随后按其标签分组，并针对每个标签选用出现频率最高的10个集群对，构成最终的多样化数据样本，笼罩一切标签。经过这些步骤，论文取得761 * 10 = 7,610个数据样本（每个标签集群10个），并经常使用这些样本对LLM启动监视微调。

在图3中，论文展现了经过微调的大型言语模型（LLM）在579,121个高低文集群对上生成的兴味集群散布。当经常使用多样性较低的微调数据时，论文从初始的25万个数据中随机选取7,610个转换及其对应的后续集群来构成数据集，微调后的LLM生成的兴味出现出高度偏斜，少数生成的集群具备十分高的频率（如图中区域B所示）。当论文参与微调数据的多样性时，这些主导标签隐没，生成集群中频率十分低的数量（如图中区域A所示）也增加。确保微调数据平均笼罩一切集群，使论文能够处置模型生成集群中的长尾散布疑问。这种处置不只减轻了行为数据中的反应循环效应，而且提高了全体用户满意度。

控制生成才干与用户行为对齐。微调步骤的数量选择了LLM的环球常识与义务特定常识之间的平衡。论文的微调环节关键有两个目的：(1) 控制LLM生成，使其言语与兴味集群相符。论文评价微调后LLM生成的婚配率，以确定输入能否与集群形容齐全婚配；(2) 与实在环球用户转换对齐，经过比拟微和谐测试集中微调后LLM的输入与成功的用户兴味转换来计算召回率。较高的召回率标明LLM从微调数据中学习到畛域特定的翻新转换，并与用户行为对齐。

在图4(a)中，当批量大小为16时，论文展现了婚配率和召回率随着微调步骤停顿而出现的变动。论文留意到，格局化学习，即学习感兴味集群的言语，首先启动，在约2,000步到达峰值。在高婚配率（超越99%）的状况下，论文能有效地将生成内容映射到集群ID空间，并限度在这些集群上对原始项级softmax战略的运行。随后，模型开局与用户行为对齐，造成在微调集上的召回率清楚参与。此外，论文发现，在过渡对齐之后，独立测试集的召回率也随之参与，在约3,000步到达峰值后逐渐降低。因此，论文选用微调了3,000步的模型。须要留意的是，测试集上的召回率远低于微调集，标明LLM依然重大依赖其全局常识，而不是在生成新兴味时记忆日志中的兴味过渡。

2.3 论文的成果

2.3.1 试验设置

论文在一个服务于数十亿用户的商业短视频介绍平台上启动了一系列现场试验。论文的试验经常使用Gemini-Pro 启动，但雷同的微调环节和流程可以轻松顺应其余LLM。论文为LLM推理设定了历史集群数量K = 2，但是它很容易在未来的迭代中经过稠密表裁减以顺应更大的数量。

基准模型。论文将所提出的方法与现有的消费模型启动比拟：（1）探求导向模型包括：一种陈腐性增强的序列介绍器[9]，该介绍器经常使用来自正样本和以前未在用户消费历史中出现的聚类中的陈腐东西的标签启动训练；基于3.1节引见的分层聚类的分层高低文强盗，经过基于树的LinUCB探求用户的兴味以失掉下一个聚类，而后经常使用序列模型将检索限度在东西上。虽然这些模型旨在探求用户兴味，但它们是在系统中存在的兴味转移上训练的，因此依然遭到反应循环的影响。（2）应用导向模型包括惯例的双塔模型[34]和基于Transformer的[8, 27]序列模型，这些模型是依据一切正向用户反应启动训练的。论文的实时试验结果标明，与这些现有模型相比，所提出的方法能够带来更具陈腐性和更高质量的介绍。

2.3.2 结果与剖析

陈腐性与质量。在图4（b）中，论文将所提出的方法与消费中的各种基准模型启动了比拟。以分层高低文强盗的功能为参考，论文权衡了其余模型的改良。详细来说，论文绘制了陈腐印象比例的参与（仅思考用户从未交互过的兴味聚类中的印象）以突出介绍的陈腐性（x轴），以及正向反应率的参与以展现介绍的质量（y轴）。所提出的方法相比一切基准方法介绍了更多陈腐的东西（x轴右侧）。此外，它在质量上远超现有的探求导向方法，与应用导向方法相当（x轴上较高）。换句话说，所提出的方法提供了一种有效的模式，向用户引见对其有吸引力的陈腐兴味。

用户兴味探求。为权衡介绍系统能否激励用户探求新兴味，论文驳回了一名目的UCI@N，该目的追踪过去7天内消费上来自N个共同聚类兴味项的用户数量。较高的UCI@N象征着更多用户正在消费N个兴味。经过监测不同N值（20至200）下的UCI@N，论文能评价系统在用户兴味探求方面的有效性。图4(c)总结了论文的方法相较于分层高低文 bandits 在用户兴味探求方面的改良，以评价其成果。值得留意的是，与消费中部署的清楚探求模型相比，论文提出的方法在不同N值下展现出了十分清楚的改良。

用户增长。同时，论文监测了总体观看时期的增长以及生动用户数量（总观看时期≥10分钟），以权衡短视频平台上用户的增长状况（见图5）。x轴代表试验周期（详细日期已隐去），y轴显示试验组与对照组之间的相对百分比差异，对照组扫除了所提出的系统。论文的方法经过介绍多样且陈腐的内容成功拓宽了用户兴味，促成了用户增长。这突显了介绍的陈腐内容的质量和相关性。

图5：所提出的方法驱动用户增长

论文题目：LLMs for User Interest Exploration: A Hybrid Approach

论文链接：

本文转载自，作者：

<<重点是代码开源！这套LLM智能体选出的战略累计收益超50% 全市场都上涨了

史上首个实时AI视频生成技术 DiT通用速度优化10.6倍>>