与OpenAI的Q*道殊同归斯坦福团队发现言语模型的新门路为Q函数

2024-11-15

传统上LLM被视为复杂的文本生成器，能够在给定输入的基础上发生连接且相关的输入。斯坦福大学的最新钻研《From r to Q∗: Your Language Model is Secretly a Q-Function》（论文链接：）为咱们提供了一个全新的视角，它将LLM视为Q函数，这是强化学习中用于评价执行预期成效的关键工具。这一翻新观念不只应战了咱们对LLM的传统认知，也为未来AI的开展方向提供了或许的新门路。

这个观念提出了一个幽默的假定，即言语模型可以被视为 Q 函数，这是强化学习中用于评价在给定形态下采取特定执行的预期成效的函数。这种通常上的转变或许会对咱们如何经常使用和了解大型言语模型（LLM）发生深远的影响。假设将言语模型视为 Q 函数，那么咱们或许会愈加深化地探求如何经过强化学习方法来优化它们，从而更好地对齐模型输入与人类用意。

有媒体推测OpenAI奥秘的Q* 很或许是 Q 强化学习和 A* 搜查这两种 AI 方法的结合，兴许 OpenAI 秘密的 Q* 名目或许真的是培育 AGI 的正确方向，至于 OpenAI 的 Q* 名目能否正是这种 Q 函数的实践运行，或许能否将 Q 强化学习与 A* 搜查结合起来，目前还没有地下的详细消息来证明这一点。但是这种假定确实指向了人工自动钻研中的一个潜在的、令人兴奋的方向，即探求不同类型的算法和模型结构，以发明更自动、更顺应性强的系统。这也或许是朝着通用人工自动（AGI）开展的一步。不过这些都还处于猜想和通常讨论阶段，须要更多的钻研和试验来验证，或许万众等候的ChatGPT-5将会为咱们揭秘这一切。

论文的外围观念在于LLM可以被训练来优化特定的Q函数，从而间接对齐人类用意和模型输入。这种方法被称为间接偏好优化（DPO），它经过在多臂赌博机设置中同时优化处罚函数和战略，成功了对LLM的间接对齐。这一发现或许对AI畛域发生深远影响，尤其是在人造言语处置、对话系统设计以及通用人工自动（AGI）的构建上。

Q函数在强化学习中表演着至关关键的角色，它代表了在特定形态下采取某个执行所能取得的预期报答。经过将LLM视为Q函数，钻研者们可以应用强化学习的方法来优化模型，使其更好地与人类用意对齐。这一通常的提出，不只为咱们了解LLM提供了新的视角，也或许对AI畛域的未来开展发生关键影响。

1.间接偏好优化（DPO）方法概述

DPO方法的定义与上班原理

间接偏好优化（DPO）是一种新兴的机器学习方法，它旨在间接经过用户反应来优化言语模型的输入。与传统的强化学习方法不同，DPO不依赖于一个预先定义的处罚函数。同样，它经常使用从用户反应中提取的信号来调整模型的行为，使其愈加合乎用户的偏好。

与经典的RLHF不同，DPO（如Rafailov等人在2023年推导的）齐全坚持在高低文bandit设置中，并且还经常使用了基于bandit的偏好模型。为了防止经常使用RL算法，DPO经常使用了KL-contextual bandit版本的RL疑问的妇孺皆知的闭式解：

其中π∗是最优战略，Z(x)是归一化的分区函数。DPO从新陈列这个方程，以解出处罚：

将这个相关代入用于处罚建模的规范二进制交叉熵损失函数中，获取DPO的损失方程，由于分区函数Z(x)从Bradley Terry模型中消弭。

在DPO中，模型的每个输入都被视为一个“臂”，而用户的反应则被用作评价这些“臂”的“处罚”。经过这种方式，模型学习哪些类型的输入更或许取得侧面的用户反应，并偏向于在未来的预测中生成相似的输入。

DPO与传统强化学习方法的对比

传统的强化学习方法通常依赖于一个明白的处罚函数来指点模型的学习环节。这个处罚函数定义了在给定的形态和执行下应该取得的处罚。但是定义一个能够准确反映复杂义务目的的处罚函数往往是十分艰巨的。

DPO方法的一个关键长处在于它不须要这样的处罚函数。它间接应用用户的反应来指点模型的学习，这使得它在处置那些难以用传统处罚函数形容的义务时愈加有效。

DPO在实践运行中的长处

DPO方法在实践运行中的一个关键长处是它的灵敏性和顺应性。由于它间接依赖于用户反应，DPO能够顺运行户的变动偏好，并且能够在没有明白处罚函数的状况下启动优化。

此外DPO还能够处置那些传统强化学习方法难以处置的义务，如那些须要细粒度评价和常年战略布局的义务。经过间接从用户反应中学习，DPO能够在这些复杂的义务中找到有效的战略。DPO为优化言语模型提供了一个间接、灵敏且高效的方法，特意是在那些传统强化学习方法难以运行的畛域。

2.DPO在令牌级别的解释才干

令牌级别的处罚函数与战略优化

间接偏好优化（DPO）方法在令牌级别的运行中，展现了其共同的长处。在这个层面上，每个令牌（即单词或字符）都被视为一个决策点，模型须要在这些决策点上做出最优选用以生成最终的文本输入。DPO经过评价每个令牌对全体输入品质的奉献来优化战略，这种方法准许模型在生成文本时启动更精细的调整。

在令牌级别上，处罚函数的作用是为每个或许的令牌选用提供一个评分，这个评分反映了该选用关于达成目的的奉献水平。DPO方法经过用户反应来灵活调整这些评分，使得模型能够学习到哪些令牌选用更能满足用户的偏好。

DPO如何成功信誉调配

信誉调配是机器学习中的一个关键概念，特意是在强化学习和序列决策疑问中。它触及到如何正当地将成功或失败的责任调配给序列中的各个决策。在DPO框架下，信誉调配经过对用户反应的剖析来成功。模型不只学习到了哪些令牌选用是好的，而且还学习到了为什么它们是好的。

例如，假设一个特定的词汇选用在用户反应中获取了踊跃的评价，DPO会参与该词汇在未来相似高低文中被选中的概率。同样，假设一个词汇选用造成了负面反应，那么模型会学习到在相似情境下防止经常使用它。

图1：DPO 中基于答案级别反应的学分调配。咱们提供两个摘要到 Reddit 上关于上班面试的帖子。左边是基本照应，左边是咱们的引入了薪资范围和职位级别的失误。每个标志的色彩对应于DPO 隐性处罚如方程式所示。11（色彩越深越高），经常使用经过训练的模型。咱们看模型正确地突出显示了失误的陈说，而对的值没有太大扭转其余令牌，示意启动信誉调配的才干。

在这一节中，咱们定性评价DPO训练模型能否能够从轨迹反应中学习信誉调配。咱们从Reddit帖子的通用汇合开局启动TL;DR测试数据集，咱们在附录C中提供了额外的示例。在咱们的代表性示例中，用户讨论了一种务工谈判状况。图1中显示了两个答案。左边提供的是正确的基础摘要。在左边，咱们经过引入更初级别的职位和相应更高的薪资来修正摘要。关于两个答案中的每个令牌，咱们计算了DPO等效处罚（长处），r(s, a) = β log πθ(s|a) − β log πref(s|a)，其中πθ如定理1所述（这里πθ是咱们的DPO训练模型，πref是SFT模型）。在图1中，每个令牌的色彩与这个处罚成比例。咱们看到模型成功地识别了与失误申明相对应的令牌，同时依然坚持了其余局部的可比值，这标明它可以启动信誉调配。此外，咱们看到在第一个失误（“250K"薪资）的高低文中，模型依然为其余令牌调配了正当的值，并特意识别了第二个失误"控制职位”。这是一个有宿愿的迹象，标明它能够启动"缝合"Levine等人（2020），即从离线数据中启动组合泛化的一种方式。假设是这样，咱们的发现或许关于在LLMs中经常使用强化学习和RLHF具有关键意义。同时，在最近引入的RewardBench Lambert等人（2024）中，DPO模型在推理义务上展现了弱小的分类功能。咱们以为这些是鼓舞人心的结果，值得进一步的大规模钻研。

DPO在组合泛化中的运行

组合泛化是指模型的才干，能够将学到的常识和形式运行到新的、未见过的情境中。DPO经过在令牌级别上启动优化，为模型提供了学习如何将不同的令牌组分解无心义和合乎用户偏好的输入的才干。

在实践运行中，这象征着DPO训练的模型能够更好地处置新的用户查问和义务，即使这些义务在训练数据中没有间接的例子。经过这种方式，DPO有助于创立更灵敏、更顺应性强的言语模型，这些模型能够在多变的实在环球情境中体现杰出。

DPO在令牌级别的解释才干为言语模型的优化提供了一个弱小的工具，它经过精细的信誉调配和组合泛化才干，使模型能够更好地顺运行户的详细需求和偏好。这种方法的运行前景宽广，从提高对话系统的互动品质到创立更准确的文本生成模型，DPO都显示出了渺小的后劲。

3.经典搜查算法与DPO战略的等效性

经典搜查算法的原理

经典搜查算法在人工自动畛域中表演着关键角色，特意是在决策疑问和布局义务中。这些算法旨在在大规模的形态空间中寻觅最优解或凑近最优解的战略。

1. 深度优先搜查（DFS） ：从根节点开局，沿着一个分支不时探求究竟，而后回溯到上一层，继续探求其余分支。DFS通罕用于树结构或图搜查。

2. 广度优先搜查（BFS） ：从根节点开局，逐层探求，先探求一切相邻节点，而后再探求下一层。BFS通罕用于图搜查和形态空间搜查。

3. A*搜查 ：结合了启示式消息和实践代价的搜查算法。它经常使用预计的最优门路老本（启示式函数）来指点搜查，以便更快地找到目的形态。

DPO战略与搜查算法的关联

DPO方法与经典搜查算法之间存在必定的关联。虽然DPO不是传统的搜查算法，但它在令牌级别上的优化环节与搜查算法的思维有相似之处。

详细来说DPO在令牌级别上对模型的输入启动调整，相似于搜查算法在形态空间中探求不同门路。DPO经过评价每个令牌的奉献来优化战略，相似于搜查算法在形态之间选用最优门路。

图2：经常使用波束搜查的模型功能。左图：在Reddit TL的256个测试提醒上，模型生成的摘要相关于首选摘要的胜率；由GPT 4评价的DR数据集。右图：基于梁数的平均答案长度。咱们看到超越5个波束的简短水平呈爆炸式增长，这也造成了较低的模型获胜率，虽然GPT4有妇孺皆知的偏好长度偏向。

等效性对AI战略优化的意义

DPO与搜查算法的等效性关于AI战略优化具有关键意义。它为咱们提供了一种新的视角，行将搜查算法的思维运行于令牌级别的优化。这有助于更好地理解DPO方法的上班原理。

等效性象征着咱们可以自创搜查算法中的一些启示式方法，将其运行于DPO中。例如，咱们可以经常使用启示式函数来评价每个令牌的奉献，相似于A*搜查中的预计门路老本。

DPO与搜查算法的等效性为咱们提供了一种跨畛域的思索方式，有助于改良战略优化方法，使其愈加高效和灵敏。

4.参考战略选用对隐含处罚的影响

参考战略的关键性

在强化学习中，参考战略是指用于比拟和评价其余战略功能的基准战略。选用适当的参考战略关于模型的训练和优化至关关键。

1. 功能评价 ：参考战略作为一个规范，用于评价其余战略的功能。经过与参考战略的比拟，咱们可以了解模型能否在特定义务上体现良好。

2. 信誉调配 ：参考战略协助咱们调配处罚或处罚给不同的决策。模型可以依据参考战略的体现来调整自己的战略，从而更好地对齐用户的用意。

隐含处罚在模型训练中的角色

隐含处罚是指在训练环节中未间接明白定义的处罚信号。它通常来自于用户的反应、义务目的或其余隐含的消息。在言语模型中，隐含处罚或许包含用户的满意度、文本生成的流利性、消息的准确性等。

模型的训练目的是最大化总体处罚，包含显式处罚和隐含处罚。因此，正入选用参考战略关于隐含处罚的有效调配至关关键。假设参考战略能够准确地反映用户的偏好，那么模型就能更好地学习到如何生成更无心义、更合乎用户希冀的文本。

外表上对DPO的解释或许会让人以为它参与了选用照应的或许性，同时降低了被拒绝照应的或许性。但是，这并没有解释一个妇孺皆知的现象，即选用的照应的或许性实践上会随着时期的推移而降低（Pal等人，2024）。这在图3的左半局部获取了说明，咱们展现了在DPO之行启动SFT时，选用和拒绝照应的隐含处罚都会降低，虽然它们之间的差距会参与。但是，给定一个最大熵RL框架，这种现象或许是预期的。

图3：TLDR 上的 DPO（左）和渣滓箱拣选上的 CPL 隐性处罚的演化训练时期的数据（右）。咱们看到，当咱们开局经常使用 SFT 时，处罚值会缩小，而在没有 SFT 的状况下开局会造成 DPO 的隐性处罚为正，而 CPL 的隐性处罚会参与。

如何正入选用参考战略

选用参考战略须要综合思索多个起因。

1. 义务目的 ：参考战略应该与义务目的分歧。例如，在对话系统中，参考战略可以是一个曾经训练良好的对话模型，或许是人类生成的对话。

2. 用户反应 ：参考战略应该思索用户的反应。假设用户更青睐某种类型的回复，那么参考战略应该能够反映这一点。

3. 畛域常识 ：参考战略可以基于畛域常识，例如专家的意见或先前的钻研成绩。

正入选用参考战略须要综合思索义务目的、用户反应和畛域常识，经过选用适合的参考战略，咱们可以更好地优化模型，使其生成更无心义、更合乎用户希冀的文本。

5.论文的试验结果与剖析

DPO方法的试验设计

在论文中，钻研团队对DPO方法启动了一系列试验，以验证其有效性和功能。

以下是试验设计的关键要点：

1. 数据集选用 ：钻研人员经常使用了多个不同畛域的数据集，包含人造言语处置、对话系统和文本生成义务。这些数据集涵盖了不同类型的文本和义务。

2. 模型架构 ：为了测试DPO方法，钻研人员选用了几种经常出现的大型言语模型，如BERT、GPT等。这些模型在不同义务上启动了微调，以顺应特定的试验需求。

3. 评价目的 ：为了权衡DPO方法的功能，钻研人员经常使用了多个评价目的，如BLEU、ROUGE、人类评分等。这些目的用于评价生成文本的品质、流利性和相关性。

试验结果的详细剖析

钻研人员对试验结果启动了详细的剖析，以讨论DPO方法的长处和局限性。

以下是一些关键发现：

1. 功能改良 ：DPO方法在多个义务上都取得了清楚的功能改良。与传统的强化学习方法相比，DPO能够更好地对齐用户用意，生成更无心义的文本。

2. 隐含处罚的作用 ：试验结果标明，DPO方法能够更好地利用隐含处罚，使模型在训练环节中更快地收敛并生成更优质的文本。

3. 泛化才干 ：DPO方法在组合泛化方面体现杰出。模型在训练中学到的常识能够很好地运行到新的、未见过的情境中。

试验结果对通常的支持水平

试验结果对论文中提出的通常观念提供了有力的支持，DPO方法的功能改良、隐含处罚的有效应用以及泛化才干的展现都与论文中的通常框架相吻合。试验结果证明了DPO方法的有效性，并为将其运行于更宽泛的人造言语处置义务提供了通常和通常的支持。

6.论文的通常奉献与通常意义

论文对强化学习通常的奉献

《From r to Q∗: Your Language Model is Secretly a Q-Function》这篇论文在强化学习畛域提出了一个陈腐的视角，行将大型言语模型（LLM）视为Q函数。

这一观念关于强化学习通常和通常都具有关键意义。

1. 通常拓展 ：论文的提出为强化学习通常拓宽了钻研方向。传统上，咱们将Q函数与强化学习中的自动体形态和执行关联，而如今咱们可以将LLM作为一种不凡的Q函数来钻研。

2. 新的优化方法 ：将LLM视为Q函数，使得咱们可以自创强化学习中的优化方法来改良LLM。这为更好地训练和优化LLM提供了新的思绪。

LLM作为Q函数的通常运行前景

将LLM视为Q函数的通常运行前景宽泛而幽默。

1. 对话系统 ：基于DPO方法，咱们可以更好地训练对话模型，使其更好地对齐用户用意，生成更人造、流利的对话。

2. 文本生成 ：经过优化LLM作为Q函数，咱们可以改良文本生成义务，使其愈加合乎用户希冀，同时坚持语法正确性和消息准确性。

3. 通用人工自动（AGI） ：LLM作为Q函数的概念或许有助于构建更自动、更通用的人工自动系统。经过将LLM与强化学习方法相结合，咱们可以更好地成功通用性。

对AI钻研方向的启示

这篇论文为未来AI钻研方向提供了一些启示。

1. 跨畛域思索 ：将不同畛域的通常和方法相互结合，或许会发生令人意想不到的新发现。咱们应该激励跨畛域的思索和协作。

2. 从不同视角扫视疑问 ：将LLM视为Q函数是一个非传统的视角，但它为咱们提供了新的思索方式。咱们应该不时尝试从不同的视角扫视疑问，以寻觅更好的处置打算。

总之，这篇论文不只无通常上拓宽了咱们对LLM的认知，也为实践运行提供了新的思绪。它关于推进人造言语处置、对话系统和通用人工自动的开展具有踊跃的影响。

参考资料：

<<Wetzstein传授团队提出全息增强事实眼镜问鼎Nature！斯坦福大学Gordon

基于疑问生成的文档检索增强 RAG初级优化>>

与OpenAI的Q*道殊同归 斯坦福团队发现言语模型的新门路为Q函数