新加坡科技设计大学和南洋理工大学联结团队优化AI多步推理才干的新方法阿里巴巴达摩院

2024-11-15

大模型在处置更复杂的疑问时，依然容易在推理环节中出现失误，造成推理门路偏离，最终影响模型的全体功能。现有的大言语模型在多步推理义务中，通常会因为推理门路中某一步骤的失误而影响整个推理环节。这些失误不只降落了模型的准确性，还参与了计算老本和口头提前。传统的方法如强化学习须要复杂的处罚模型，而其余偏好优化方法往往漠视了多步推理义务中失误出现的详细步骤及其后续分支。

为了处置这些疑问，阿里巴巴达摩院、新加坡科技设计大学和南洋理工大学联结团队提出了一种新的训练框架——Reasoning Paths Optimization（RPO）。该框架经过探求和学习多样化的推理门路，优化大言语模型的推理才干。详细而言，RPO在每个推理步骤中激励无利分支，处罚不利分支，从而提高模型的全体疑问处置才干。与须要大规模人工注释的传统方法不同，RPO应用模型自身生成的推理门路，使其具有可裁减性和数据高效性。10 月 16 日，他们的技术论文《Reasoning Paths Optimization:Learning to Reason and Explore From Diverse Paths》宣布于arXiv，惹起宽泛关注。

钻研团队结合了来自学术界和工业界的资源与智慧，成员包括新加坡科技设计大学、阿里巴巴达摩院和南洋理工大学的专家。他们的跨机构协作为钻研提供了弱小的技术允许和翻新才干，展现了推理门路优化在前沿科技钻研中的渺小后劲。关键成员包括新加坡科技设计大学与阿里巴巴达摩院联结博士名目的Yew Ken Chia 和 Guizhen Chen；阿里巴巴达摩院的钻研员Weiwen Xu；南洋理工大学的钻研人员Luu Anh Tuan 和 Soujanya Poria；阿里巴巴达摩院和新加坡科技设计大学的Lidong Bing。经过此次协作，该团队展现了Reasoning Paths Optimization框架的后劲，不只无实践上提供了新的方法，也在实践运行中展现了良好的效果。

钻研方法

大言语模型在处置复杂疑问时，经常须要启动多步推理。为了提高模型的推理才干，钻研团队提出了一种新的框架，即Reasoning Paths Optimization（RPO）。该框架旨在生成并优化推理门路，确保模型能在复杂疑问中更准确地找到正确答案。推理门路生成的外围在于链式思想揭示。

链式思想揭示是一种经过展现多个逐渐推理示例，来疏导模型逐渐推理的方法。详细来说，链式思想揭示经过给出疑问及其对应的推理步骤，协助模型学习如何启动多步推理。为了生成参考推理门路，首先，他们须要预备一系列示例，每个示例蕴含一个疑问及其对应的推理门路。接着，应用这些示例经过温度采样技术从基础模型中生成推理门路。

图1：模型的推理门路如何很容易地分叉到不可到达正确解的不利分支的示例。虽然咱们在这里展现了一个简化的例子，但关于须要更长推理门路的更复杂的疑问，应战被加大了。

在生成参考推理门路的环节中，模型会生成多个或许的推理门路，并最终选用其中能够到达正确答案的门路作为参考门路。假设生成的门路在最后一步蕴含正确答案，他们将其视为正确门路。假设未能生成正确门路，则继续采样和验证，最多尝试十次。经过这种模式，他们可以确保生成的推理门路尽或许准确，防止失误累积造成推理失败。

为了进一步提高模型的推理才干，他们须要思考每个推理步骤中或许出现的失误。因此，在推理探求阶段，他们经过多分支探求方法来生成多个或许的处置分支，从而找出无利与不利分支对。

详细来说，在生成参考门路后，他们从每一步开局，生成多个或许的分支，并经过温度采样技术探求这些分支。在这个环节中，他们指标是找到一个无利分支和一个不利分支，其中无利分支能够通向正确答案，而不利分支则不能。经过迭代采样和验证，每一步都会构成一个推理分支对，这些分支对将用于后续的对比反应和优化环节。

图2：咱们用于探求和学习不同推理门路的推理门路优化框架概述。

在推理优化阶段，他们结合参考门路和探求获取的分支对，经过计算参考门路损失和分支对损失，成功对基础模型的优化。首先，参考门路损失是经过规范的因果言语模型损失计算的，目的是提高模型生成参考门路的概率。详细公式为：

其次，关于分支对损失，经过对比无利和不利分支，提供对模型优化的指点。分支对损失的计算基于对数赔率差，详细公式为：

生成分支的赔率经过以下公式计算：

经过聚合每一步的分支对损失，他们可以获取总体的探求损失：

最终，他们综合参考门路损失和探求损失，经过以下公式成功总损失函数的优化：

其中，λ是平衡参考门路优化和探求分支优化的超参数。经过这种模式，RPO框架能够有效提高模型在复杂疑问求解中的推理才干，缩小失误的出现，优化全体功能。

这局部内容详细引见了论文中提出的Reasoning Paths Optimization框架的钻研方法，包括推理门路生成、推理探求和推理优化的详细步骤和计算方法。接上去，将进一步探讨试验结果和对比剖析，以验证该方法的有效性和长处。

试验与结果

在试验局部，他们详细引见了经常使用的数据集、试验方法及其结果。这些试验展现了Reasoning Paths Optimization（RPO）框架在提高模型推理才干方面的有效性。经过对比不同基线方法和调整试验参数，他们进一步验证了该方法的长处。

数据集引见

为了片面评价RPO框架的功能，他们选用了多个具有代表性的数据集启动试验。这些数据集包括GSM8K、MATH和MMLU-STEM。

图3:GSM8K和math中数学推理疑问以及MMLU-STEM中基于迷信的考试疑问的不同训练方法的评价准确率（%）的关键结果。咱们还指出，与功能最高的基线相比，咱们的方法有所改良。

GSM8K数据集关键用于数学文字疑问的推理评价，该数据集蕴含了8000多个经过人工标注的数学标题，涵盖了从便捷到复杂的各种难度等级。因为其多样性和高品质标注，GSM8K成为了评价言语模型推理才干的关键基准。

MATH数据集则专一于比赛级数学标题，这些标题通常须要复杂的多步推理才干得出正确答案。MATH数据集的引入能够协助他们评价模型在高难度推理义务中的体现，检测RPO在应答复杂疑问时的有效性。

MMLU-STEM数据集是MMLU考试疑问数据集的一个子集，专一于迷信、技术、工程和数学（STEM）畛域的疑问。该数据集蕴含了多个须要多步推理才干处置的疑问，能够片面评价RPO在不同畛域推理义务中的实用性和效果。

试验方法

在试验环节中，他们驳回了多种基线方法启动比拟，以验证RPO框架的功能优化。关键的基线方法包括监视微调（SFT）、拒绝采样微调（RFT）、间接偏好优化（DPO）和赔率比偏好优化（ORPO）。

监视微调方法不经常使用推理门路，仅训练模型生成最终答案。拒绝采样微调方法应用模型自生成的推理门路启动训练，相似于RPO框架的推理生成阶段。间接偏好优化和赔率比偏好优化则提供对比反应，协助模型在无利和不利分支之间启动选用。

在模型训练和评价环节中，他们首先经过链式思想揭示生成参考推理门路，并结合多分支探求方法生成多个或许的分支对。而后，经过计算参考门路损失和分支对损失，优化模型的推理才干。为了确保结果的牢靠性，他们在训练和评价环节中坚持分歧的试验设置，驳回固定的采样温度和批量大小。

试验结果

经过对比不同基线方法，他们发现RPO框架在多个数据集上均体现出了清楚的功能优化。特意是在GSM8K和MMLU-STEM数据集上，RPO区分取得了3.1%和4.3%的功能优化。这标明RPO框架能够有效缩小推理环节中失误的出现，提高全体推理才干。

此外，他们还钻研了不同权重λ值对功能的影响。结果显示，λ值过低会造成对推理探求注重不够，结果不佳；而过高则会影响参考门路的优化效果。因此，在优化参考门路和探求分支之间找到平衡是至关关键的。

图4:LLaMA-3-8B的勘探损失权重对MATH数据集功能的影响。

图5:LLaMA-3-8B在MATH数据集上的推理门路长度功能。

推理门路长度对结果的影响也启动了剖析。与最高功能基线ORPO相比，RPO在较长推理门路上的体现更好，标明该方法能够有效缩小复杂疑问中的失误出现。

案例钻研

为了进一步验证RPO框架的有效性，他们启动了案例钻研。经过对详细疑问的详细剖析，他们发现RPO不只能够得出正确答案，还能经过连接的推理环节展现推理步骤。相比之下，其余基线方法在没有详细解释的状况下，容易在第一步就出现失误。

经常出现失误及其批改也在案例钻研中获取了详细探讨。经过逐渐验证推理门路，RPO框架能够有效缩小失误，优化模型的推理才干和牢靠性。

基于代码的推理

除了人造言语推理，RPO框架还在代码推理中展现了良好的实用性。他们经过代码示例生成Python程序，获取输入答案。试验结果标明，RPO在文本和代码推理中均体现出相似的长处。这标明该框架不只在人造言语处置义务中有效，还可以推行到其余畛域，如代码生成和代码增强推理。

对比指标和参考门路的影响

在试验中，他们钻研了不同对比指标和参考门路的影响。结果显示，RPO框架在不同对比指标下体现出分歧的持重性和功能优化。此外，经常使用多个参考门路能够进一步增强模型的推理才干，证实了RPO在处置复杂推理义务时的有效性。

经过这些试验结果，他们可以得出论断，Reasoning Paths Optimization框架经过优化推理门路，有效提高了大言语模型在复杂疑问求解中的牢靠性和效率。这进一步展现了该方法在多步推理义务中的渺小后劲，并为未来钻研提供了关键的启示。

关系上班

分歧性和基于偏好的优化

在人类反应强化学习（RLHF）畛域，很多钻研努力于使大言语模型（LLMs）更好地与人类偏好对齐，并能够遵照批示。RLHF方法经过训练一个独自的处罚模型来提供标量反应，而后经常使用该反应对LLMs启动微调。但是，PPO算法虽然宽泛运行，但其复杂性和不稳固性让训练环节充溢应战。此外，RLHF须要分阶段训练处罚模型和战略模型，这进一步参与了技术难度。为了处置这些疑问，近来涌现了多种技术，包括间接偏好优化（DPO）、无偏好优化（IPO）、简化偏好优化（SimPO）和赔率比偏好优化（ORPO），这些技术在必定水平上消弭了对处罚模型的需求，大大稳固并简化了训练环节。

这些优化方法经过成对比拟模型生成的两个照应，推进模型为更无利的照应调配更高的概率。但是，这些偏好优化方法通常在全体上比拟两个照应，漠视了多步推理义务中特定步骤及其后续分支中失误的影响。因此，他们提出了Reasoning Paths Optimization（RPO），该方法关注每个两边步骤，提供更精细的对比反应，有效提高模型的推理才干。

大言语模型中的多步推理

大言语模型在多步推理义务中体现出色，能够经过逐渐生成推理步骤来处置复杂的疑问。钻研标明，经过疏导模型生成推理步骤，可以清楚优化其多步推理才干。例如，链式思想揭示经过向模型展现逐渐推理的示例，协助其学习如何逐渐推理。虽然如此，LLMs在推理环节中依然容易出现失误，特意是在面对复杂的多步推理义务时。为了处置这一疑问，逐渐验证推理门路成为一种有效的方法，能够在每个推理步骤中捕捉并纠正失误。

此外，最新钻研尝试经过构建逐渐标签来验证两边步骤，从而缩君子工注释的老本。这些方法关键集中在训练验证器（即处罚模型），而他们的RPO框架则经过流程监视将验证方法运行于偏好优化，无需独自的处罚模型。

人工智能中的门路探求

在人工智能畛域，门路探求技术被宽泛运行于提高复杂义务的功能。比如，AlphaGo经常使用蒙特卡洛树搜查（MCTS）来探求或许的移动空间。相似地，树状揭示（Tree-of-Thought prompting）经过探求言语模型生成的或许处置打算空间，提高模型的决策才干。其余钻研也设计了基于树的解码战略，以寻觅最佳处置打算。在推理义务中，先前的钻研经过自采样处置打算启动训练，并经过树搜查生成门路，进一步优化模型功能。

受这些上班的启示，钻研团队提出的RPO框架经过探求多样化的处置打算空间，并在训练时期应用无利和不利分支的对比反应来优化模型。经过这种模式，他们不只能够捕捉到推理环节中的失误，还能够经过对比反应进一步优化模型的全体推理才干。

总结起来，钻研团队提出的Reasoning Paths Optimization框架在推理门路生成、推理探求和推理优化方面提供了一种全新的方法。经过对比现有的偏好优化方法和多步推理技术，RPO框架展现了其在提矮小言语模型推理才干方面的后劲和长处。

论断与未来上班

钻研团队提出了一种陈腐的训练框架，即推理门路优化（Reasoning Paths Optimization，简称RPO），旨在优化大言语模型在多步推理义务中的功能。经过生成、探求和优化多样化的推理门路，RPO框架展现了其在复杂疑问求解中的出色才干。该方法经过链式思想揭示生成参考推理门路，并在推理环节中探求多个或许的处置分支，构成无利和不利的推理分支对。最终，经过对比反应和优化，总损失函数结合参考门路损失和探求损失，有效提高了模型的全体推理才干。

试验结果标明，RPO在多个数据集上均体现出清楚的功能优化，尤其是在GSM8K和MMLU-STEM数据集上，区分提高了3.1%和4.3%。这些结果证实了RPO框架在缩小推理环节中失误出现，提高复杂疑问求解中的牢靠性和效率方面的长处。

虽然RPO框架展现了清楚的功能优化，但其方法仍存在一些局限性。首先，RPO依赖于模型在训练阶段生成正确推理门路的才干，假设基础模型体现不佳，或许难以生成必要的正确门路，从而限度了方法的有效性。其次，生成和探求多个推理门路的环节相对计算密集，虽然这是训练中的一次性性老本，但仍需少量计算资源允许，这在资源受限的环境中或许会成为瓶颈。

此外，RPO框架虽然无需大规模人工注释，但在生成初始参考门路和探求分支时，仍或许遭到模型自身生成品质的影响。假设生成的参考门路不够准确，或许探求到的分支存在较多失误，或许会影响最终优化结果的品质。

未来的钻研可以从以下几个方面进一步改良和裁减RPO框架。

增强基础模型的推理才干：可以思考结合更多的训练数据和更先进的预训练模型，以提高基础模型在生成正确推理门路时的功能，从而增强RPO的全体效果。

优化计算资源的经常使用：针对生成和探求环节中的计算密集疑问，钻研可以尝试引入愈加高效的采样和验证方法，以缩小计算资源的消耗，优化训练效率。

裁减运行畛域：RPO框架在人造言语处置中的推理义务体现优秀，未来可以探求其在其余畛域的运行，例如代码生成、迷信计算和复杂系统建模等，验证其在更多义务中的实用性和有效性。

开发更强健的验证机制：引入愈加智能和智能化的验证机制，缩小对模型生成品质的依赖，确保探求到的推理分支愈加准确和有效。

人机协作优化：探求人类专家与RPO框架的协作，经过专家指点和反应进一步优化推理门路，优化模型的全体推理才干和准确性。

总之，Reasoning Paths Optimization框架经过翻新的方法和谨严的试验，展现了其在优化大言语模型多步推理才干方面的渺小后劲。虽然存在一些局限性，但随着技术的开展和钻研的深化，RPO有望在更多复杂义务中施展关键作用，推进人工智能技术的继续提高和运行。（END）

参考资料：

<<还在用VGG ResNet? 时频图像分类

GitHub狂揽2k 大神Kapathy一键三连从零复现Llama3代码库爆火>>

新加坡科技设计大学和南洋理工大学联结团队优化AI多步推理才干的新方法 阿里巴巴达摩院