自我分歧性优化大模型中的思想链推理才干

2024-11-14

摘要：联合预训练大型言语模型的链式思索揭示在复杂推理义务上已取得令人鼓舞的成绩。本文提出了一种新的解码战略——自我分歧性，以代替链式思索揭示中经常使用的豪华贪心解码。该战略首先采样一套多样化的推理门路，而非繁多的贪心门路，并经过边缘化采样的推理门路来选用最分歧的答案。自我分歧性应用了这样一种直觉：一个复杂的推理疑问通常准许经过多种不同的思索模式到达其惟一正确的答案。宽泛的实证评价标明，自我分歧性清楚优化了链式思索揭示在一系列盛行算术和知识推理基准上的功能，包括GSM8K(+17.9%)、SVAMP(+11.0%)、AQuA(+12.2%)、StrategyQA(+6.4%)以及ARC应战赛(+3.9%)。

1、引言

虽然言语模型在泛滥人造言语处置义务中展现出出色的成功，但它们展现推理才干的才干常被视为局限，这一局限性不能仅经过参与模型规模来克制（Rae等人，2021；BIG-bench协作名目，2021等）。为了应答这一无余，Wei等人（2022）提出了链式思索揭示方法，即促使言语模型生成一系列冗长句子，模拟团体在处置疑问时或许驳回的推理环节。例如，面对疑问“停车场有3辆车，又有2辆车抵达，如今停车场有多少辆车？”时，言语模型不是间接回答“5”，而是被揭示输入整个思索链：“停车场已有3辆车。又有2辆抵达。如今是3+2=5辆车。答案是5。”。人们观察到，链式思索揭示清楚提高了模型在多种多步推理义务上的体现（Wei等人，2022）。

在本文中，咱们引入一种陈腐的解码战略——自我分歧性，用以代替链式思索揭示（Wei等人，2022）中经常使用的贪心解码战略，进一步清楚优化言语模型的推感功能。自我分歧性应用了这样一个直觉：复杂的推理义务通常准许多条推理门路到达正确答案（Stanovich & West, 2000）。一个疑问越是须要深思熟虑和剖析（Evans, 2010），能复原答案的推理门路多样性就越大。图1经过示例说明了自我分歧性方法。咱们首先经常使用链式思索揭示激起言语模型，而后不是贪心地解码最优推理门路，而是提出一个“采样-边缘化”解码环节：咱们首先从言语模型的解码器中采样生成多样化的推理门路汇合；每条门路或许造成不同的最终答案，因此咱们经过对采样的推理门路启动边缘化，从最终答案集中找出最分歧的答案。这种方法相似于人类的阅历，假设多种不同的思索模式都能得出相反的答案，人们对最终答案的正确性会有更大的信念。与其余解码方法相比，自我分歧性防止了贪心解码的重复性和部分最优性，同时减轻了单次采样生成的随机性。

图 1：自分歧性方法蕴含三个步骤：（1）经常使用链式思想（CoT）揭示来揭示言语模型；（2）将 CoT 揭示中的“贪心解码”交流为从言语模型的解码器中采样，以生成多样化的推理门路汇合；（3）对推理门路启动边沿化处置，并经过选用最终答案集中最分歧的答案启动汇总。

（注释：这张图展现了“自分歧性”方法在经常使用链式思想（Chain-of-Thought, CoT）揭示中的运行环节，用于提高言语模型在复杂推理义务中的准确性。图中经过三个步骤展现了自分歧性方法如何优化推理环节和最终答案。

1. Chain-of-Thought 揭示

首先，经过链式思想揭示方法，向言语模型（Language Model）提供一个疑问以及推理环节的揭示。例如，疑问是：

- Q: 假设停车场里曾经有3辆车，又来了2辆车，那么停车场里有多少辆车？

- A: 停车场里曾经有3辆车，又来了2辆车。如今3 + 2 = 5辆车。答案是5。

而后给出一个更复杂的疑问：

- Q: 珍妮的鸭子每天产16个蛋。她每天早上吃3个蛋做早餐，并用4个蛋烤松饼给她的好友们。她把剩下的蛋以每个蛋2美元的多少钱卖掉。她每天能赚多少钱？

2. 贪心解码（Greedy Decode）

传统方法经常使用贪心解码，即模型一次性生成一个最或许的下一个词，直到成功整个回答。在图中，贪心解码给出的答案是：

- 她每天用3 + 4 = 7个蛋。她把剩下的蛋以每个蛋2美元的多少钱卖掉，所以她每天卖7 * 2美元 = 14美元。答案是14美元。

但这个答案或许不是最优的，由于贪心解码没有探求其余或许的推理门路。

3. 自分歧性方法

3.1 生成多样化的推理门路

自分歧性方法经过从言语模型的解码器中采样，生成一组多样化的推理门路，而不是繁多的贪心解码。例如，在图中，生成了多个推理门路：

- 门路1：她有16 - 3 - 4 = 9个蛋剩下。所以她每天赚2美元 * 9个蛋 = 18美元。答案是18美元。

- 门路2：这象征着她把剩下的蛋以每个2美元的多少钱卖掉，所以她每天赚2美元 * (16 - 4 - 3) = 26美元。答案是26美元。

- 门路3：她每天早餐吃3个蛋，所以她有16 - 3 = 13个蛋剩下。而后她用4个蛋烤松饼，所以她有13 - 4 = 9个蛋剩下。所以她每天赚2美元 * 9个蛋 = 18美元。答案是18美元。

3.2 推理门路的边沿化（Marginalize out Reasoning Paths）

在生成了多个推理门路后，自分歧性方法经过边沿化这些推理门路来汇总最终的答案。即选用最分歧的答案作为最终答案。图中显示，答案“18美元”在多个门路中发生，因此被选用为最终答案。

经过这种方法，自分歧性方法可以更好地处置复杂的推理义务，提供更准确的答案。经过生成多样化的推理门路并选用最分歧的答案，这种方法克制了贪心解码的局限性，提高了言语模型的推理才干和准确性。）

自我分歧性远比那些须要训练额外验证器（Cobbe等人，2021）或给定额外人工注释以改良生成品质的重排序训练方法（Thoppilan等人，2022）更为便捷。相反，自我分歧性齐全是无监视的，可即插即用与预训练言语模型配合，无需额外的人工注释，也不须要任何额外训练、辅佐模型或微调。自我分歧性也不同于典型的集成方法，后者须要训练多个模型并将每个模型的输入汇总，自我分歧性更像是在繁多言语模型之上的“自集成”。

咱们在四种不同规模的言语模型上，包括地下的UL2-20B（Tay等人，2022）和GPT-3-175B（Brown等人，2020），以及两个密集激活的解码器型言语模型LaMDA-137B（Thoppilan等人，2022）和PaLM-540B（Chowdhery等人，2022），评价了自我分歧性在宽泛的算术和知识推理义务上的体现。在一切四个言语模型上，自我分歧性在一切义务上都清楚逾越了链式思索揭示。特意是，当与PaLM-540B或GPT-3联合经常使用时，自我分歧性在算术推理义务上到达了新的最佳水平，包括GSM8K（Cobbe等人，2021）（相对准确率提高17.9%）、SVAMP（Patel等人，2021）（+11.0%）、AQuA（Ling等人，2017）（+12.2%），以及在诸如StrategyQA（Geva等人，2021）（+6.4%）和ARC应战（Clark等人，2018）（+3.9%）等知识推理义务上。在额外的试验中，咱们展现自我分歧功能在参与链式思索或许侵害功能的规范揭示相比时，持重地优化NLP义务的功能（Ye & Durrett, 2022）。咱们也证实自我分歧性清楚优于采样排序、波束搜查、基于集成的方法，并且对采样战略和不完美揭示具备鲁棒性。

2、自分歧性在多样化推理门路中的运行

人类思索疑问的模式各不相反，这一点十分清楚。在须要深思熟虑的义务中，往往会有多种处置疑问的方法。咱们提出，经过从言语模型的解码器中启动采样，可以模拟这种环节。例如，如图1所示，模型可以对一个数学识题生成多个正当的回答，并且都得出正确的答案（输入1和输入3）。由于言语模型不是完美的推理工具，模型或许会发生失误的推理门路或在某个推理步骤中犯错（如输入2），但这样的处置打算较少能得出相反的答案。咱们假定，正确的推理环节，即使是多样化的，最终答案的分歧性往往高于失误的环节。

咱们应用这不时觉，提出了以下自分歧性方法。首先，用一组手动编写的链式思想示例（Wei等，2022）对言语模型启动揭示。接上去，从言语模型的解码器中采样，生成一组多样化的候选推理门路。自分歧性方法兼容大少数现有的采样算法，包括温度采样（Ackley等，1985；Ficler & Goldberg，2017）、top-k采样（Fan等，2018；Holtzman等，2018；Radford等，2019）和核采样（Holtzman等，2020）。最后，经过边沿化采样的推理门路，选用生成答案中最分歧的作为最终答案。

更具体地说，假定生成的答案a来自固定答案集a∈ A，其中 i = 1, . . . , m 标识从解码器中采样的m个候选输入。给定一个揭示和一个疑问，自分歧性方法引入一个额外的潜在变量 r，它是示意第i个输入中推理门路的一系列标志，而后联合生成 (r, a)，其中 r→a，即生成推理门路r是可选的，仅用于得出最终答案a。例如，思索图1中的输入3：前几句话“她吃了3个蛋做早餐……所以她有9个蛋*2美元=18美元。”造成了 r，而最后一句话中的答案18，即“答案是18美元”，则解析为 a。

在从模型的解码器中采样多个(r, a)后，自分歧性方法经过对r启动边沿化，采取少数投票来选用答案，即 maxΣ1(a= a)，或咱们定义为最终答案集中最“分歧”的答案。

在表1中，咱们展现了在一组推理义务上经常使用不同答案聚合战略的测试准确率。除了少数投票外，在聚合答案时，也可以经过 P(r, a| 揭示, 疑问) 对每个(r, a)启动加权。留意，为计算P(r, a| 揭示, 疑问)，咱们可以采取模型生成 (r, a) 给定 (揭示, 疑问) 的非归一化概率，或许咱们可以经过输入长度启动归一化的条件概率（Brown等，2020），即

其中 log P(t| 揭示, 疑问, t, ..., t)是在先前标志的条件下生成第k 个标志 t的对数概率，K 是 (r, a)中标志的总数。

在表1中，咱们展现了间接对a启动少数投票的“未加权总和”方法与经常使用“归一化加权总和”启动聚合的准确率十分相似。咱们细心观察了模型的输入概率，发现这是由于关于每个 (r, a)，归一化的条件概率 P(r, a| 揭示, 疑问)十分凑近，即言语模型以为这些生成是“雷同或许的”。此外，当聚合答案时，表1中的结果显示“归一化”加权总和（即公式1）的准确率远高于未归一化的对应方法。为了完整性，表1中还报告了“加权平均”方法的结果，即每个答案 a 获取的分数为其加权总和除以Σ1(a= a)，这造成了更差的功能。

自分歧性探求了开明式文本生成和具备固定答案的最佳文本生成之间的幽默空间。推理义务通常有固定答案，这就是为什么钻研人员通常思索贪心解码方法（Radford等，2019；Wei等，2022；Chowdhery等，2022）。但是，咱们发现即使希冀的答案是固定的，引入推理环节中的多样性也十分有益；因此咱们应用采样，作为罕用于开明式文本生成的方法（Radford等，2019；Brown等，2020；Thoppilan等，2022），来成功这一指标。须要留意的是，自分歧性只能运行于最终答案来自固定答案集的疑问，但准则上，假设能够定义多个生成之间分歧性的良好度量，这种方法可以裁减到开明文本生成疑问，例如两个答案能否分歧或矛盾。

3、试验（略）

4、关系上班

言语模型中的推理。 妇孺皆知，言语模型在第2类义务上存在艰巨，例如算术、逻辑和知识推理（Evans，2010）。以前的上班关键集中在改良推理的专业方法上（Andor等人，2019；Ran等人，2019；Geva等人，2020；Pi˛ekos等人，2021）。与以往的上班相比，自我分歧性实用于宽泛的推理义务，无需额外的监视或微调，同时依然清楚提高了Wei等人（2022）提出的思想链揭示方法的功能。

言语模型中的采样和从新排序。 在文献中提出了多种言语模型的解码战略，例如温度采样（Ackley等人，1985；Ficler和Goldberg，2017）、top-k采样（Fan等人，2018；Holtzman等人，2018；Radford等人，2019）、外围采样（Holtzman等人，2020）、最小贝叶斯危险解码（Eikema和Aziz，2020；Shi等人，2022）和典型解码（Meister等人，2022）。其余上班试图在解码环节中明白促成多样性（Batra等人，2012；Li等人，2016；Vijayakumar等人，2018）。从新排序是提高言语模型生成品质的另一种罕用方法（Adiwardana等人，2020；Shen等人，2021）。Thoppilan等人（2022）搜集额外的人类注释来训练一个从新排序器启动照应过滤。Cobbe等人（2021）训练一个“验证器”对生成的处置打算启动从新排序，与仅仅微调言语模型相比，这在数学义务上的处置率有了清楚提高。Elazar等人（2021）经过裁减预训练参与额外的分歧性损失来提高理想知识提取的分歧性。一切这些方法都须要额外训练一个从新排序器或搜集额外的人类注释，而自我分歧性不须要额外的训练、微调或额外的数据搜集。

提取推理门路。 一些以前的上班思索了识别推理门路的义务特定方法，例如构建语义图（Xu等人，2021a）、学习一个RNN在Wikipedia图上检索推理门路（Asai等人，2020）、在数学识题上用人类注释的推理门路启动微调（Cobbe等人，2021）或用基于启示式的伪推理门路训练提取器（Chen等人，2019）。最近，推理环节中的多样性的关键性曾经被留意到，但只经过义务特定的训练来应用，要么经过额外的QA模型在提取的推理门路上（Chen等人，2019），要么经过在知识知识图中引入潜在变量（Yu等人，2022）。与这些方法相比，自我分歧性要便捷得多，不须要额外的训练。咱们提出的方法是便捷地经过从解码器中采样将生成推理门路和最终答案联合起来，经常使用聚合来复原最分歧的答案，而不须要额外的模块。

言语模型中的分歧性。一些以前的上班标明，言语模型在对话（Adiwardana等人，2020）、解释生成（Camburu等人，2020）和理想知识提取（Elazar等人，2021）中或许会有不分歧性。Welleck等人（2020）经常使用“分歧性”来指代在递归言语模型中生成有限长度序列。Nye等人（2021）经过参与一个受System 2启示的逻辑推理模块来提高System 1模型样本的逻辑分歧性。在本文中，咱们关注一个稍微不同概念的“分歧性”，即应用多样化推理门路中的答案分歧性来提高准确性。

5、论断与探讨

咱们引见了一种称为自我分歧性的便捷而有效的方法，并观察到它清楚提高了在一系列算术和知识推理义务中的准确性，涵盖了四种不同规模的大型言语模型。除了准确性的优化，自我分歧性在口头推理义务时搜集理由、提供不确定性预计以及改善言语模型输入的校准时也具备用途。

自我分歧性的一个限度是它会参与计算老本。在通常中，人们可以尝试大批门路（例如，5或10条）作为一个终点，在不参与太多老本的状况下成功大部分收益，由于在大少数状况下功能会迅速饱和（见图2）。作为未来上班的一部分，可以经常使用自我分歧性生成更好的监视数据来微调模型，以便模型在微调后的单次推理运转中给出更准确的预测。此外，咱们观察到言语模型有时或许会生成不正确或有意义的推理门路（例如，表4中的StrategyQA示例，两团体口数字并不齐全正确），须要进一步的上班来更好地基础化模型的理由生成。

Wang X, Wei J, Schuurmans D, et al. Self-consistency improves chain ofthought reasoning in language models[J]. arXiv preprintarXiv:2203.11171, 2022.

Google Research, Brain Team

AIRoobt ，作者：AIRoobt

原文链接:

<<技术万文长文搞定检索增强生成 RAG

大言语模型在不同人造言语处置义务中的揭示工程方法综述>>