大言语模型在不同人造言语处置义务中的揭示工程方法综述

2024-11-14

一、论断写在前面

论文题目：A Survey of Prompt Engineering Methods in Large Language Models for Different NLP Tasks

论文链接：

大型言语模型（LLMs）在泛滥不同的人造言语处置（NLP）义务上展现出出色的性能。揭示工程在增强LLMs已有的才干方面施展着关键作用，以在各种NLP义务上成功清楚的性能优化。揭示工程须要编写称为揭示的人造言语指令，以结构化的方式从LLMs中引出知识。与先前的最先进（SoTA）模型不同，揭示工程不须要对给定的NLP义务启动普遍的参数从新训练或微调，因此仅依赖于LLMs嵌入的知识。

此外，LLM喜好者可以经过基本的人造言语对话交流或揭示工程智能地提取LLMs的知识，使得越来越多没有深沉数学机器学习背景的人也能试验经常使用LLMs。随着揭示工程在过去两年中日益盛行，钻研人员围绕设计揭示提出了多种工程技术，以提高从LLMs中提敞开息的准确性。

论文对44篇钻研论文启动了深化考查，这些论文讨论了39种揭示战略，涵盖了29个不同的NLP义务。论文经过火类图直观地展现了这一点。论文尝试将不同数据集规范化分类为29个NLP义务，并讨论了近期揭示技术在这些义务上的全体影响，同时列出了每个数据集的潜在SoTA揭示方法。

二、论文的便捷引见

2.1 论文的背景

随着大型言语模型（LLMs）的引入，人工智能取得了清楚的提高。LLMs 在蕴含数百万乃至数十亿个标志的少量文本语料库上启动训练。钻研标明，随着模型参数数量的参与，机器学习模型的性能会优化，这一现象在 LLMs 中雷同失掉了验证。它们在泛滥 NLP 义务上取得了史无前例的性能，如 Chang 等人所示（2023），因此惹起了学术界和包括医疗、法律、金融等多个行业的普遍关注。关于 LLMs 的钻研重点是经过揭示而非仅限于下一个标志预测来讨论其推理才干，这开启了一个围绕揭示工程的新钻研畛域。

揭示工程是指创立人造言语指令或揭示，以有组织的方式从 LLMs 中提取知识的环节。与早期的传统模型相比，揭示工程仅依赖于 LLMs 中嵌入的知识，不须要依据底层 NLP 义务启动少量的参数从新训练或微调。了解模型参数中嵌入的实在环球知识超出了人类的才干范围，因此这一新的揭示工程畛域惹起了普遍关注，由于它准许钻研人员与 LLMs 之间经过人造言语交流来成功底层 NLP 义务的指标。

论文罗列了多种揭示战略，并依据它们所运行的不同人造言语处置（NLP）义务启动分类。论文提供了一个分类图，将针对不同NLP义务尝试的揭示技术制成表格，讨论所驳回的大型言语模型（LLMs），并列出每个数据集的潜在最先进（SoTA）方法。作为本次调研的一局部，论文总共回忆和剖析了44篇钻研论文，其中大局部在过去两年内宣布，涵盖了39种揭示技术运行于29个不同的NLP义务。关于揭示工程的系统性调研并不多见。Sahoo等人（2024年）基于运行对29篇揭示技术论文启动了调研。这种分类十分普遍，由于单个运行可以蕴含泛滥NLP义务。例如，他们讨论的运行之一是推理和逻辑，这可以包括知识推理、数学识题处置、多跳推理等多种NLP义务。这与论文的方法不同，论文基于NLP义务对揭示战略启动了更细粒度的分类。Edemacu和Wu（2024年）概述了隐衷包全揭示方法，因此专一于揭示工程的一个相对较小的子畛域。Chen等人（2023年）将揭示战略的讨论限度在9-10种方法，并且也没有依据NLP义务启动分类。

2.2 揭示工程技术

论文简明引见了不同的揭示方法以及它们如何随着颁布期间改良现有性能。须要留意的是，以下大少数揭示战略已在两种不同的变体或设置中启动了试验，假设不是更多的话。这些变体包括零样本和少样本。某些揭示技术或者实质上存在于零样本或少样本变体中，或者不存在其余变体。在零样本设置中，Radford等人（2019年）没有触及训练数据，LLM经过揭示指令执行义务，齐全依赖于其在预训练阶段学到的嵌入知识。另一方面，在少样本变体中，Brown等人（2020年）提供了大批训练数据点以及基于义务的揭示指令，以更好地理解义务。来自各种揭示工程上班的结果显示，少样本变体有助于提高性能，但这须要精心预备少样本数据点，由于LLM或者对精心筹划的少样本数据点体现出不可解释的成见。

2.2.1 基础/规范/豪华揭示

基础揭示指的是间接向大型言语模型（LLM）提出查问，而不对其启动任何工程优化以提高LLM性能的方法，这是大少数揭示战略的外围指标。基础揭示在不同钻研论文中也被称为规范或豪华揭示。

2.2.2 思想链（COT）

在这种揭示战略中，Wei等人（2022）基于人类如何将复杂疑问分解为更便捷的子疑问，而后再得出复杂疑问的最终处置方案的想法。相似地，作者钻研了LLM经过发生一系列两边推理步骤，即思想链，来增强复杂推理才干的方式。结果显示，与基础揭示相比，思想链揭示有清楚改良，最大差异在数学识题处置义务中约为39%，在知识推理义务中约为26%。这项上班为揭示工程畛域开拓了新的钻研方向。

2.2.3 自分歧性

自分歧性（Wang et al. 2022）揭示技术基于一个直觉：复杂推理疑问可以经过多种方式处置，因此可以经过不同的推理门路到达正确答案。自分歧性驳回了一种陈腐的解码战略，不同于思想链经常使用的贪心战略，并蕴含三个关键步骤。第一步要求经常使用思想链揭示LLM，第二步从LLM的解码器中采样多样化的推理门路，最后一步触及在多个推理门路当选用最分歧的答案。与思想链相比，自分歧性在数学识题处置义务中平均提高了11个百分点，在知识推理义务中提高了3个百分点，在多跳推理义务中提高了6%。

2.2.4 集成细化（ER）

这种揭示方法已在Singhal等人（2023）中讨论过。它建设在CoT和自分歧性（Self-Consistency）的基础上。ER蕴含两个阶段。首先，给定一个少样本CoT揭示和一个查问，经过调整其温度，LLM生成多个推理链。每个推理链蕴含对查问的推理和答案。接上去，LLM基于原始揭示、查问和前一阶段生成的拼接推理链，生成更好的解释和答案。这一第二阶段会屡次启动，而后经过少数投票机制在这些第二阶段生成的答案当选出最终答案，正如自分歧性中的做法。ER在多个属于无高低文问答义务的数据集上体现优于CoT和自分歧性。

2.2.5 智能思想链（Auto-CoT）

在这项上班中，Zhang等人（2022）处置了少样本CoT或手动CoT面临的疑问，即须要精心挑选高品质的训练数据点。Auto-CoT蕴含两个关键步骤。第一步是将给定数据集的查问分为几个簇。第二步是从每个簇当选用一个代表性查问，并经常使用零样本CoT生成其对应的推理链。作者宣称，Auto-CoT在数学识题处置、多跳推理和知识推理义务上的体现要么优于要么与少样本CoT相当。这标明，关于少样本或手动CoT，可以省去训练数据点的挑选步骤。

2.2.6 复杂CoT

Fu等人（2022）引入了一种新的揭示战略，旨在选用复杂的数据点揭示而非便捷的。数据点的复杂性在这里由触及的推理步骤数量定义。作者假定，假设经常使用复杂数据点作为高低文训练示例，LLM的推理性能可以提高，由于它们曾经蕴含了便捷的数据点。复杂CoT除了经常使用复杂数据点作为训练示例外，另一个关键方面是在解码环节中，相似于自分歧性，从N个采样的推理链中，选用最复杂的K条链中的少数答案作为最终答案。此外，本文还引见了一种基线揭示方法，称为随机CoT（Random CoT）。在随机CoT中，数据点是随机采样的，不思索其复杂性。复杂CoT在数学识题处置、知识推理、基于表格的数学识题处置和多跳推理等义务的多个数据集上，平均提高了5.39%的准确率，最高可达18%的准确率优化。

2.2.7 思想程序 (Program-of-Thoughts, POT)

Chen 等人 (2022a) 在 CoT 的基础上构建了 POT，与 CoT 经常使用 LLM 启动推理和计算不同，POT 生成 Python 程序并将计算局部委托给 Python 解释器。该上班以为缩小 LLM 的责任使其在数值推理方面愈加准确。POT 在数学识题处置、基于表格的数学识题处置、高低文问答和对话高低文问答义务中平均比 CoT 提高了约 12% 的性能。

2.2.8 从易到难 (Least-to-Most)

Least-to-Most Zhou 等人 (2022) 揭示技术试图处置 CoT 不可准确处置比揭示中示例更难的疑问。它蕴含两个阶段。首先，LLM 被揭示将给定疑问分解为子疑问。接上去，LLM 被揭示按顺序处置这些子疑问。任何子疑问的答案都依赖于前一个子疑问的答案。作者标明，Least-to-Most 揭示在知识推理、基于言语的义务成功、数学识题处置和高低文问答义务中清楚优于 CoT 和基本揭示方法。

2.2.9 符号链 (Chain-of-Symbol, COS)

CoS Hu 等人 (2023) 建设在 CoT 的思想上。在传统的 CoT 中，推理步骤的两边链以人造言语示意。只管这种方法在许多状况下取得了清楚成绩，但它也或者蕴含不正确或冗余的消息。该上班的作者提出假定，空间形容在人造言语中难以表白，因此 LLM 难以了解。相反，经常使用符号在单词序列中表白这些相关或者是 LLM 的更好示意方式。CoS 在空间问答义务中成功了高达 60.89% 的准确性优化。

2.2.10 结构化思想链（SCoT）

SCoT（Li et al., 2023b）的直觉在于，经常使用序列、分支和循环等程序结构来组织两边推理步骤，比传统CoT中经常使用人造言语示意两边推理步骤更能提高代码生成的准确性。作者宣称，前者更凑近人类开发者的思想环节，这一点已经过最终结果失掉证明，SCoT在代码生成义务上的体现优于CoT高达13.79%。

2.2.11 方案与处置（PS）

Wang et al. (2023) 讨论并试图处置CoT的三个缺陷：计算失误、遗漏步骤失误和语义曲解失误。PS蕴含两个局部，第一局部须要制订一个方案，将整个疑问分解为较小的子疑问，第二局部则须要依据方案执行这些子疑问。一个改良版的PS称为PS+，参与了更详细的指令，有助于提高推理步骤的品质。PS揭示方法在零样本设置下的数学识题处置义务中，简直一切数据集的准确率都比CoT提高了至少5%。雷同，在知识推理义务中，它在零样本设置下一直优于CoT至少5个百分点，而在多跳推理义务中，其准确率提高了约2%。

2.2.12 数学揭示器（MathPrompter）

Imani et al. (2023) 试图处置CoT在数学识题处置义务中的两个关键疑问：（1）CoT处置疑问时步骤的有效性无余；（2）LLM对其预测的自信水平。MathPrompter揭示战略总共蕴含4个步骤。（I）给定一个查问，第一步要求为查问生成一个代数表白式，用变量交流数值。（II）接上去，揭示LLM经过推导代数表白式或编写Python函数来解析地处置查问。（III）第三步，经过为变量赋不同的值来处置步骤（I）中的查问。（IV）假设在N次迭代中（II）中的解是正确的，则最终用原始查问值交流变量并计算答案。假设不是，则重复步骤（II）、（III）和（IV）。MathPrompter能够将数学识题处置义务所属数据集的性能从78.7%优化到92.5%。

2.2.13 对比链式推理/对比自分歧性

Chia等人（2023）宣称，对比链式推理（Contrastive CoT）或对比自分歧性（Contrastive Self Consistency）是对链式推理（CoT）或自分歧性（Self-Consistency）的普通性增强。这种揭示方法的灵感起源于人类如何从侧面和负面示例中学习。相似地，在这种揭示技术中，经过提供侧面和负面示例来加弱小言语模型（LLM）的推理才干。对比链式推理在数学识题处置义务中平均能够比传统链式推理优化10%的性能。雷同，对比自分歧性在数学识题处置义务中能够比传统自分歧性优化超越15%的性能。关于多跳推理义务，对比链式推理和对比自分歧性相较于其传统版本都有超越10%的优化。

2.2.14 联结相反/不同参数自分歧性/链式推理（Fed-SP/DP-SC/CoT）

Liu等人（2023）引入的这种揭示方法基于经过经常使用同义众包查问来提高LLM推理才干的外围思想。这种方法有两种略有不同的变体。第一种是Fed-SP-SC，其中众包查问是原始查问的改写版本，但参数相反。这里的参数可以指数学识题处置义务数据点中的数值。关于Fed-SP-SC，首先间接生成答案，而后在其上运行自分歧性。另一种是Fed-DP-CoT。在Fed-DP-CoT中，LLM首先生成不同查问的答案，而后经过构成链式推理来联结它们，为LLM提供揭示。这些方法在数学识题处置义务中的结果显示，它们能够比传统链式推理至少优化10%，甚至高达20%。

2.2.15类比推理

Yasunaga等人（2023）的上班遭到心思学中类比推理概念的启示，即人们应用相关的先前阅从来处置新疑问。在LLM畛域，作者首先揭示它们生成与原始疑问相似的示例，而后处置这些示例，最后答还原始疑问。结果显示，类比推理在数学识题处置、代码生成、逻辑推理和知识推理义务中相较于链式推理能够成功平均4%的准确性优化。

2.2.16 分解揭示（Synthetic Prompting）

Shao等人（2023）提出了一种应用大型言语模型（LLMs）生成分解示例的分解揭示方法，这些分解示例被增广到现有的手工制造示例中，相似于传统的小样本学习设置。这种揭示方法包括两个步骤：（1）后向步骤，LLM依据自生成的推理链分解查问；（2）前向步骤，LLM为分解的查问生成推理链，从而使推理链愈加准确。最后，为了选用最佳示例，该上班经常使用簇内复杂度，并在推理环节中使用具备最长推理链的最复杂示例。试验结果显示，在不同的数学识题处置、知识推理和逻辑推理义务数据集上，分解揭示成功了高达15.69%的相对增益。

2.2.17 思想树（Tree-of-Thoughts, ToT）

Yao等人（2024）提出的ToT揭示技术源自于任何类型的疑问处置都须要经过一个组合空间启动搜查，该空间可以示意为一棵树，其中每个节点代表一个局部解，每条分支对应一个修正该局部解的操作符。如今，选用哪条分支的选择由启示式方法确定，这些方法有助于导航疑问空间并疏导疑问处置者向处置方案行进。基于这一思想，作者提出了ToT，它被动保养一个思想树，其中每个思想是一个连接的言语序列，作为处置疑问的中介推理步骤。该框架准许LLMs在尝试处置疑问时评价由思想生成的停顿。ToT进一步结合了搜查技术，如广度优先或深度优先搜查，以及模型生成和评价思想的才干。在数学识题处置义务上，ToT的成功率比CoT高出65%，在不同的逻辑推理义务数据集上，成功率高出约40%。在自在回答义务上，ToT的连接性得分为7.56，而CoT平均仅为6.93。

2.2.18 逻辑思想 (LoT)

在这项上班中，Zhao 等人 (2023b) 钻研了经常使用逻辑等价性来提矮小型言语模型（LLM）的零样本推理才干。除了准许 LLM 逐渐推理外，LoT 还准许 LLM 依据归谬法准则的指点逐渐验证，并在必要时修正推理链以确保有效推理。LoT 在数学识题处置义务中最多能超越 CoT 3.7\%，知识推理义务中最多能超越 16.2\%，逻辑推理义务中最多能超越 2.5\%，因果推理义务中最多能超越 15.8\%，以及社交推理义务中最多能超越 10\% 的准确率。

2.2.19 助产术揭示 (Maieutic Prompting)

经过经常使用深度递归推理来引出各种假定的溯因解释，Jung 等人 (2022) 处罚 LLM 经过单干消弭相互矛盾的代替方案来发生分歧的照应。助产术揭示的生成环节导出一个生成的命题树结构，其中一个命题为另一个命题的正确性建设了逻辑基础。最后，为了推断原始查问的答案，测量 LLM 对每个命题的信赖水平以及助产术树中命题之间的逻辑咨询。在知识推理义务上，助产术揭示的结果显示，与基本揭示、CoT、自分歧性和 GKP (Liu et al., 2021) 相比，它能成功高达 20\% 的更好准确率，同时与监视模型竞争。

2.2.20 验证与编辑 (VE)

Zhao 等人 (2023a) 专一于开发一种技术，该技术可以对 CoT 生成的推理链启动后编辑，以发生更合乎理想的输入。该方法包括三个阶段：(1) 选择何时编辑阶段，作者经常使用自分歧性来发现不确定的输入；(2) 如何编辑理由阶段，作者经过从外部知识源搜查支持理想来编辑不确定输入的 CoT 推理链；(3) 推理阶段，经常使用前一阶段的编辑理由来得出最终答案。VE 在多跳推理义务中最多能超越 CoT、自分歧性和基本揭示 10\%，在实在性义务中最多能超越 2\%。

2.2.21 REASON + ACT (REACT)

Yao等人（2022b）提出了ReAct，它结合了推理和执行，应用LLMs处置多样化的言语推理和决策义务。为了使模型能够进执行态推理，构建和修正初级执行方案（推理以执行），ReAct促使LLMs以交织方式生成与义务相关的行动推理轨迹和执行。Yao等人（2022b）还讨论了另一种相似于ReAct的揭示方法Act，该方法基本上移除了ReAct轨迹中的思索或推理，但在一切讨论的义务中体现均不如ReAct。在多跳推理和实在性义务中，ReAct的体现优于基本揭示，同时与CoT相竞争。当ReAct与CoT或自分歧性结合时，其结果优于CoT。在基于言语的义务成功义务中，ReAct在不同数据集上的成功率区分提高了超越10%，优于强化学习方法。

2.2.22 ACTIVE-PROMPT

Diao等人（2023）提出了Active-Prompt，协助LLMs经过识别最相关的数据点作为示例，在少样本设置下顺应不同义务。Active-Prompt是一个四步技术。第一步，LLM对训练集中的每个查问启动k次揭示，生成k个或者的答案及其相应的推理链。第二步要求依据第一步生成的答案计算不确定性度量。第三步，选用前n个最不确定的查问，并由人类启动标注。最后一步，经常使用新的标注示例对测试数据启动少样本揭示。作者还引见了一种名为Random CoT的Active-Prompt变体，其中在步骤3中，前n个查问是随机选用的，而不是基于不确定性度量。结果显示，Active-Prompt在数学识题处置、知识推理、多跳推理、知识推理义务等多个数据集上，均能取得比自分歧性、CoT、Auto-CoT和Random CoT更好的结果。

2.2.23 思想链（THOT）

Zhou等人（2023）提出了一种专一于处置长而凌乱高低文的揭示方法。其基于这样一种思想：人们在处置少量消息时会保管一种延续的思想流，从而能够选用性地提取相关数据并摒弃有关数据。在文档各局部之间坚持这种留意力的平衡关于准确解读和回应所提供的消息至关关键。思想链（THOT）包括两个步骤。第一步要求大言语模型（LLM）剖析并总结高低文的不同局部。在第二步中，LLM被揭示依据第一步的输入回答所提出的查问。在无高低文问答义务中，思想链能够经过成功约0.56的准确婚配分数，逾越链式思索（CoT）和基本揭示技术。在对话系统义务中，思想链再次以3.8的平均分逾越其余讨论的揭示技术，取得最高分。

2.2.24 隐式检索增强生成（IMPLICIT RAG）

与传统的RAG（Lewis et al., 2020）不同，隐式RAG（Vatsal & Singh, 2024）：Vatsal等人（2024）要求LLM自身从给定高低文中检索关键片段或局部，而后继续回答所提出的查问。这一技术须要调整两个超参数。第一个是提取的节数，第二个是每节中的单词数。隐式RAG在Vatsal等人（2024）的病人病例报告数据集上的高低文问答义务中取得了最先进（SoTA）的结果，而在Vatsal & Singh（2024）的动物医学高低文问答义务数据集中，取得了最先进或凑近最先进的结果。

2.2.25 系统2留意力（S2A）

大言语模型（LLM）在面对有翻开下文时往往做出失误判别。Weston & Sukhbaatar（2023）尝试经过两步揭示战略来处置这一疑问。第一步批示LLM重重生成给定高低文，使得重重生成的版本不蕴含任何或者对输入发生不利影响的有关局部。第二步则批示LLM经常使用第一步中重重生成的高低文来发生最终照应。结果显示，S2A能够在不同实在性义务数据集上逾越基本、链式思索以及指点性揭示（Shi et al., 2023）。

2.2.26 指令揭示

指令揭示（Shi et al., 2023）再次围绕与S2A相反的理念倒退，旨在处置大型言语模型（LLMs）被有翻开下文扩散留意力的疑问。它仅包括一步，即明白批示言语模型疏忽疑问形容中的有关消息。指令揭示能够在实在性义务中到达88.2%的归一化微准确率，并能够逾越包括思想链（CoT）、从少到多（Least-To-Most）、程序揭示和自分歧性在内的一切同类方法。程序揭示（Chowdhery et al., 2023）战略试图经过编写一个Python程序来处置疑问。随后，经过经常使用外部Python解释器运转Python代码来验证所编写程序的正确性，从而取得最终答案。

2.2.27 验证链（CoVe）

大型言语模型（LLMs）容易生成理想失误的消息，称为幻觉。Dhuliawala et al. (2023)的作者试图经过CoVe处置幻觉疑问并提高性能。CoVe执行四个外围步骤。首先，LLM为给定查问生成一个基线照应。其次，应用\xi结合原始查问和第一步的基线照应，生成一组验证查问，这些查问能够审核基线照应中能否存在任何失误。第三，生成一切来自第三步的验证查问的答案。第四，纠正第三步检测到的基线照应中的一切失误，并生成订正后的照应。结果显示，CoVe在无高低文问答、高低文问答和预照应义务中能够比CoT和基本揭示至少高出10%。

2.2.28 知识链（CoK）

与CoVe相似，CoK（Li et al., 2023c）试图处置幻觉疑问以取得更准确的结果。它是一种三阶段的揭示技术。第一阶段是推理预备，给定一个查问，CoK预备多个初步理由和答案，同时识别相关的知识畛域。第二阶段是灵活知识顺应，假设在答案中没有少数共识，CoK经过逐渐顺应第一阶段识别的畛域知识来纠歪理由。第三阶段是答案整合，经常使用第二阶段修正的理由作为最终答案整合的更好基础。CoVe在无高低文问答、基于表格的问答、多跳推理和实在性义务中逾越了CoT、自分歧性、VE和基本揭示，区分显示出至少3%、39%、1%和1Y_O的改良。

2.2.29 CHAIN-OF-CODE (COC)

在这项上班中，Li等人（2023a）提出了一种扩展方法，以改良LLM在代码导向推理方面的才干。在此方法中，LLM不只编写程序代码，还经过生成某些不可实践执行的代码行的预期输入来有选用地模拟解释器。其关键思想是处罚LLM将程序中的语义子义务格局化为灵敏的伪代码，这些伪代码可以在运转时被显式捕捉并传递给LLM启动模拟，作者称之为LMulator。试验标明，CoC在包括介绍系统、因果推理、知识推理、空间问答、情感了解、机器翻译、逻辑推理、基于表格的数学识题求解和数学识题求解等多种义务中逾越了CoT和其余基线方法。

2.2.30 PROGRAM-AIDED LANGUAGE MODELS (PAL)

Gao等人（2023）提出了一种揭示战略，该战略应用LLM阅读人造言语疑问并生成交织的人造言语和编程言语语句作为推理步骤。最后，经常使用Python解释器执行编程语句以失掉答案。结果显示，PAL在包括数学识题求解、基于表格的数学识题求解、知识推理和逻辑推理在内的多个NLP义务中轻松逾越了CoT和基本揭示同等类方法。

2.2.31 BINDER

作者宣称Binder（Cheng等人，2022）是一种无需训练的神经符号技术，它将输入映射到一个程序，该程序（I）准许将LLM配置的单个API绑定到Python或SQL等编程言语，以扩展其语法笼罩范围并处置更普遍的查问；（II）在执行环节中经常使用LLM作为底层模型和程序解析器；（III）仅须要大批高低文样本注释。Binder流程分为两个阶段。首先，在解析阶段，LLM依据查问和知识源将输入映射到一个程序。其次，在执行阶段，LLM以选定的编程言语前往值，最后经常使用解释器运转程序。与之前须要显式训练或微调的方法相比，Binder在基于表格的实在性和基于表格的问答义务中能够取得更高的准确性。

2.2.32 DATER

Ye 等人（2023）探求了应用大型言语模型（LLMs）启动少样本学习，经过火解证据和查问以成功高效的基于表格的推理。这种揭示战略包括三个关键步骤。首先，依据查问将一个宏大的表格分解为相关的小型子表格。接上去，经常使用 SQL 编程言语将复杂的人造言语查问分解为逻辑和数值计算。最后，应用前两个步骤中的子表格和子查问，在少样本设置中得出最终答案。结果显示，Dater 能够在基于表格的实在性义务中逾越先前的须要显式微调的方法，至少优化 2\%。雷同，在基于表格的问答义务中，它能够逾越这些方法至少 1 q_o。Dater 在上述两项义务中也优于 Binder。

2.2.33 CHAIN-OF-TABLE

在 Wang 等人（2024）的钻研中，作者基于驰名的 CoT 揭示技术，将其引入到表格环境中。这种多步骤的表格揭示方法促成了更准确的表格了解。Chain-of-Table 是一种三步骤的揭示技术。第一步指点 LLM 经过高低文学习灵活布局下一个表格操作，这里的操作可以是加出列或排序行等。第二步为选定的表格操作生成参数。前两个步骤有助于转换表格并创立各种两边表格示意，目的是答还原始查问。在最后一步中，经常使用前两个步骤中的最后一个表格示意来最终回答查问。Chain-of-Table 在基于表格的问答和基于表格的实在性义务中到达了最先进的性能。在基于表格的问答义务中，它的平均性能优化了约 39%，而在基于表格的实在性义务中，它的平均性能优化了约 1.5%，相较于之前的最先进结果。

2.2.34 分解揭示法（DECOMP）

Khot等人（2022）提出的DecomP技术将复杂疑问分解为更便捷的子疑问，而后将这些子疑问委托给特定于子疑问的LLM处置，这些LLM有自己的揭示和分解器，可以进一步分解子疑问。分解器可以驳回档次分解、递归分解或调用外部API来处置子疑问。在知识推理义务中，DecomP在准确婚配方面平均优于CoT和Least-to-Most方法25%。在多跳推理义务中，DecomP在四个不同数据集上均能轻松逾越CoT。

2.2.35 三跳推理（THOR）

Fei等人（2023）提出的THOR模拟人类的情感/心道了解推理环节。THOR蕴含三个步骤。首先，要求LLM识别给定查问中提到的方面。其次，基于前一步的输入和原始查问，要求LLM详细回答查问中嵌入的基本观念。最后，结合以上一切消息，要求LLM推断与给定查问相关的情感极性。THOR在多个情感/心道了解义务数据集上清楚逾越了先前的SoTA监视模型和零样本模型。

2.2.36 元认知揭示法（MP）

Wang和Zhao（2023）基于元认知概念提出MP，元认知源自认知心思学，触及集体对其认知环节的看法和自我反思。MP蕴含五个阶段：1）了解输入文本，2）做出初步判别，3）批评性地评价这一初步剖析，4）得出最终决策并解释推理环节，5）评价整个环节中的信念水平。结果显示，MP在泛滥NLP义务中继续优于CoT和PS，包括释义、人造言语推理、高低文问答、词义消歧、命名实体识别、相关抽取和多标签文本分类。

2.2.37 事情链 (COE)

Bao等人 (2024) 提出了用于摘要义务的CoE方法。CoE蕴含四个延续步骤。第一步专一于特定事情提取。接上去，对第一步提取的事情启动剖析和概括，构成更繁复精炼的方式。第三步，对上一步概括的事情启动挑选，仅选用笼罩文本大局部内容的事情。最后一步，依据事情的期间顺序关键性对第三步选用的事情启动整合。结果显示，CoE在两个摘要数据集上的rouge评分方面优于CoT，同时愈加繁复。

2.2.38 基础揭示与术语定义

这是Vatsal等人 (2024) 讨论的揭示方法之一。在该方法中，基础揭示指令经过参与医学术语定义失掉增强，基于的假定是参与这些定义有助于LLM在回答查问时取得更多高低文。但结果显示，这些术语定义并未真正起到协助作用，或者是由于它们狭窄的知识范围与LLM更大的知识库存在抵触。

2.2.39 基础 + 基于标注指南的揭示 + 基于失误剖析的揭示

H等人 (2) 测试了LM在临床命名实体识别义务中的才干。这种揭示战略蕴含三个不同的组成局部。基础局部告知LLM关于义务的基本消息以及LLM应以何种格局输入结果。基于标注指南的局部蕴含实体定义和从标注指南中得出的言语规定。基于失误剖析的局部在应用训练数据对LLM输入启动失误剖析后，参与了额外的指令。作者还经过创立上述组件的不同组合，试验了该揭示方法的不同版本。这种揭示方法在多个属于命名实体识别义务的数据集上，平均取得了0.57的准确婚配F1分数。

2.3 不同NLP义务中的揭示工程

在将数据集归类于NLP义务时，不同的钻研论文驳回了不同的权衡规范，并且这些规范在不同的钻研中继续变动。论文试图对此启动规范化，并经过定义不同的NLP义务，将不同的数据集纳入这些义务，来为以往的分类方式构建结构。论文进一步讨论了针对这些义务所驳回的各种揭示方法。反映这一分类的分类图可以在图1中看到。须要留意的是，一个数据集很或者同时属于不同的NLP义务。但这或者造成对揭示技术在不同NLP义务中体现启动结构化剖析时发生复杂的交织。

因此，在论文的钻研中，论文确保一个数据集仅属于与其最严密关联的一个NLP义务。以下各小节区分定义了一个不同的NLP义务、相应的数据集以及运行于这些数据集的各种揭示战略。它们还进一步蕴含了每个数据集的潜在SoTA揭示技术。揭示方法的性能依据所经常使用的LLM而变动。因此，论文还列出了在给定数据集上经常使用揭示战略的LLM列表。关于SoTA，论文仅提及了揭示方法的称号，由于在许多状况下，特定的LLM尚未与给定的揭示方法启动试验，因此不清楚它能否或者到达SoTA性能。因此，假设列表中的任何LLM与一种揭示战略已被用于试验给定数据集并取得了最佳性能，论文将其指定为SoTA，不论用于该技术的详细LLM是什么。

另一个值得强调的点是，在许多上班中，作者们试验了同一数据集的不同版本，这使得对运行于它们的不同揭示技术启动相对比拟变得艰巨。基于论文的了解，论文思索了上述一切起因，并在为每个数据集选用SoTA时经常使用了论文的最佳判别。

图1：不同NLP义务中揭示工程方法的分类图

2.3.1 数学识题求解

此义务权衡模型在非表格设置中执行任何类型数学计算的才干。论文在阅读有关此义务的不同揭示方法时遇到的不同数据集有GSM8K Cobbe et al. (2021)、MATH Hendrycks et al. (2021)、SVAMP Patel et al. (2021)、ASDiv Miao et al. (2021)、AQuA Ling et al. (2017)、MAWPS Koncel-Kedziorski et al. (2016)、MultiArith Koncel-Kedziorski et al. (2016)、AddSub Koncel-Kedziorski et al. (2016)、SingleEq Koncel-Kedziorski et al. (2016)、Game rmof 24 Yao et al. (2024)、Multi-Step Arithmetic Srivastava et al. (2022)、GSM-HARD Gao et al. (2023)、SingleOp Koncel-Kedziorski et al. (2016) 和 MathQA Amini et al. (2019)。表1列出了上述数据集以及在这些数据集上试验过的不同揭示方法及其最佳体现揭示战略。

2.3.2 逻辑推理

逻辑推理义务审核模型遵照一组带有输入的命令并处置给定疑问的人造言语了解才干。论文在阅读有关此义务的不同揭示战略时涵盖的不同数据集有Word Sorting Srivastava et al. (2022)、Temporal Sequences Srivastava et al. (2022)、Formal Fallacies Srivastava et al. (2022)、Mini Crosswords Yao et al. (2024)、Object Counting Srivastava et al. (2022)、Logical Deduction Srivastava et al. (2022)、Boolean Expressions Srivastava et al. (2022)、Tracking Shuffled Objects Srivastava et al. (2022)、Web of Lies Srivastava et al. (2022)、Dyck Languages Srivastava et al. (2022)、Geometric Shapes Srivastava et al. (2022)、Repeat Copy Logic Srivastava et al. (2022)。表2蕴含上述数据集以及在这些数据集上试验过的不同揭示技术及其最佳体现揭示方法。

2.3.3 知识推理

与逻辑推理义务相反，知识推理义务权衡模型基于人类常

表3：知识推理义务的揭示工程剖析

2.3.4 多跳推理

多跳推理义务评价模型如何从高低文的不同局部衔接证据来回答给定查问的才干。论文在钻研这项义务的不同揭示战略时涵盖的不同数据集包括StrategyQA Geva et al. (2021)、HotpotQA Yang et al. ( 2 0 1 8 )、Bamboogle Press et al. ( 2 0 2 2 )、CommaQA-E Khot et al. (2021)、MuSiQue Trivedi et al. (2022)、2WikiMultihopQA和Ho et al. (2020)。表 4 列出了上述数据集以及在这些数据集上试验过的不同揭示方法，以及体现最佳的揭示战略。

2.3.5 因果推理

因果推理义务测验模型处置因果相关的才干。在钻研此义务的不同揭示技术时，论文遇到了两个数据集，区分是Cause And Effect Srivastava等人（2022）和Causal Judgement Srivastava等人（2022）。表5展现了上述数据集及在这些数据集上试验过的不同揭示技术，以及体现最佳的揭示方法。

表4：多跳推理义务的揭示工程剖析

表5：因果推理义务的揭示工程剖析

2.3.6 社会推理

此义务测试模型对人类社会互动的推理才干。在考查此义务的不同揭示技术时，论文仅发现了一个数据集，即SocialQA Srivastava等人（2022）。表6蕴含了上述数据集及在这些数据集上试验过的不同揭示方法，以及体现最佳的揭示战略。

2.3.7 高低文问答

此义务权衡模型仅依赖给定高低文来回答查问的才干。论文在钻研此义务的不同揭示方法时触及的不同数据集包括ProcessBank Berant et al. (2014)、BioMRC Pappas et al. (2020)、MASH-QA Zhu et al. (2020)、CliCR Suster & Daelemans (2018)、MultiSpanQA Li et al. (2022)、FinQA Chen et al. (2021b)、TAT-QA Zhu et al. (2021)、Patient Case Reports Vatsal & Singh (2024)、Drop Dua et al. (2019) 和 BoolQ Clark et al. (2019)。表 7 列出了上述数据集以及在这些数据集上试验过的不同揭示方法，以及体现最佳的揭示技术。

表 6：社交推理义务的揭示工程剖析

表 7：高低文问答义务的揭示工程剖析

2.3.8 无高低文问答

与高低文问答义务相反，无高低文问答义务依赖于模型嵌入的知识库或任何开源知识库，如维基百科，来回答查问，而不是仅经常使用提供的高低文。论文在考查此义务的不同揭示技术时发现的各种数据集包括PopQA Mallen et al. (2022)、EntityQ rmS ciavolino et al. ( 2 0 2 1 )、Wikidata Dhuliawala et al. (2023)、Wiki-Catoegory List Dhuliawala et al. (2023)、MedMCQA Pal et al. (2022)、MMLU Physics Hendrycks et al. (2020)、MMLU Biology Hendrycks et al. ( 2 0 2 0 )、USMLE Sample Exam Nori et al. (2023)、USMLE Self Assessments Nori et al. (2023)、MedQA Jin et al. ( 2 0 2 1 )、PubMedQA Jin et al. ( 2 0 1 9 )、MMLU Hendrycks et al. (2020) 和 AI2 Reasoning Challenge Clark et al. (2018)。表 8 列出了上述数据集以及在这些数据集上试验过的不同揭示战略，以及体现最佳的揭示战略。

表8：无高低文问答义务的揭示工程剖析

表8 续前页

2.3.9 空间问答

空间问答义务权衡模型处置空间推理的才干，空间推理是基于空间对象、相关和变换的认知环节。论文在钻研不同揭示技术时遇到的多种数据集包括 Brick World Hu et al. (2023), NLVR-Based Manipulation Hu et al. (2023), Natural Language Navigation Hu et al. (2023), Spartun Mirzaee & Kordjamshidi (2022) 和 Navigate Srivastava et al. (2022)。表9蕴含了上述数据集以及在这些数据集上试验的不同揭示方法和最佳体现的揭示战略。

2.3.10 对话高低文问答

在此义务中，模型依据其对给定文本摘录的了解以及如何回答一系列以对话方式出现的相互关联的查问来评价。须要留意的是，每个查问或者依赖于之前查问的答案。在钻研此义务的不同揭示方法时，论文仅触及了一个数据集，包括ConvFinQA Chen et al. (2022b)。表10列出了上述数据集及在这些数据集上试验过的不同揭示方法，以及体现最佳的揭示战略。

表9：空间问答义务的揭示工程剖析

表10：对话高低文问答义务的揭示工程剖析

2.3.11 对话系统

对话系统义务测验模型在用户与机器对话场景中启动言语生成的才干，或依据已生成的对话回答查问。在对话高低文问答义务中，当文本摘录变为对话时，这两个义务或者会有很强的堆叠，但依据论文在调研中遇到的数据集和揭示技术，论文选择将这两个义务离开。在调研此义务的不同揭示方法时，论文仅发现了一个数据集，包括多轮对话照应（MTCR）Zhou et al. (2023)。表11列出了上述数据集及在这些数据集上试验过的不同揭示战略，以及体现最佳的揭示技术。

2.3.12 代码生成

此义务触及输入或最终输入为编程言语代码的一切状况。论文在钻研不同揭示战略时遇到的不同数据集包括 Codeforce Scraping Yasunaga et al. (2023)、HumanEval Chen et al. (2021a)、MBPP Austin et al. (2021) 和 MBCPP Athiwaratkun et al. (2022)。表 12 列出了上述数据集以及在这些数据集上试验过的不同揭示技术，以及体现最佳的揭示战略。

表 11：对话系统义务的揭示工程剖析

表 12：代码生成义务的揭示工程剖析

2.3.13自在照应

此义务评价模型生成无解放文本照应的才干。论文在钻研不同揭示方法时触及的各种数据集包括 Creative Writing Yao et al. (2024) 和 Longform Generation of Biographies Min et al. (2023)。表 13 列出了上述数据集以及在这些数据集上试验过的不同揭示战略，以及最佳技术。

表 13：自在照应义务的揭示工程剖析

2.3.14 实在性

此义务评价模型传达理想而不流传任何类型失误消息的才干。此义务并不代表模型了解给定高低文的才干，而是更关注它们基于了解不做出虚伪陈说的才干。表 14 显示了上述数据集以及在这些数据集上试验过的不同揭示技术，以及体现最佳的揭示技术。

表 14：实在性义务的揭示工程剖析

2.3.15 基于表格的实在性

此义务是实在性义务的扩展，权衡模型在表格环境中传达理想且不流传任何类型失误消息的才干。在阅读关于此义务的不同揭示方法时，论文遇到的惟一数据集是 TabFact Chen et al. (2019)。表 15 蕴含上述数据集和在这些数据集上试验的不同揭示战略，以及体现最佳的揭示战略。

表 15：基于表格的实在性义务揭示工程剖析

2.3.16基于表格的问答

此义务触及在表格环境中的任何类型问答。它可以被视为其余类型表格义务的超集，如基于表格的实在性或基于表格的数学识题处置。但在本上班中，为了防止任何混杂，论文捕捉了一切不属于更详细表格义务（如基于表格的实在性或基于表格的数学识题处置）的数据集。在阅读关于此义务的不同揭示战略时，论文仅遇到了两个数据集，区分是 FeTaQA Nan et al. (2020) 和 WikiTQ Pasupat & Liang (2)。表 16 显示了上述数据集和在这些数据集上试验的不同揭示方法，以及体现最佳的揭示战略。

2.3.17 基于表格的数学识题求解

这项义务是数学识题求解义务的扩展，权衡模型在表格环境中执行各种数学计算的才干。论文在钻研这项义务的不同揭示技术时触及的不同数据集包括TabMWP Lu et al. (2022)和Penguins in a Table Srivastava et al. (2022)。表17列出了上述数据集以及在这些数据集上试验过的不同揭示方法，以及体现最佳的揭示战略。

2.3.18 介绍系统

这项义务权衡模型处置给定输入并从或者项列表中倡导最相关的一组项作为输入的才干。在考查这项义务的不同揭示技术时，论文只发现了一个数据集，即电影介绍Srivastava et al. (2022)。表18列出了上述数据集以及在这些数据集上试验过的不同揭示方法，以及体现最佳的揭示技术。

2.3.19 情感/心道了解

这项义务审核模型了解人类情感或心情的才干。论文在钻研这项义务的不同揭示方法时遇到的各种数据集包括Ruin Names Srivastava et al. (2022)，SemEval14 Laptop and Restaurant Pontiki et al. (2016)和Forex Fatouros et al. (2023)。表19蕴含了上述数据集以及在这些数据集上试验过的不同揭示技术，以及体现最佳的揭示战略。

表16：基于表格的问答义务的揭示工程剖析

表17：基于表格的数学识题求解义务的揭示工程剖析

表18：介绍系统义务的揭示工程剖析

2.3.20机器翻译

在此义务中，模型被测试其在两种言语之间翻译的才干。论文在钻研不同的揭示技术时遇到的不同的数据集包括清楚翻译失误检测Srivastava等人（2022年），FLORES Costa-jussa等人（2022年），WMT21 Farhad等人（2021年），多畛域Aharoni & Goldberg（2020年）和PDC Sun等人（2020年）。表20列出了上述数据集以及在这些数据集上试验过的不同揭示方法，以及体现最佳的揭示战略。

表19：情感/心道了解义务的揭示工程剖析

表20：机器翻译义务的揭示工程剖析

2.3.21 命名实体识别

命名实体识别义务旨在识别给定输入文本中预约义的类别或对象。论文在考查此义务的不同揭示技术时发现的不同数据集包括MTSamples Uzuner等人（2011年），VAERS Du等人（2021年），钻研论文Tang等人（2024年）和BC5CDR-chem Li等人（2016年）。表21显示了上述数据集以及在这些数据集上试验过的不同揭示战略，以及体现最佳的揭示战略。

表21：命名实体识别义务的揭示工程剖析

2.3.22 词义消歧

词义消歧义务测验模型在不同语境中识别单词不同含意的才干。在阅读关于此义务的不同揭示方法时，论文仅发现了一个数据集，即WiC Pilehvar & Camacho-Collados (2018)。表22展现了上述数据集和在该数据集上试验的不同揭示技术，以及体现最佳的揭示方法。

2.3.23 摘要生成

此义务测试模型将长篇输入文本分解为较小片段，同时确保这些小片段保管关键消息的才干。在阅读关于此义务的不同揭示方法时，论文仅涵盖了一个数据集，即CCTC Bao et al. (2024)。表23蕴含了上述数据集和在该数据集上试验的不同揭示技术，以及体现最佳的揭示战略。

表22：词义消歧义务的揭示工程剖析

表23：摘要义务的揭示工程剖析

2.3.24 释义

释义义务旨在经过经常使用不同的词汇重写给定的输入文本，同时坚持原始输入文本的实在语义不变。摘要义务与释义义务的关键区别在于，摘要义务的关键指标是缩短输入文本的长度，使其相关于输入文本更短，而释义义务则专一于在其重写环节中经常使用不同的词汇。论文在2上启动了试验。表24列出了上述数据集以及在这些数据集上试验的不同揭示方法，以及体现最佳的揭示技术。

表24：释义义务的揭示工程剖析

2.3.25 立场检测

此义务评价模型从文本中判别作者能否支持或推戴某个主题、指标或评价对象的才干。论文在钻研此义务的不同揭示技术时遇到的不同数据集包括SemEval-2016 Mohammad等人(2016)，VAST Allaway & McKeown (2020)和P-Stance Li等人(2021)。表25显示了上述数据集以及在这些数据集上试验的不同揭示方法，以及体现最佳的揭示技术。

表25：立场检测义务的揭示工程剖析

2.3.26 人造言语推理

该义务的关键指标是确定在给定前提 p 的状况下，假定是真（蕴涵）、假（矛盾）还是未确定（中性）。论文在钻研不同揭示方法时触及的数据集包括 QNLI Rajpurkar et al. (2016) 和 MedNLI Romanov & Shivade (2018)。表26列出了上述数据集以及在这些数据集上试验过的不同揭示战略，以及体现最佳的揭示方法。

表26：人造言语推理义务的揭示工程剖析

2.3.27 相关抽取

相关抽取评价模型识别预约义类别或对象或命名实体之间语义相关的才干。论文在钻研不同揭示技术时只遇到一个数据集，包括 DDI Segura-Bedmar et al. (2013)。表 27 显示了上述数据集以及在这些数据集上试验过的不同揭示方法，以及体现最佳的揭示战略。

表27：相关抽取义务的揭示工程剖析

2.3.28 基于言语的义务成功

该义务的关键指标是审核模型在遵照一系列基于言语的导航指令以做出成功义务所需执行决策方面的体现。论文在考查不同揭示战略时发现的数据集包括 ALFWorld Shridhar et al. (2020)、WebShop Yao et al. (2022a)、SayCan Ahn et al. (2022) 和 Scan Lake & Baroni (2018)。表28列出了上述数据集以及在这些数据集上试验过的不同揭示方法，以及体现最佳的揭示方法。

表28：基于语言的义务成功义务的揭示工程剖析

2.3.29 多标签文本分类

此义务权衡模型将每个输入调配给一组预约义指标标签的才干。此义务可以蕴含上述许多义务，如立场检测、命名实体识别等，但为了使这些义务定义尽或者不堆叠，以便更好地考查揭示方法，论文仅包括那些不能适外地归类于上述讨论义务的数据集。在阅读不同揭示战略的相关文献时，论文涵盖的不同数据集包括EUR-LEX Chalkidis et al. (2021)、UNFAIR-ToS Lippi et al. (2019) 和 LEDGAR Tuggener et al. (2020)。表29蕴含上述数据集以及在这些数据集上试验过的不同揭示战略，以及体现最佳的揭示方法。

表29：多标签文本分类义务的揭示工程剖析

本文转载自，作者：

<<自我分歧性优化大模型中的思想链推理才干

大言语模型评价基准数据暴露疑问剖析报告>>