经常使用大型言语模型的即插即用组合推理 Chameleon

2024-11-15

摘要：大型言语模型（LLMs）在处置各种人造言语处置义务方面取得了清楚停顿，这归功于其突显的推理才干。但是，LLMs自身存在固有的局限性，例如不可访问最新消息（存储在网络或义务特定的常识库中）、不可经常使用外部工具，以及不可启动准确的数学和逻辑推理。在本文中，咱们提出了变色龙（Chameleon），一个经过参与即插即用模块来增强LLMs启动组合推理的AI系统。变色龙经过组合各种工具（例如LLMs、现成的视觉模型、网络搜查引擎、Python函数和基于启示式的方法）来分解程序，以成功复杂的推理义务。变色龙的外围是一个基于LLM的方案器，它组装了一系列工具以生成最终的照应。咱们展现了变色龙在两个多模态常识密集型推理义务上的有效性：ScienceQA和TabMWP。由GPT4驱动的变色龙在ScienceQA上成功了86.54%的总体准确率，比目前宣布的最佳少样本结果提高了11.37%。在TabMWP上，由GPT4驱动的变色龙将准确率提高了17.0%，将最新水平优化至98.78%。咱们的剖析还标明，与由ChatGPT驱动的方案器相比，由GPT4驱动的方案器经过推断指令中的潜在解放，表现出更分歧和正当的工具选用。

1、引言

近年来，大型言语模型（LLMs）在各种人造言语处置义务中取得了清楚停顿，代表性的例子包括 GPT3 [4]、PaLM [8]、LLaMA [64]、ChatGPT [41] 和最近开发的 GPT4 [42]。LLMs展现了新兴的才干，如高低文学习和链式思想推理 [56]。这些模型能够以零样本方式处置各种义务 [25]，或在大指示例的协助下成功义务 [57]，并且在规划和决策方面展现了与人类相似的后劲 [17, 16]。虽然具有这些才干，LLMs面临固有的局限，比如不可访问最新消息 [26]，口头准确的数学推理 [44, 35] 或应用专门的模型 [49]。因此，增强的LLMs，使其具有智能组合外部工具来处置理想环球义务的才干，对处置这些缺陷至关关键。

图1：咱们在ScienceQA [32]上经常使用GPT4启动变色龙方法的示例，这是一个迷信畛域的多模态问答基准。变色龙经过火解程序来组合各种工具并依次口头它们以取得最终答案，从而顺应不同的查问。

（注释：

1. 疑问1：

查问：给定一个蕴含棒球静止员打击举措的图像，疑问是“这个推力的方向是什么？”选项是：(A) 远离棒球棒 (B) 朝向棒球棒。

工具组合：经常使用图像形容生成工具（Image Captioner）生成图像形容，而后经常使用常识检索工具（Knowledge Retrieval）查找相关消息，再经常使用途理方案生成工具（Solution Generator）剖析答案。

答案生成：最终答案生成器（Answer Generator）得出答案。

2. 疑问2：

查问：给定一个环保广告的图像，疑问是“这则广告中关键经常使用的劝告手腕是什么？”选项是：(A) 情感 (B) 人格 (C) 理性。

工具组合：经常使用文本检测工具（Text Detector）提取广告中的文本，而后经常使用常识检索工具查找相关消息，再经常使用途理方案生成工具剖析答案。

详细解释：

名词揭示：提供了广告中提到的环保纸盘的详细背景消息。

句子揭示：形容了广告中经常使用的劝告手腕。

多模态揭示：联合文本和图像推理，提供了广告的片面剖析。

答案生成：最终答案生成器得出答案“ethos（人格）”。

3. 疑问3：

查问：给定一张生物的图像，疑问是“哪种生物的皮肤顺应在凛冽环境中生活？”选项是：(A) 欧亚猞猁 (B) 荆棘龙蜥。

工具组合：经常使用图像形容生成工具生成图像形容，而后经常使用查问生成器（Query Generator）构建查问，接着经过Bing搜查引擎查找相关消息，再经常使用途理方案生成工具剖析答案。

答案生成：最终答案生成器得出答案。

总结： 经过变色龙方法，系统能够顺应不同类型的查问，分解和组合各种工具并依次口头它们，以生成最终的答案。变色龙方法展现了其在多模态常识密集型推理义务中的有效性，并且能够生成详细、正当且分歧的答案。）

思索图1中例子②的疑问：“这则广告中经常使用了哪种关键的压服手法？”。为了回答这个疑问，须要启动以下步骤：1）推断出广告图像中蕴含文本内容并调用文本解码器了解语义；2）检索无关压服手法及其区别的背景常识；3）基于输入查问和前几步骤的两边结果生成处置方案；以及4）最终以特定于义务的格局给出答案。

另一方面，当回答“哪种生物的皮肤顺应在凛冽中央生活（③）”时，或许须要调用诸如图像题目生成器解析图像消息和网络搜查引擎检索畛域常识以了解迷信术语。但是，目前的工具增强型LLMs在处置这些跨多种场景的理想环球查问时仍面临应战。大少数现有方法要么局限于大批工具 [39, 6, 55, 18, 43, 49]，要么依赖于特定畛域的工具 [40, 60, 13, 59, 52]，因此难以推行到新畛域的查问（详见第2节和A.1节进一步探讨）。在本文中，咱们钻研如何使LLMs能够分解程序，以捕捉组合异构工具的逻辑。

为了处置现有上班的应战，咱们引入了Chameleon，一个即插即用的组合推理框架，应用LLMs分解程序并组合各种工具，以应答宽泛的义务需求。与现有的工具增强型LLMs [49, 40, 60, 13, 59, 52] 不同，Chameleon经常使用更丰盛的工具集，包括LLMs、现成的视觉模型、网络搜查引擎、Python函数和基于启示式的模块。此外，Chameleon应用LLMs的高低文学习才干，以及将LLM作为人造言语规划器的个性，无需任何训练或精心筹划的规定。依据工具形容和经常使用示例，规划器推断出一个由一系列工具组成的程序，以便口头以生成用户查问的最终照应。与生成特定畛域言语的程序不同 [40, 52, 13]，Chameleon生成相似人造言语的（NL）程序（例如，[文本检测器，常识检索，处置方案生成器，答案生成器] 用于图1中的第二个查问）。NL程序易于了解和由编程阅历有限的用户调试，并且容易裁减到新模块。在每个模块的口头环节中，模块处置查问缓和存的高低文，前往由模块自身确定的结果，并更新后续口头的查问和高低文。经过将模块组分解顺序程序，后续模块可以应用先前缓存的高低文和更新的查问。

咱们展现了Chameleon在两个义务上的顺应性和成果：ScienceQA [32] 和TabMWP [33]。ScienceQA是一个跨多种高低文格局和各种迷信主题的多形式疑问回答基准，而TabMWP则触及各种表格高低文的数学基准。这两个基准作为评价Chameleon跨不同类型和畛域协调各种工具才干的良好测试平台。值得留意的是，Chameleon联合GPT4在ScienceQA上到达了86.54%的准确率，清楚优于最佳已宣布的少样本模型达11.37%。在TabMWP上，经常使用GPT4作为基础LLM，Chameleon相比链式思想（CoT）揭示的GPT4 [57] 优化了7.97%，相比最佳已宣布模型 [6] 优化了17.0%，将技术水平优化至98.78%。进一步钻研标明，经常使用GPT4作为规划器能够展现更分歧和理性的工具选用，并能依据指令推断出潜在解放，相较于其余LLMs如ChatGPT。

咱们的奉献如下：(1) 咱们开发了一个即插即用的组合推理框架Chameleon，有效地组合外部工具以处置LLMs的固有限度，并应答宽泛的推理义务。(2) 应用LLM作为人造言语规划器生成程序，Chameleon成功地整合了包括LLMs、现成的视觉模型、网络搜查引擎、Python函数和基于规定的模块等多种工具，构建了一个多性能且顺应性强的人工智能系统，能够回答理想环球的查问。(3) 咱们展现了Chameleon在两个具有应战性的基准测试中的有效性，清楚逾越现有技术水平。

2、相关上班

组合推理

神经模块化和组合方法已被探求用于智能口头所需的子义务分解，增强各种推理义务的可解释性和顺应性。早期的上班[2, 3]以为复杂的推理义求实质上是组合的，并提出了神经模块网络（NMN）以将其分解为子义务。但是，这些方法依赖于软弱的现成解析器，并遭到模块性能的限度。一些起初的上班[19, 15, 14, 21]经过端到端方式预测特定实例的网络规划，应用强化学习[58]和弱监视学习，进一步推进了这一畛域。在视觉推理中，提出了蕴含程序生成器和口头引擎的模型，以联合深度示意学习和符号程序口头[19, 61]。在数学推理畛域，开发了一种可解释的求解器，将定理常识作为条件规定逐渐启动符号推理[31]。咱们的上班从神经模块网络中吸取灵感，但提供了几个清楚的长处。首先，Chameleon 不须要低廉的特定义务程序监视来启动模型训练，而是生成由模块组成的顺序程序，这些程序易于推行到各种畛域和义务，准许以即插即用的方式裁减新模块。其次，Chameleon 不须要任何训练，而是应用大言语模型（LLMs）的高低文学习才干，经过人造言语指令和示例生成程序。

工具增强型言语模型

近年来，大型言语模型（LLMs）[48, 8, 9, 53, 4, 41, 42]的开展取得了渺小停顿，并抚慰了揭示学习[57, 33, 22]和指令学习[53, 64, 46, 11]的钻研。虽然LLMs表现杰出，但它们存在固有的局限性，如不可访问最新消息[26]、应用外部工具[49]或启动准确的数学推理[44, 35]。最近的基准测试，如ScienceQA和TabMWP[32, 33, 7, 54, 51, 30]，已发生用于评价LLMs处置复杂推理当战的才干，特意是强调经常使用外部工具的才干。同时，应用外部工具和模块化方法增强LLMs的兴味始终增长。这些增强型LLMs可以经过网络搜查引擎访问实时消息[40]，并应用外部资源的畛域特定常识[62]。有些上班应用Python解释器生成复杂程序，以更有效地口头逻辑推理义务[55, 10, 6, 39, 18, 43, 36]。例如，Toolformer[49]构建了工具经常使用增强的数据，以训练言语模型选用五种工具。在视觉工具畛域，提出了各种方法来加弱小型言语模型处置视觉义务的才干[60, 59, 52, 13, 50]，这些方法联合了Hugging Face模型[50]、Azure模型[60]、视觉基础模型[59]。咱们在表1中将Chameleon与其余工具增强型言语模型启动了比拟。许多这些方法要么受限于大批工具，要么局限于特定义待业具，这缩小了它们在各种技艺维度上的才干，并阻碍了它们对新义务的普适性。最近的一些上班依赖少量监视[49, 26]，并专一于生成命令[40]和程序[52, 13]以推断工具的选用。但是，这种方法须要为特定义务和特定工具精心设计揭示，既不灵敏也不顺应性强。相比之下，Chameleon经过人造言语指令指点LLMs，便捷形容每个模块的角色并提供一些调用示例，消弭了学习组合不同工具时对额外训练或工具特定揭示的需求。更关键的是，Chameleon在工具类型和起源、更新底层LLMs、参与新工具和顺应新义务方面为用户提供了灵敏性。咱们的上班与AutoGPT[47]的精气分歧，AutoGPT是一种具有人工通用智能（AGI）雄心的自主GPT-4代理，旨在联合泛滥工具以成功用户定义的指标。虽然AutoGPT仍在开发中，但咱们的上班是第一个详细成功这一理念并在宽泛钻研的基准测试中验证其有效性的。

表1：对经常使用工具加弱小型言语模型的上班的比拟。咱们报告了工具的数量和工具类型，包括OpenAI ( ), Hugging Face ( ), Github ( ), Web搜查 ( ), 和代码 ()。咱们比拟了每种方法所具有的技艺，例如图像了解、阅读器搜查、常识检索、数学推理和表格了解。有些模型可以组合各种工具，提出一个方案器来推断口头相关工具，或许实质上可以裁减到新工具。标签“-”示意文献中的不确定消息。

3、通用框架：Chameleon

为了应答大型言语模型（LLMs）在应用多种工具方面的局限性，咱们提出了Chameleon，一个陈腐的即插即用组合推理框架，综合多种工具的组合以顺应宽泛的疑问。Chameleon由一个模块库和一个基于LLM的规划器组成，其目的是将原始疑问分解为可以由特定义待业具有效处置的子义务。与现有的工具增强型LLM方法[49, 13, 59, 50]不同，咱们的模块库具有多种工具类型，如表2所示，使得Chameleon能够展现多种推理才干，包括图像了解、常识检索、网络搜查、复杂数学推理和表格了解。Chameleon并不生成特定畛域的程序[40, 13, 52]，而是驳回基于LLM的规划器创立相似人造言语的程序，遵照人造言语指令，这种方法更少出错，易于裁减到新模块，且对用户友好。

表1：咱们模块库中的不同工具

咱们将规划器方式化如下：给定输入查问x、模块库M和解放G，基于人造言语的规划器P选用一组模块，这些模块可以按顺序口头，经过生成相似人造言语格局的程序来回答查问。模块库M由一组预构建模块组成：{M}，每个模块对应于不同类型的工具（见表2）。G是方案生成的解放，例如模块的并发相关和顺序。在咱们的上班中，规划器P是一个经过少样本设置生成模块称号序列的LLM。规划器以人造言语启动揭示，蕴含规划义务指令I、模块库M的形容及相应的解放G，以及一些示例D。从P生成的T长度方案可以示意为p = M, ..., M，其中M示意生成方案中的第t个元素，且M∈ M。方式上，给定输入查问（疑问陈说）x，方案p生成如下：

p←P(x; I, M, G, D)

依据生成的方案，各步骤对应的模块按顺序口头。该方案是一个人造言语程序，每个模块经过字符串婚配便捷绑定。在期间步骤t评价模块M时，口头的输入y计算如下：

其中x是模块M的输入， c是缓存的消息（例如，图像语义、检索到的常识、生成的程序），这些消息来自模块的口头历史。

接上去，经过以下方式区分更新下一个模块M的输入x缓和存c：

x←update_input(x; y)

c←update_cache(c; y)

update_input和update_cache函数是为每个M手动设计的。详细来说，update_input运行于输入查问中的元素，包括疑问、表格高低文和图像。这些元素在模块口头后会更新。update_cache对应新消息的生成，如输入图像的形容或从外部资源检索到的常识。最后，由最后一个模块M生成对查问的照应r：

r = y←M(x; c)

图2：咱们在TabMWP [33]上经常使用GPT4启动变色龙方法的两个示例，这是一个具有表格高低文的数学推理基准。变色龙展现了在顺应须要各种推理才干的不同查问时的灵敏性和效率。

（注释：

1. 示例1：

查问：Wanda去野营游览并记载了她每天徒步的里程数，疑问是“这些数字的中位数是多少？”

表格数据：显示了她每天徒步的里程数。

周日：10

周一：9

周二：10

周三：5

周四：9

工具组合：

常识检索：检索相关常识，解释中位数的定义和计算方法。

程序生成器：生成计算中位数的Python代码。

程序验证器：验证生成的代码。

程序口头器：口头代码计算中位数。

答案生成器：生成最终答案。

答案：中位数为9。

2. 示例2：

查问：依据以下期间表，公交车从火车站登程的期间是什么时刻？

表格数据：显示了各个地点的抵达和登程期间。

体育场：抵达 10:20 A.M.，登程 10:25 A.M.

公园：抵达 10:35 A.M.，登程 10:45 A.M.

酒店：抵达 11:10 A.M.，登程 11:15 A.M.

机场：抵达 12:05 P.M.，登程 12:10 P.M.

火车站：抵达 12:25 P.M.，登程 12:35 P.M.

公交车站：抵达 1:10 P.M.，登程 1:10 P.M.

选项：

(A) 12:35 P.M.

(B) 1:10 P.M.

工具组合：

行查找：在期间表中找到火车站的相关行。

处置方案生成器：生成步骤解释以找到答案。

答案生成器：生成最终答案。

答案：公交车从火车站登程的期间是12:35 P.M.

总结： 经过变色龙方法，系统能够灵敏地顺应具有不同高低文和要求的查问，分解和组合各种工具以生成最终的答案。变色龙方法在具有表格数据的数学推理义务中展现了其弱小的推理才干和效率，能够提供详细的步骤解释和正确的答案。）

4、Chameleon的运行

咱们展现了Chameleon在两个具有应战性的义务上的运行：ScienceQA [32]（第4.2节）和TabMWP [33]（第4.3节），经常使用第4.1节中引见的模块库。更多试验细节见附录A.2。

4.1 模块库

为了顺应各种推理才干和多样化的查问，咱们的系统应用了丰盛的外部工具模块库。这里提供了该库的初级概述，详细成功见详细试验。完整的模块库M如表2所示。每个库中的工具定义如下：

表2：咱们模块库中的不同工具

- 常识检索工具 ：此模块检索处置复杂疑问所需的额外背景常识。它对迷信和数学等专门畛域特意有益，提供义务的高低文。例如，假设查问触及税表，此模块可以生成关于税务程序的常识，提供有价值的背景消息。

- Bing搜查 ：相似“常识检索”，但“Bing搜查”模块旨在提供宽泛的义务相关常识。当须要来自多个起源的宽泛或最新消息时，它表现更好。经常使用搜查引擎API，此模块依据输入查问前往相关搜查结果，随后模块解析并经常使用这些结果从多种起源失掉丰盛的高低文消息，增强疑问处置的成果。

- 查问生成器 ：由于原始疑问理论不足检索义务相关消息的定制查问，此模块依据疑问创立搜查引擎查问，而后由“Bing搜查”模块经常使用。理论，在经常使用“Bing搜查”之前，经常使用“查问生成器”模块是一个好战略。联合搜查引擎工具，生成更有针对性的查问理论有助于提高检索消息的召回率和准确度。

- 图像说明生成器 ：旨在为图像生成说明，此模块为查问提供关键的补充高低文。它在语义了解图像时特意有价值，如识别场景中的物体和互动。经常使用预训练模型，它将视觉数据转化为言语，促成对图像内容的有效了解和推理。

- 文本检测器 ：此模块旨在识别给定图像中的文本。当疑问须要从蕴含图表、表格、地图或其余视觉元素的图像中提取文本消息时，理论经常使用“文本检测器”。经过有效检测各种格局的文本，此模块有助于剖析和了解基于图像的内容。

- 行查找 ：当查问触及表格高低文时，此模块十分关键，由于理论须要定位相关的单元格。大型表格或许会扩散系统留意力，因此“行查找”经过保管与查问相关的行简化表格。假设一切行都相关，则前往原始表格。

- 列查找 ：相似“行查找”模块，“列查找”经过关注相关列处置触及表格高低文的疑问。它经过保管相关列简化表格，假设一切列都相关，则前往原始表格。

- 表格言语化 ：将结构化表格转换为文本或许会增强下游模块对表格消息的了解，如开明域问答[37]所示，这使得此模块成为咱们系统的关键局部。它将表格翻译为易于了解的形容，特意实用于“程序生成器”和“处置方案生成器”等模块，尤其对茎叶图或函数表等小型、特定畛域的表格有用。

- 程序生成器 ：程序辅佐方法被证实可以增强LLMs的逻辑和数学推理才干[55, 10, 6, 39, 18, 43]。“程序生成器”生成Python程序以有效处置查问，这关于须要复杂计算或复杂逻辑操作（如“if-else”语句）的查问特意有益。

- 程序验证器 ：最近的钻研强调了验证以缩小幻觉的关键性[45, 38]。因此，“程序验证器”确保由“程序生成器”生成的程序的有效性和无失误性。它审核语法和逻辑失误以及潜在的口头疑问，增强处置方案的牢靠性和准确性。

- 程序口头器 ：此模块口头由“程序生成器”生成的程序并发生结果，桥接程序生成和最终处置方案推导之间的差距。

- 处置方案生成器 ：此模块应用一切缓存的消息生成输入查问的详细处置方案。驳回连锁思想揭示方法[57]，确保连接和结构良好的照应。假设规划器能够独立处置查问，尤其是关于较便捷的疑问，可以间接经常使用此模块而不是其余性能模块。

- 答案生成器 ：此义务特定模块经常使用基于规定的方法从“程序口头器”或“处置方案生成器”的结果中提取和规范化答案。与提供详细多步处置方案的“处置方案生成器”不同，“答案生成器”作为流水线中的最终模块，提供扼要的义务特定答案。

4.2 迷信识题解答

迷信识题解答（ScienceQA [32]）是一个多形式疑问解答的多样化基准，涵盖一系列迷信主题和背景。如图1所示，这些疑问的解答须要各种工具和技艺，如图像说明生成、文本检测、常识检索、在线资源搜查和多线索视觉推理。在生成经常使用工具的程序时，咱们将搜查空间限度为相关的库子集（见附录中的表6）。假设程序的最后两个元素不是“处置方案生成器”和“答案生成器”，则该程序被视为有效，并默以为这两个元素的序列，遵照连锁思想揭示基线[57]。请参见附录中的表8以了解构建的人造言语规划器揭示。基于LLM的模块（如“常识检索”、“查问生成器”和“处置方案生成器”的揭示见附录中的表10、11和12）。

4.3 表格数学推理

TabMWP [33] 是一个触及各种表格高低文的数学推理义务，如日程表、多少钱表、税表、图表和函数相关（见图2）。它要求AI系统了解各种表格格局并启动准确的数值或符号计算。与ScienceQA相似，咱们将程序搜查空间限度为两种工具类型：1）协助LLM更好地理解表格消息的工具（如“行查找”、“列查找”和“表格言语化”）和2）口头准确符号计算的工具（如“程序生成器”、“程序验证器”和“程序口头器”），如表6所列。生成的程序必定合乎必定的解放条件，例如包括“答案生成器”，并且将“程序生成器”置于“程序验证器”和“程序口头器”之前。不合乎要求的程序默以为“程序生成器”、“程序验证器”、“程序口头器”和“答案生成器”的序列，合乎带有验证的程序思想揭示基线[6]。

5、试验

咱们评价了Chameleon在两个复杂推理义务ScienceQA [32]和TabMWP [33]上的有效性和顺应性。试验细节见附录A.2。

5.1 试验结果

。表3展现了现有基线和咱们的方法Chameleon的结果，关键结果在图3（a）中突出显示。经常使用ChatGPT [41]作为基础LLM，Chameleon到达了79.93%的准确率，比连锁思想揭示（CoT）[57]揭示的ChatGPT高出1.62%。值得留意的是，Chameleon是CoT的狭义方式，其中生成的程序是“处置方案生成器”和“答案生成器”的序列。Chameleon受益于额外的工具经常使用，如“常识检索”、“Bing搜查”、“图像说明生成器”和“文本检测器”。基于GPT-4 [42]时，咱们的模型到达了86.54%的准确率，比GPT-4 CoT [32]高出2.55%，比GPT-3 CoT高出11.37%，在少样本设置中发明了新的最先进水平。

表3：ScienceQA [32] 测试集上的问答准确率（%）。咱们报告了为此义务调优的参数数量和全体准确率，以及不同疑问类型的准确率，包括人造迷信、社会迷信和言语迷信、文本、图像和无高低文疑问，以及1-6年级和7-12年级的疑问。每局部和总体的最高分数区分用蓝色和白色突出显示，咱们最佳模型的结果用粗体标出。

。表4展现了关键模型的结果，见图3（b）。雷同，Chameleon在微和谐少样本模型上都显示了清楚的改良。值得留意的是，CoT和程序思想（PoT）[6]可以看作是Chameleon的特例。除了“处置方案生成器”和“答案生成器”，CoT不经常使用任何工具，而PoT仅依赖于符号编程工具，如“程序生成器”和“程序口头器”。Chameleon（ChatGPT）比ChatGPT CoT和ChatGPT PoT区分高出11.25%和3.79%，强调了咱们丰盛工具集的长处。经常使用GPT-4，Chameleon又取得了5.50%的优化，到达了98.78%的准确率。值得留意的是，Chameleon（GPT-4）超越了Codex PoT-SC [6]，即最好的已颁布模型，高出17.0%，并超越了人类表现8.56%。

图3：关键基线和Chameleon的结果。虚线示意人类表现。

表4：TabMWP [33] 测试集上的问答准确率（%）。咱们报告了为此义务调优的参数数量和全体准确率，以及不同疑问类型的准确率，包括自在文本疑问、多选疑问、整数答案、小数答案、抽取式答案、布尔答案、其余文本答案、1-6年级和7-8年级的疑问。*示意结果的一个子集。

5.2 定性剖析

工具经常使用规划 。图4和图5区分展现了Chameleon在ScienceQA和TabMWP中调用关键工具的比例。令人感兴味的是，ChatGPT和GPT-4表现出不同的规划行为。普通而言，ChatGPT对经常使用或不经常使用某些工具有剧烈的成见，深受高低文示例的影响。例如，ChatGPT在72%的查问中调用“常识检索”，但在ScienceQA中仅在3%的状况下调用“Bing搜查”；在TabMWP中，ChatGPT重大依赖“行查找”（47%），但很少调用“列查找”（4%）。但是，GPT-4在工具选用上表现得愈加主观和理性。例如，在回答ScienceQA的迷信识题时，GPT-4更频繁地调用“常识检索”（81%对72%），并比ChatGPT更多地调用“Bing搜查”（11%对3%）。令人印象深入的是，GPT-4经过观察工具经常使用形容，分歧地同时调用“查问生成器”和“Bing搜查”，而ChatGPT不足这种推理才干。

图5：Chameleon在TabMWP上生成的程序中调用的工具。

禁用模块的消融钻研 。咱们钻研了禁用生成程序中的关键模块时Chameleon的准确率降低状况（见表5），经常使用ChatGPT作为基础LLM和500个测试样例。结果标明，“常识检索”在两项义务中都起到了关键作用。特定畛域的工具，如ScienceQA的搜查引擎和视觉模型，以及TabMWP的程序工具，也被证实是关键的。

模块转换。 咱们在图7和图8中区分展现了Chameleon（GPT-4）在ScienceQA和TabMWP上生成程序的模块转换图。这些图中的转换概率是从测试集上观察到的工具转换中计算进去的。这些图标明，GPT-4规划器能够在少样本设置中很好地选择如何排序工具。例如，在ScienceQA中，Chameleon理论选择依赖“常识检索”或“Bing搜查”，但很少同时经常使用。在TabMWP中，咱们观察到两种关键形式：要么经过处置方案生成器模块，要么经环节序生成器、验证器和口头器。

图7：Chameleon（GPT-4）在ScienceQA上生成的程序中模块之间的转换。START是起始符号，END是中断符号，其余为非中断符号。

图8：Chameleon（GPT-4）在TabMWP上生成的程序中模块之间的转换。START是起始符号，END是中断符号，其余为非中断符号。

5.3 案例钻研

ScienceQA的可视化示例 。图1中展现了Chameleon（GPT-4）在ScienceQA上的示例。Chameleon（GPT-4）能够经过生成组合各种工具的程序并按顺序口头它们，以顺应不同的输入查问，从而取得准确的照应。例如，要回答第一个疑问（①）“推进的方向是什么？”，系统调用图像说明生成器模型从图像中提取语义消息，并经常使用常识检索模型搜集背景常识以启动多形式推理。在第二个示例（②）中，人造言语规划器推断须要文本检测工具来了解广告的背景。第三个查问（③；更多细节见附录中的图9）“哪种生物的皮肤顺应在凛冽地域生活？”触及与生物生活相关的迷信术语。规划器选择调用Bing搜查引擎以访问特定畛域的常识，受益于泛滥在线资源。

TabMWP的可视化示例。 图2中的示例展现了Chameleon在处置各种查问方面的顺应性和多性能性。第一个示例（①）触及税表上的数学推理。Chameleon（1）调用常识检索模型以回想有助于了解该特定畛域表格的基本常识，（2）以更易读的人造言语格局形容表格，（3）最终依赖程序辅佐工具启动准确计算。在第二个示例（②）中，系统生成的Python代码与常识检索模型提供的背景常识严密分歧。第三个示例（③）须要系统在给定输入查问的状况下定位大表格中的单元格。Chameleon调用行查找模型以协助准确定位相关行，并经过LLM模型生成言语处置方案，而不是依赖于程序工具。

失败案例和局限性 。Chameleon（GPT-4）的失败示例在附录中的表19至24中展现。不准确的照应可动力于模块的局限性或由规划器生成的次优程序。此外，模块库或许不足能够处置特定才干的工具。未来的方向或许包括更新模块和规划器，或裁减模块库以支持更宽泛的才干。更多局限性和更宽泛的影响区分在附录的B和C节中探讨。

5.4 失误剖析

为了审核基础大型言语模型的失误起源，并了解咱们的模型如何从不同方面缩小失误，咱们启动了失误剖析，如图6所示。咱们从ScienceQA的ChatGPT基线当选取了50个失误示例作为评价集。咱们统计了失误示例的数量，并剖析了ChatGPT、咱们的Chameleon（ChatGPT）方法和Chameleon（GPT-4）各自的失误类型类别。结果显示，与ChatGPT相比，咱们的Chameleon方法可以大幅缩小失误数量。咱们的模型具有图像说明和常识检索工具，因此ChatGPT在图像了解类别中犯的失误由32个缩小到Chameleon（ChatGPT）的10个和Chameleon（GPT-4）的19个；而ChatGPT在常识了解类别中犯的失误由37个缩小到Chameleon（ChatGPT）的6个和Chameleon（GPT-4）的3个。受益于工具的顺序口头，处置方案生成造成的失误也清楚缩小。此外，咱们发现GPT-4的义务规划远远优于ChatGPT。

图6：ScienceQA中不同类别的失误示例数量。图像：图像说明生成，常识：常识了解，处置方案：处置方案生成。

6、论断

总之，咱们引见了一种陈腐的即插即用组合推理框架Chameleon，它经过以即插即用的方式增强大型言语模型的外部工具，处置了它们的局限性。咱们的方法经常使用多样化的工具集，并在两个具有应战性的基准ScienceQA和TabMWP上展现了令人印象深入的顺应性和有效性。经过在准确性上清楚超越现有的最先进模型，Chameleon展现了其在处置各个畛域的实践查问方面的后劲。

补充资料

Chameleon：即插即用组合推理的大型言语模型

# 附录

## A.1 的工具增强型LLM

为了处置LLM的局限性，一个生动的钻研方向是经过访问外部工具和资源来增强言语模型，并探求外部工具和即插即用模块化方法的集成。例如，借助网络搜查引擎和外部常识资源，LLM能够访问实时消息并应用畛域特定的常识[40]。为了增强数学推理才干，最近的钻研经常使用LLM[5]生成复杂程序以应用弱小的计算资源，并更有效地口头逻辑推理义务[55, 10, 6, 39, 18, 43]。另一类近期的上班，如ViperGPT[52]、Visual ChatGPT[59]、VisProg[13]和HuggingGPT[50]，联合了一系列基础计算机视觉模型，使LLM具有口头视觉推理义务的才干。

## A.2 试验细节

**模块搜查空间**。ScienceQA和TabMWP的模块库子集如表6所示。

规划器成功。在构建基于LLM的规划器时，咱们选用了gpt-3.5-turbo引擎用于ChatGPT，选用了gpt-4引擎用于GPT-4。生成程序的最大长度设置为128，温度设置为0以成功最确定性的生成。ScienceQA和TabMWP的规划器揭示区分如表8和表9所示。

ScienceQA的模块成功。自动状况下，基于LLM的模型经常使用四个高低文示例作为演示，温度设置为0，准许的最大成功令牌数为512。其余详细成功细节如下：

- 常识检索：揭示由3个演示示例组成，模板见表10。

- 查问生成器：揭示模板见表11。最大成功令牌数设置为64。

- 处置方案生成器：揭示由2个演示示例组成，模板见表12。

- 图像说明生成器：咱们经常使用图像说明生成模型生成输入图像的文本形容。生成的说明最大长度设置为16，beam数为4，最大输入令牌数为512。

- 文本检测器：此模块基于GitHub模型提取图像中的文本内容及其坐标。

- Bing搜查：此模块调用Bing搜查API并前往文本查问的前三个照应。

- 答案生成器：此模块从“处置方案生成器”提供的结果中提取答案片段，并从给定选项当选用最相似的选项。

TabMWP的模块成功。与ScienceQA相似，基于LLM的模块自动经常使用四个高低文示例作为演示，温度设置为0，准许的最大成功令牌数为512。其余成功细节如下：

- 常识检索：揭示由5个演示示例组成，模板见表13。

- 行查找：当有超越三行和18个表格单元时启用，以减速推理。揭示由7个演示示例组成，模板见表14。最大成功令牌数设置为256。

- 列查找：雷同，此模块在有两个或更多列和18个或更多表格单元时启用。揭示由6个演示示例组成，模板见表15。最大成功令牌数设置为256。

- 表格言语化：揭示由7个演示示例组成，模板见表16。

- 程序生成器：揭示模板见表17。最大成功令牌数设置为256。

- 处置方案生成器：揭示由16个演示示例组成，模板见表18。

- 答案生成器：用于将答案规范化为两位小数精度的疑问，或为多选题选用最相似的选项。

update_input 和 update_cache 的成功。update_input由特定工具的口头触发，如‘Row_Lookup’，其修正或交流输入中的元素以反映更新的形态。工具如‘Image_Captioner’、‘Text_Detector’、‘Knowledge_Retrieval’、‘Web_Search’和‘Program_Generation’生成新元素。update_cache将这些新元素存储在缓存中，使其可以被后续工具口头时访问。

## A.3 试验结果

**生成程序统计**。Chameleon应用基于LLM的人造言语规划器生成程序，即使用模块（工具）的序列。咱们报告了Chameleon生成的惟一程序数量和相应工具序列的平均长度统计数据，如表7所示。在ScienceQA和TabMWP上，经常使用GPT-4作为基础LLM生成的共同程序更少，即程序更分歧，即使在规划模型中给定齐全相反的揭示时也是如此。咱们的结果与[42]中的发现分歧，该钻研发现GPT-4无了解长高低文、对齐人类指令和口头初级推理方面比其余LLM（如ChatGPT）更具长处。

## B 限度

虽然Chameleon在应用大型言语模型（LLM）启动即插即用组合推理方面代表了一个关键的提高，但仍有一些畛域可以进一步优化。一个这样的畛域是裁减其顺应性，以涵盖更多样的义务和畛域，而不只限于所展现的基准。担任分解程序和确定工具顺序的基于LLM的规划器引入了一种翻新的方法，但它也提出了一些关于优化工具选用和顺序环节的幽默钻研疑问。在系统设计中，基于LLM的规划器的品质或许会影响全体性能。此外，Chameleon在生成程序时是一步成功的，而没有在程序处置模块时参与从新规划机制。此外，咱们假定模块列表及其形容能够顺应LLM的高低文窗口，但这并不总是实用。随着义务复杂性参与和模块库裁减，或许会发生计算需求激增或由于高低文限度而造成的限度，这标明未来或许须要启动优化。但是，这些潜在的改良畛域并不会削弱本文的外围成就，而是为未来的上班和钻研提供了贵重的方向。

## C 更宽泛的影响

本文所展现的Chameleon在社会上具有清楚的侧面后劲。经过为大型言语模型（LLM）提供即插即用的组合推理模块，Chameleon可以为复杂的多形式义务提供更准确的照应，使其成为各种运行（包括但不限于教育、金融和决策支持系统）中或许有价值的框架。此外，系统在不须要任何训练的状况下分解程序的才干，可以使非专家能够在不同畛域中应用AI技术，从而成功AI技术的遍及。随着大型言语模型和工具集成的钻研始终推进，咱们估量咱们的框架将为进一步的翻新奠定基础，推进更具普适性和效率的复杂推理义务处置方案的谋求。

虽然Chameleon或许带来负面的社会影响，如假设其应用的数据源和外部工具未被精心筹划，或许造成误消息和隐衷疑问，咱们置信这些危险是可以经过细心治理和最小化的。还有一个危险是，适度依赖Chameleon的自主性或许会削弱批评性思想才干或上班职能。为了有效缓解这些疑问，必定细心筹划数据源和外部工具，并剧烈努力于用户数据包全。此外，应将Chameleon的自主性视为增强者类才干的手腕，而不是代替。因此，制订强有力的品德准绳、透明机制和保证措施至关关键，表现了咱们对社会责任性AI部署的承诺。

表8：为ScienceQA义务构建的规划器模型揭示。揭示包括形容规划器模型角色的说明、将疑问映射到模块序列的高低文示例以及测试示例。

## 规划器模型说明

您须要作为战略模型，给定一个疑问和一组模块，确定可以顺序口头以处置疑问的模块序列。模块定义如下：

- Query_Generator ：此模块为给定的疑问生成搜查引擎查问。理论，当疑问触及畛域特定常识时，咱们会思索经常使用“Query_Generator”。

- Bing_Search ：此模块在网上搜查与疑问相关的消息。理论，当疑问触及畛域特定常识时，咱们会思索经常使用“Bing_Search”。

- Image_Captioner ：此模块为给定的图像生成说明。理论，当疑问触及图像的语义了解，且元数据中的“has_image”字段为真时，咱们会思索经常使用“Image_Captioner”。

- Text_Detector ：此模块检测给定图像中的文本。理论，当疑问触及开展图像中的文本（如图表、表格、地图等）时，且元数据中的“has_image”字段为真时，咱们会思索经常使用“Text_Detector”。

- Knowledge_Retrieval ：此模块检索作为揭示的背景常识以处置给定疑问。理论，当背景常识有助于指点处置方案时，咱们会思索经常使用“Knowledge_Retrieval”。

- Solution_Generator ：此模块基于提供的消息生成疑问的详细处置方案。理论，“Solution_Generator”会整合来自“Query_Generator”、“Bing_Search”、“Image_Captioner”、“Text_Detector”和“Knowledge_Retrieval”的消息。

- Answer_Generator ：此模块从处置方案或口头结果中提取最终答案的冗长方式。此模块理论是预测流水线中的最后一个模块。

以下是将疑问映射到模块的一些示例。

疑问：比拟每个样本中粒子的平均动能。哪个样本的温度更高？

高低文 ：下图显示了两个相反敞开、刚性容器中的纯气体样本。每个黑白球代表一个气体粒子。两个样本的粒子数量相反。

选项： (A) 都不是；样本的温度相反 (B) 样本A (C) 样本B

元数据 ：‘pid’: 19, ‘has_image’: True, ‘grade’: 8, ‘subject’: ‘人造迷信’, ‘topic’: ‘物理’, ‘category’: ‘粒子静止和能量’, ‘skill’: ‘识别粒子静止如何影响温度和压力’

模块：["Text_Detector", "Knowledge_Retrieval", "Solution_Generator", "Answer_Generator"]）

表9：为TabMWP义务构建的规划器模型揭示。相似地，揭示包括说明、高低文示例和测试示例。

（翻译：

规划器模型说明

给定一个疑问和一组模块，确定可以顺序口头以处置疑问的模块序列。

模块定义如下：

- Program_Generator ：此模块生成可以处置给定疑问的Python程序。它接纳疑问和或许的高低文，生成一个可以由“Program_Executor”模块口头的程序。理论，当疑问和高低文触及复杂计算（如多个数字的算术运算）或复杂逻辑操作（如“if-else”语句）时，咱们会思索经常使用“Program_Generator”。

- Program_Verifier ：此模块验证“Program_Generator”生成的程序能否有效且无失误。它审核语法失误、逻辑失误和程序口头环节中或许发生的其余潜在疑问。

- Program_Executor ：此模块口头“Program_Generator”生成的程序，并生成可以由其余模块（如“Question_Answering”）进一步处置的输入。

- Row_Lookup ：此模块前往仅保管与疑问相关行的简化表格。它接纳疑问和表格，并前往简化后的表格。假设一切行都相关或行数少于或等于三行，则前往原始表格。理论，当表格触及超越三行且疑问只要要大批行来回答时，咱们会思索经常使用“Row_Lookup”。

- Column_Lookup ：此模块前往仅保管与疑问相关列的简化表格。它接纳疑问和表格，并前往简化后的表格。假设一切列都相关或列数只要两列，则前往原始表格。理论，当表格触及超越两列且疑问只要要大批列来回答时，咱们会思索经常使用“Column_Lookup”。

- Table_Verbalizer ：此模块将表格转换为易于下游模块（如“Program_Generator”、“Solution_Generator”、“Question_Answering”）了解的形容。理论，当表格触及大批行和列且是特定畛域的（如茎叶图、函数表等）时，咱们会思索经常使用“Table_Verbalizer”。

- Knowledge_Retrieval ：此模块为给定的疑问和表格检索特定畛域的常识。理论，当疑问和表格触及特定畛域的常识（如茎叶图、函数表、税务表等）时，咱们会思索经常使用“Knowledge_Retrieval”。

- Solution_Generator ：此模块基于提供的消息生成疑问的详细处置方案。理论，当疑问和表格触及便捷计算（如单个数字的算术运算）时，咱们会经常使用“Solution_Generator”。

- Answer_Generator ：此模块从处置方案或口头结果中提取最终答案的冗长方式。此模块理论在“Solution_Generator”或“Program_Executor”模块之后经常使用。

以下是将疑问映射到模块的一些示例。

| designer watch | $8,141 |

| designer coat | $6,391 |

疑问：设计师手表比设计师大衣贵多少？（单位：$）

表10：为ScienceQA义务构建的“常识检索”模块揭示。

### 说明

阅读以下疑问，并生成背景常识作为高低文消息，以协助回答疑问。

### 高低文示例

疑问：这三个物体有什么共同的属性？

选项：(A) 硬 (B) 软 (C) 黄

元数据 ：‘pid’: 43, ‘has_image’: True, ‘grade’: 4, ‘subject’: ‘人造迷信’, ‘topic’: ‘物理’, ‘category’: ‘资料’, ‘skill’: ‘比拟物体的属性’

图像中检测到的文本 ：['手帕', '拖鞋', '休闲套装']

常识：

- 这个疑问是关于比拟三个物体的属性：手帕、拖鞋和休闲套装。

- 这些物体与物理学主题和比拟物体属性的技艺相关。

- 物体的属性可以包括物理特色，如色彩、质地、形态、大小、重量和资料。）

Lu P, Peng B, Cheng H, et al. Chameleon: Plug-and-play compositionalreasoning with large language models[J]. Advances in Neural InformationProcessing Systems, 2024, 36.

1University of California, Los Angeles

2Microsoft Research, Redmond

AIRoobt ，作者：AIRoobt

原文链接：

<<Arcee 超级新星来临 AI颁布SuperNova

一文读懂大模型构建牢靠的自动问答服务基于Havenask向量检索>>