检索增强型多模态思想链推理用于大型言语模型

2024-11-15

摘要 ：大型言语模型（LLMs）的提高使得思想链（Chain of Thought，CoT）方法遭到了极大的关注，关键是由于它能够增强LLMs在复杂推理义务上的才干。此外，CoT方法的关键性还裁减到了将LLMs运行于多模态义务。但是，由于多模态样本固有的复杂性，为多模态推理选用最优CoT示例的疑问在LLMs中尚未失掉充沛探求。在本文中，咱们引见了一种陈腐的方法，经过经常使用检索机制来灵活且智能地依据跨模态和内模态相似性选用示例，从而处置这一应战。此外，咱们驳回了分层抽样方法，将示例依据类型分类成不同组，然后区分从不同组中检索示例，以促成示例的多样性。经过在两个盛行的基准数据集上启动一系列试验：ScienceQA和MathVista，咱们证明了咱们的方法清楚提高了GPT-4在ScienceQA上的功能6%，在MathVista上的功能12.9%，并且在两个数据集上提高了GPT-4V的功能2.7%，大幅提高了最先进LLMs和LMMs在复杂多模态推理义务上的功能。

1. 引言

人造言语处置（NLP）畛域由于大型言语模型（LLMs）的产生而阅历了清楚的提高，这些模型仰仗其宽泛的才干重塑了许多义务的格式。一个对LLMs成功奉献很大的关键技术是链式思想（CoT）技术，这在先前的钻研中已有记录（Wei et al., 2022a; Kojima et al., 2022）。这种技术在运行于多模态义务时尤其关键。其最突出的运行之一是多模态问答，这触及文本和图像的推理（Zhang et al., 2023c; Lu et al., 2023b; Lyu et al., 2023; Li et al., 2023e）。但是，随着钻研人员进一步探求CoT与LLMs的整合（Wang et al., 2022; Zhou et al., 2022; Zhang et al., 2022），选用适合的示例来指点多模态推理成为一个重复产生的应战。由于多模态示例理论联合了文本和视觉数据的复杂性，识别最关系和最有消息量的示例是一项艰难的义务（Bar et al., 2022; Li et al., 2023b,a）。

为了处置这个疑问，咱们的论文提出了一种新方法，应用检索机制灵活且智能地选用示例。如图1所示，咱们的方法检索到的关系且有消息量的示例可以激起LLMs的推理才干，进而得出正确答案。图3展现了咱们提出的方法概览。咱们的方法关键应用了跨模态相似性和模态内相似性。咱们应用这些相似性来检索示例，以期经过更关系的示例增强CoT在多模态义务上的推理环节（Zhang et al., 2023a; Sun et al., 2023）。为了确保选用的示例更片面和多样化，咱们翻新性地经常使用了分层抽样（Liberty et al., 2016）。这种便捷但有效的方法按顺序依据检索样本所属的组启动抽样。经过从不同组中抽样，咱们旨在为LLMs提供多样化的示例，从而提高多模态推理的全体品质。

图1：咱们的MM-Retrieval方法依据疑问灵活检索示例。与CoT相比，它具备更好的顺应性，能够激起LLMs的推理才干。白色的D1、D2示意依据疑问检索到的示例，而蓝色的D1、D2示意不思索疑问的固定示例。

（图片说明：- 左上角（Problem）：提出了一个疑问，要求找出图中正方形的值，答案是2。

- 左下角（CoT-2-shots）：展现了传统的链式思想（CoT）方法，经常使用了两个固定的示例（D1和D2），无论疑问是什么，这些示例都不会变动。图中白色的D1和D2区分代表了固定的示例：

- D1示例：计算购置烤盘、冰激凌勺和砂锅盘所需的钱数。

- D2示例：找出国度中飞机总部所在市区的最大市区，答案是东京。

- 右侧（MM-Retrieval）：展现了咱们的方法如何灵活地基于疑问检索示例：

- D1示例：计算图中角度x的大小。

- D2示例：找出图表中最小的独立条的值。

在MM-Retrieval方法中，这些检索到的示例被整合到揭示和测试疑问中，作为LLMs的输入。图中绿色高亮局部显示了处置疑问的详细环节，包括将图中的状态赋值并经过方程求解，最终得出答案为2。

图例说明：

- 白色的D1、D2示意依据疑问灵活检索到的示例。

- 蓝色的D1、D2示意无论疑问如何变动都固定的示例。

图1的文字说明强调了MM-Retrieval方法的灵活顺应性和对LLMs推理才干的抚慰成果，优于传统的固定示例方法。）

为了评价咱们提出的方法的有效性，咱们在两个基准多模态问答数据集ScienceQA（Lu et al., 2022）和MathVista（Lu et al., 2023a）上启动了宽泛的试验。这些试验标明，咱们的方法大大提高了LLMs的功能，在多模态推理义务上建设了新的最先进水平。如图2所示，在ScienceQA和MathVista数据集上，咱们的方法显示了清楚的改良。关于ScienceQA数据集，基于ChatGPT和GPT-4的检索方法区分比最先进的Chameleon高出4.8%和4.4%。随着更多示例的参与，基于ChatGPT和GPT-4的方法的最佳功能可以到达86.4%和92.5%。关于GPT-4V，咱们的方法相较于零样本设置可以成功2.7%的平均准确率优化。

图2：在ScienceQA（Lu et al., 2022）和MathVista（Lu et al., 2023a）的不同类别上的结果。咱们提出的方法在GPT-4基础模型上相比于之前的基线模型，包括CoT（Lu et al., 2023b）、PoT（Lu et al., 2023a）和Chameleon（Lu et al., 2023b），取得了清楚的优化。

此外，咱们的方法在MathVista数据集上也表现出优越的功能。基于ChatGPT和GPT-4的方法区分取得了8.4%和13.6%的清楚优化。此外，咱们的方法还可以进一步优化最先进的LLM - GPT-4V的功能，使其在MathVista上的全体准确率提高2.7%，这证明了咱们方法的有效性。

咱们还对咱们方法的各局部奉献启动了片面的试验，包括视觉消息、检索机制和分层抽样。此外，咱们还启动了详细的剖析，钻研了不同数量的示例对结果的影响，提供了咱们的方法在多模态义务中与LLMs协同上班的贵重见地。

2. 关系上班

2.1 检索增强生成（RAG）用于LLMs

检索增强生成（RAG）代表了经过整合外部常识源来增强模型生成才干的关键停顿。早期的上班如REALM（Guu et al., 2020）和RAG（Lewis et al., 2020）引见了将外部文档融入生成环节的基础方法。后续钻研将检索增强范式裁减到多模态环境，如MuRAG（Chen et al., 2022）和REVEAL（Hu et al., 2022），它们应用来自外部起源的文本和视觉消息来增强言语生成。此外，最近的钻研如FiD-Light（Hofstätter et al., 2022）和REPLUG（Shi et al., 2023）则集中于提高检索增强系统的效率和成果，以及探求高低文中的检索增强机制（Ram et al., 2023；de Jong et al., 2023）。

2.2 高低文学习（ICL）

高低文学习（ICL）应用LLMs在嵌入高低文中的大指示例基础上成功义务（Devlin et al., 2019；Radford et al., 2019；Brown et al., 2020；Chowdhery et al., 2022），在NLP和复杂的数学推理中显示出成果（Wei et al., 2022b）。ICL的设置包括经常使用义务指点和示例生成LLMs的照应。它对揭示结构、示例选用和示例顺序敏感（Zhao et al., 2021；Wang et al., 2023a；Fu et al., 2022）。ICL的运行裁减到多模态义务，包括图像宰割、分解和文本到语音分解（Bar et al., 2022；Wang et al., 2023b,c,e；Tsimpoukelli et al., 2021；Alayrac et al., 2022），并在图结构等结构化空间中显示出后劲（Huang et al., 2023）。

2.3 链式思想推理（CoT）

链式思想（CoT）推理指点LLMs逐渐推理，提高了在算术、符号和逻辑义务上的功能（Wei et al., 2022b；Kojima et al., 2022）。方法包括采样多个推理门路（Wang et al., 2022），将复杂疑问划分为子疑问（Zhou et al., 2022），以及灵活选用用于少样本揭示的示例（Zhang et al., 2022；Shi et al., 2022）。除了文本数据，CoT还实用于表格数据（Ziqi和Lu, 2023）。此外，其后劲在多模态环境中失掉了探求，经过言语和视觉的融合展现了增强的推理才干（Zhang et al., 2023c；Lu et al., 2023b,c）。钻研如（Zhang et al., 2023c）提出了一个两阶段的CoT框架，用于多模态义务，清楚提高了在ScienceQA等基准上的推理准确性。Chameleon（Lu et al., 2023b）引入了插拔式模块，用于大型多模态模型（LMMs），经过联合不同的工具成功复杂推理。

3. 方法

咱们的方法基于CoT高低文学习范式，旨在有效应用LLMs。关于每个输入查问，咱们宿愿应用一组关系的CoT示例来增强LLM的推理才干。为此，咱们引入了一种新方法，经常使用检索机制灵活且智能地选用示例，并将视觉常识融入揭示中。图4详细说明了咱们的方法。咱们方法的外围是提取跨模态相似性和模态内相似性，在测试疑问q的文本高低文q和视觉高低文q与示例池Q={q,...,q}中的示例之间启动交叉比拟。咱们方法的另一个共同特色是引入了分层抽样。经过依据示例的固有属性将其分类为不同组，咱们旨在裁减所选示例的多样性。从不同组中检索示例确保LLMs接纳到多方面的示例，从而增强多模态推理的鲁棒性。

图3：咱们提出的多模态检索方法概述。咱们驳回了跨模态检索和内模态检索（文本模态和图像模态检索），从示例池中失掉关系的示例作为检索示例。然后，这些检索到的示例与揭示和测试疑问集成在一同，作为LLMs的输入。

（注释：1. 示例池（Demonstration Pool）：

- 蕴含多个疑问及其选项和关系图像。例如，疑问1是“以下三种物体有哪些共同的属性？”，选项包括透明、毛茸茸、黄色，并附有对应的图像。

2. 测试疑问（Test Question）：

- 蕴含待回答的疑问及其选项和关系图像。例如，测试疑问是“以下两种物体有哪些共同的属性？”，选项包括毛糙和有弹性，并附有对应的图像。

3. MM-检索模块（MM-Retrieval Module）：

- 包括三个检索器：跨模态检索器（Cross-modal Retriever）、文本模态检索器（Text-modal Retriever）和图像模态检索器（Image-modal Retriever）。

- 这些检索器依据测试疑问从示例池中灵活检索关系的示例。

4. 示例构建（Demos Construction）：

- 构建检索到的示例集，包括从示例池中检索到的详细疑问及其答案。例如，Demo 1的疑问是“以下三种物体有哪些共同的属性？”，答案是黄色。

5. 检索到的示例（Retrieved Demos）：

- 包括检索到的多个示例疑问及其关系消息。

6. 大型言语模型（Large Language Model）：

- 将测试疑问、检索到的示例和揭示联合起来输入到大型言语模型中，以生成最终答案。

7. 最终答案（Test Answer）：

- 生成蕴含推理环节的最终答案。例如，最终答案是“两个物体的共同属性是毛糙的，因此答案是A”。

经过这种方法，咱们能够灵活检索和集成关系示例，从而优化LLMs在多模态义务中的推理才干。）

图4：咱们多模态检索方法的详细说明，其中咱们经常使用模态内相似性和跨模态相似性从示例池Q中抽样示例D。

（注释：1. 测试疑问（Test Question）：

- 蕴含待回答的疑问及其选项和关系图像。例如，测试疑问是“以下两种物体有哪些共同的属性？”，选项包括毛糙和有弹性，并附有对应的图像（例如木头和菠萝）。

2. MM-检索模块（MM-Retrieval Module）：

- 包括四个检索器：

- 文本模态检索器（Text-modal Retriever）：基于文本相似性检索关系的文本示例。

- 跨模态检索器（Cross-modal Retriever）：包括文本-图像跨模态检索器（Text-image Cross-modal Retriever）和图像-文本跨模态检索器（Image-text Cross-modal Retriever），基于跨模态相似性检索关系示例。

- 图像模态检索器（Image-modal Retriever）：基于图像相似性检索关系的图像示例。

3. 示例池（Demonstration Pool）：

- 蕴含多个疑问及其选项和关系图像。例如，疑问1是“以下三种物体有哪些共同的属性？”，选项包括透明、毛茸茸、黄色，并附有对应的图像；疑问2是“火山渣是哪种类型的岩石？”，选项包括火成岩、蜕变岩、堆积岩。

4. 检索到的示例（Retrieved Demos）：

- 包括检索到的多个示例疑问及其关系消息。例如，检索到的疑问1是“以下三种物体有哪些共同的属性？”，选项包括透明、毛茸茸、黄色，并附有对应的图像。

图示中不同色彩的箭头示意不同类型的相似性：

- 绿色箭头示意文本相似性（Text Similarity）。

- 蓝色箭头示意图像相似性（Image Similarity）。

- 粉色箭头示意跨模态相似性（Cross-modal Similarity）。

经过这些检索器，咱们可以从示例池中灵活地抽样关系的示例D，这些示例将与测试疑问联合，作为输入提供应大型言语模型（LLMs），从而优化模型在多模态义务中的推理才干。）

3.1 将视觉消息归入LLMs

咱们的方法实用于LLMs和LMMs，咱们的义务是蕴含图像和相应文本疑问的多模态问答义务。关于LLMs来说，假设不经过辅佐视觉专家模型将图像模态转换为文本模态，很难正确回答。因此，LLM经过视觉消息模型失掉疑问的视觉消息十分关键。依照Chameleon和MathVista的成功，咱们的视觉消息模型关键包括两局部：

- 图像形容 ：咱们经常使用图像形容模型失掉给定图像的文本形容。图像形容结果示意为{V}，它是示意图像关键内容的文本片段。

- 光学字符识别（OCR） ：除了图像形容系统，咱们还经常使用OCR系统识别给定图像中的文本字符，检测到的文本示意为{V}。

因此，咱们经常使用的视觉消息示意为V={V, V}，这是生成的图像形容和OCR系统检测到的文本的衔接。

3.2 检索机制

假定咱们有一个待回答的测试示例q，它包括视觉高低文q（理论是图像）和文本高低文q（理论是疑问形容）。Q中的每个疑问与q具备相反的组成局部，所以q={q, q}，其中q∈Q。同时，咱们还有一个多模态疑问汇合Q={q,...,q}，咱们可以从中搜集示例协助LLM回答测试示例q。经常使用检索函数，从Q中提取示例构成检索到的示例集D。普通的检索环节可以示意为：

其中，F示意用于编码q的编码器模型，F(q) ∈ R和 F(q) ∈ R。k示意咱们从Q中采样与q具备最大余弦相似性的前k个示例。然后，采样的前k个示例作为示例。

详细来说，思索到多模态设置中检索的复杂性，咱们经过火别经常使用q和q从Q中检索示例来裁减公式1：

公式中的F(q, Q)示意咱们依据F(q)和F(q)之间的余弦相似性，从 Q中检索前k1个示例，这示意测试疑问q 的视觉高低文与示例池中的示例 q之间的比拟，其余同理。须要留意的是， k = ∑k。公式2右侧的前两个项示意基于模态内相似性的检索，然后两个项示意跨模态检索。F可以是任何适当的编码器，用于失掉q（文本编码器）和q（视觉编码器）的嵌入。

3.3 抽样方法

此外，为了在咱们的示例中坚持多样性和关系性，咱们驳回了分层抽样（Liberty et al., 2016）。这种方法准许咱们从基于跨模态和模态内相似性检索到的四个组中抽样示例。为了简化，咱们将F(,)简化为D，F(,)简化为D，F(,)简化为D，F(,)简化为D。分层抽样环节S如下：

其中，d∈ D，d∈ D，d∈ D，d∈ D。此外，为了顺应多模态数据的不同复杂个性（例如不同畛域的示例具备不同的性质），咱们提出在处置不同类型疑问q时自顺应经常使用分层抽样。详细来说，咱们经常使用阅历函数σ来选择能否驳回分层抽样（即σ可以是开发集上的功能Δ或其余启示式方法）。详细的抽样战略如表3所示。

3.4 最终预测

经过检索到的示例，咱们的下一步是预测给定测试疑问q的最终答案。为此，咱们将测试疑问q与检索到的示例集D以及视觉消息V联合起来。目的是为LLM提供一个蕴含初始疑问和关系示例见地的丰盛高低文。疑问和示例的联合可以示意为V ⊕ D ⊕ q，这是LLM的揭示。当咱们将这个揭示输入LLM时，咱们失掉最终结果：

Answer = λ(V ⊕ D ⊕ q)

在这个公式中，λ代表LLM的预测环节。这个最终预测步骤至关关键，由于它表现了咱们建设的整个环节。它确保LLM思索到原始疑问和示例集中的额外消息，以生成一个消息丰盛且准确的答案。

4. 试验

4.1 试验设置

数据集

在试验中，咱们经常使用了两个用于多模态CoT推理的基准数据集：

1. ScienceQA (Lu et al., 2022)：这是一个综合性基准数据集，旨在评价大型言语模型的多模态推理才干。

2. MathVista (Lu et al., 2023a)：这个数据集用于评价LLMs和LMMs在视觉高低文中的数学推理才干。

模型

在试验中，咱们经过OpenAI API经常使用了ChatGPT (OpenAI, 2022)、GPT-4 (OpenAI, 2023)和GPT-4V (OpenAI, 2023)。咱们经常使用了GPT-3.5-TURBO作为ChatGPT的版本，而GPT-4用于GPT-4。关于GPT-4V的评价，咱们经常使用了GPT-4-VISION-PREVIEW。

成功细节

用于编码CoT示例的文本和视觉高低文的TEXT-ENCODER和VISUAL-ENCODER是预训练在大规模语料和图像上的模型。详细来说，关于模态内相似性，咱们区分经常使用SentenceBERT (Reimers and Gurevych, 2019)和ViT (Dosovitskiy et al., 2021) (ViT-base-patch16-224)来编码文本和图像。关于跨模态相似性，咱们经常使用CLIP (Radford et al., 2021)来编码文本和图像。详细而言，咱们遵照了Chameleon的方法，将元数据和常识检索结果与疑问衔接起来作为咱们的基线。咱们的方法基于此基础进一步开发了基于文本的疑问方法。为了整合视觉高低文，咱们区分经常使用BLIP (Li et al., 2023c)和GPT-4V (OpenAI, 2023)为ScienceQA和MathVista失掉图像形容。咱们选用了ScienceQA的训练集作为示例池。至于MathVista，咱们在test-mini上评价了功能。由于测试集没有颁布答案且数量较多，咱们选用经常使用它作为示例池。由于MathVista的测试集中没有答案或推理环节，咱们经常使用GPT-4V零样本的照应作为推理的基础。详细来说，关于GPT-4V MM-Retrieval，咱们的文本揭示与LLMs相反，但咱们会在文本揭示后参与疑问的图像。

表1：ScienceQA上的试验结果（Lu 等，2022）。咱们经过与各种基线模型（包括监视和非监视模型）启动比拟来评价系统的功能。结果标明，咱们提出的CoT-MM-Retrieval方法在平均准确率和简直一切疑问类别上都优于之前的最先进模型。须要留意的是，*示意咱们方法的最佳结果，此时咱们经常使用了更多的示例。

4.2 结果

在咱们针对ScienceQA数据集（Lu et al., 2022）启动的试验中，如表1所示，对各种模型在不同疑问类型上的功能启动了评价。基线模型的结果取自ScienceQA排行榜2，在这里咱们依据能否明白在ScienceQA训练集上启动训练来区分监视系统和无监视系统。咱们的方法称为CoT-MM-Retrieval，经常使用了两个示例，提供了与Chameleon（Lu et al., 2023b）偏心的比拟，而CoT-MM-Retrieval*示意咱们在更多示例状况下的最佳功能。

关于基于ChatGPT的模型：

1. Chameleon (ChatGPT)（Lu et al., 2023b）稍微超越了基础ChatGPT CoT，平均准确率为79.9%。

2. 咱们的方法ChatGPT CoT-MM-Retrieval基于检索增强的ChatGPT，平均准确率到达了84.7%，比之前的最先进Chameleon高出4.8%。

3. 其中，ChatGPT CoT-MM-Retrieval*取得了最佳功能，平均得分为86.4%。

关于基于GPT-4的模型：

1. Chameleon (GPT-4)（Lu et al., 2023b）作为之前的最先进模型，平均得分为86.5%。

2. 咱们的方法GPT-4 CoT-MM-Retrieval*超越了Chameleon (GPT-4) 6%，平均得分到达了92.5%。它在SOC和NO等疑问类型上设立了新的最先进水平，得分区分为97.2%和94.9%。

关于基于GPT-4V的模型：

咱们的方法GPT-4V CoT-MM-Retrieval应用了疑问图像，其平均得分比零样本的GPT-4V高出2.7%，标明咱们的方法不只实用于LLMs，也实用于LMMs。

在咱们针对MathVista数据集（Lu et al., 2023a）启动的试验中，如表2所示，咱们的方法称为CoT-MM-Retrieval，经常使用了两个示例，提供了与CoT和PoT偏心的比拟。

关于基于ChatGPT的模型：

咱们的方法ChatGPT CoT-MM-Retrieval比ChatGPT CoT高出8.4%，平均得分为41.6%。

关于基于GPT-4的模型：

咱们的方法GPT-4 CoT-MM-Retrieval区分比ChatGPT CoT和ChatGPT PoT高出13.6%和12.9%。

关于基于GPT-4V的模型：

咱们的方法GPT-4V CoT-MM-Retrieval在零样本的平均得分上比GPT-4V高出2.7%，在14个目的中有8个超越了零样本。值得留意的是，在MathVista，由于数学识题的难度，目前的GPT-4V在平均得分上不可超越人类。

4.3 消融钻研

咱们对不同检索方法和示例数量（少样本学习中的shots）在方程2中的影响启动了剖析。结果如图5所示。

咱们讨论了四种检索方法：1）文本到文本（T2T），2）文本到图像（T2I），3）图像到文本（I2T），4）图像到图像（I2I），并随着示例数量的参与（从0到4，区分为k1, k2, k3, k4）钻研其对模型功能的影响。提供了不同疑问类型的功能目的，使咱们能够区分不同类别中的形式和变动。图5的结果首先标明，在高低文中参与示例可以提高全体准确率，特意是在ScienceQA和MathVista中。从图5中咱们还可以观察到：

1. 文本到文本检索（T2T）：随着示例数量的参与，T2T检索的准确率在ScienceQA上坚持相对稳固，平均准确率在80.8%到81.3%之间。而在MathVista上，平均准确率在35.6%到40.6%之间。该方法的最高准确率是在ScienceQA上经常使用1个示例（81.3%）和在MathVista上经常使用2个示例（40.6%）时到达的，这标明参与更多示例并不总能保障功能优化。

2. 文本到图像检索（T2I）：其表现与T2T相似，在ScienceQA上的平均准确率在80.4%到81%之间，在MathVista上的平均准确率在36.2%到40.1%之间。关于这种方法，最高准确率是在ScienceQA上经常使用2个示例（81%）和在MathVista上经常使用3个示例（40.1%）时到达的。

3. 图像到文本检索（I2T）：该方法的准确率变动比前两种略大，在ScienceQA上的准确率在81.4%到82%之间，在MathVista上的准确率在31.7%到38.8%之间。这里，2个示例在ScienceQA上提供了最佳平均表现（82%），而在MathVista上经常使用1个示例时（38.8%）到达了最高准确率。

4. 图像到图像检索（I2I）：这种方法在MathVista上的表现与文本到文本检索相似，平均准确率在34.8%到39.8%之间。该方法的最高准确率是在经常使用2个示例（39.8%）时到达的。在ScienceQA上，这种检索方法展现了最幽默的趋向。随着示例数量的参与，准确率清楚提高，从1个示例时的82.8%提高到4个示例时的85.9%。在ScienceQA上，G1-6类型的表现一直很好，准确率理论在84%以上。

检索方法的选用和示例数量在确定模型功能方面起着关键作用。咱们的消融钻研结果标明，咱们提出的检索战略在不同模态和不同示例数量上具备持重性和顺应性。值得留意的是，不同疑问类型中的分歧功能强调了咱们方法在增强LLMs推理才干方面的有效性。

5 论断

本文提出了一种陈腐的方法来应答为大言语模型（LLMs）启动多模态推理时选用适合的示例的疑问（Lu 等，2022）。经过将检索机制与LLMs相联兼并强调文本和图像之间的模态衔接，咱们的方法旨在提高LLMs在多模态链式思想（CoT）（Wei 等，2022b；Zhang 等，2023c）推理中的效率。此外，咱们的方法引入了分层抽样，确保LLMs能够接触到多样且片面的示例。在对ScienceQA数据集（Lu 等，2022）和MathVista数据集（Lu 等，2023a）的试验中，咱们的方法继续优于现有的最先进模型，如Chameleon（Lu 等，2023b）和ChatGPT PoT（Lu 等，2023a）。这些试验证明了咱们的假定，行将LLMs与咱们提出的定制检索机制相联合，可以清楚优化多模态推感功能。随着CoT技术在人造言语处置社区中日益遭到关注，咱们的上班强调了有效示例选用的关键性。

未来的钻研应着重于优化检索环节，并将本钻研中开发的方法裁减到其余多模态义务中。这些义务或者包括LLMs输入涵盖多种模态的义务，如文本到图像和文本到视频生成（Liu 等，2023a；Wang 等，2023d）。此外，将其运行于如医疗畛域等专业畛域（Li 等，2023d），也是一个有出路的方向。同时，在开发越来越复杂的多模态LLMs，特意是那些驳回CoT推理的LLMs时，处置幻觉疑问也十分关键（Ji 等，2023；Zhang 等，2023b）。咱们置信咱们的上班为这些未来的探求奠定了松软的基础。

局限性

本文提出了一种经过多模态检索增强LLMs启动CoT示例的新方法。但是，咱们的上班存在一些局限性。首先，咱们的方法仅在两个数据集上启动了测试：ScienceQA和MathVista。这两个数据集关键触及迷信和数学主题，不能宽泛笼罩其余复杂的推理义务。因此，咱们的方法还应在其余复杂推理义务上启动评价。其次，由于资源限度，咱们仅在闭源系统上启动了试验，未在开源LLMs上启动试验，这使得咱们的结果难以复制且老本高。此外，由于这些闭源LLMs的性质，咱们不可齐全消弭数据污染的危险。因此，咱们的方法还应在更多具代表性的言语上启动片面评价。

Liu B, Lyu C, Min Z, et al. Retrieval-augmented multi-modalchain-of-thoughts reasoning for large language models[J]. arXiv preprint arXiv:2312.01714, 2023.

AIRoobt ，作者：AIRoobt

原文链接:

<<什么是RAG 爆火的本地常识库名目是什么本地常识库与大模型的相关

CuMo LLM 经常使用协同再应用的混合专家模型来裁减多模态大型言语模型>>