三大关键技术看RAG如何优化LLM的才干

2024-11-15

大言语模型体现杰出，但是在处置幻觉、经常使用过期的常识、启动不透明推理等方面存在应战。检索增强生成（RAG）作为一个新兴的处置打算，经过整合外部常识库的数据，提高了模型在常识密集型义务中的准确性和可信度，能够成功常识继续更新和特定畛域消息的集成，有效将LLM的外在常识与外部数据的渺小灵活资源相结合。

大模型运行面临的应战

大言语模型（如GPT系列、LLama系列、文心一言等），曾经在人造言语畛域的多项基准测试中取得打破性停顿。但是，它们在处置特定畛域或许一些高度专业化的场景时存在一些局限性。

为了应答这些应战，关键有以下几种类型的处置打算：

什么是RAG

望文生义，RAG (Retrieval-Augmented Generation), 关键包括3个关键环节（Retrieval、Augmentation和Generation），它关键经过从外部常识库中“检索”最新消息作为外挂来“增强”LLM“生成”答案的成果。在回答疑问或生成文本之前查问外部数据源并分解一个内容愈加丰盛的Prompt，从而清楚优化输入的准确性和相关性。目前，RAG曾经成为LLM系统中最盛行的架构之一，因其高适用性和低门槛的特点，许多对话产品都是基于RAG启动构建。

RAG框架结构

从便捷到复杂可以分为三个档次的RAG，包括Naive RAG、Advanced RAG、Modular RAG，如下图所示。

从Naive RAG说起

最基本的RAG形式，分为Indexing、Retrieval、Generation这3个步骤，便捷而适用。

Naive RAG的一些局限性

Naive RAG的成果在检索品质、结果生成品质和增强的环节方面都存在必定的应战。

Advanced RAG如何应答这些应战

和Naive RAG相比，Advanced RAG参与了Pre-Retrieval 和 Post-Retrieval模块，同时对Retrieval模块也启动了一些优化，从而改良输入成果。

Pre-Retrieval

可以经过优化数据索引的形式来改良Pre-Retrieval阶段的品质。大抵有5种战略可以经常使用：

这一阶段关键经过计算query和chunks的相似性来召回高低文，外围是embedding模型，Advanced RAG关键对embedding模型启动优化。

Post-Retrieval

在成功chunks检索并整合高低文提交给LLM生成最终结果前，可以经过ReRank和Prompt Compression的形式对文档启动优化。

Modular RAG

不同于Naive RAG和Advanced RAG，都有固定的一套流程，Modular RAG更多是参与了一些新的模块，并可以依据详细的需求对各个繁多的模块启动组合失掉新的架构形式。

新模块

新形式

Modular RAG是一个高度顺应性的组织结构，它准许在RAG环节中交流或从新陈列模块以顺应特定疑问的需求。传统的豪华RAG关键由“Retrieval”和“Read”模块组成，而初级RAG在此基础上参与了“Rewrite”和“Rerank”模块。但是，模块化RAG提供了更大的多样性和灵敏性。

目前的钻研关键探求两种组织形式：一种是参与或交流模块，另一种是调整模块之间的流程。经过这种灵敏性，可以依据不同义务的需求定制RAG环节。

参与或交流模块战略旨在坚持Retrieval-Read的外围结构，同时经过集成额外的模块来增强特定配置，如RRR模型中的Rewrite-Retrieval-Read环节。另一种方法是交流模块，如将LLM生成模块交流为检索模块，或许让LLM记住特定义务消息并启动输入，以处置常识密集型义务。

在调整模块之间的流程方面，重点在于增强言语模型和检索模型之间的交互。例如，DSP框架将高低文学习系统视为一个显式程序来处置常识密集型义务，而ITER-RETGEN办规律经过生成内容指点检索，并在检索-阅读的流程中迭代实施增强配置，显示了模块之间如何相互优化配置的翻新形式。

优化RAG的pipeline

RAG系统中的检索环节优化关注于提高消息检索的效率和品质。经过集成多种搜查技术、改良检索步骤、引入认知回溯、成功多样化查问战略和应用嵌入相似性，钻研人员努力于在检索效率和高低文消息的深度之间找到平衡点。

这些方法不只参与了系统的灵敏性，也或许提高RAG系统在处置常识密集型义务时的体现，但也须要留意，这些方法或许在模型对特定主题不够相熟时发生失误。

Retriever模块

在 RAG 的背景下，从数据源中高效检索相关文档至关关键。但是，构建一个熟练的检索器面临着渺小的应战。本节讨论了三个基本疑问：1）咱们如何成功准确的语义示意？2）什么方法可以对齐查问和文档的语义空间？3）检索器的输入如何与大言语模型的偏好坚持分歧？

如何失掉准确的语义表征？

在 RAG 中，语义空间至关关键，由于它触及查问和文档的多维映射。该语义空间中的检索准确性会显着影响 RAG 结果。本节将引见两种构建准确语义空间的方法。

如何婚配query和文档的语义空间？

在检索增强型生成（RAG）运行的背景下，检索器或许经常使用繁多的嵌入模型来同时编码查问和文档，或许为每个局部驳回不同的模型。此外，用户的原始查问或许存在措辞不准确和不足语义消息的疑问。因此，将用户查问的语义空间与文档的语义空间对齐至关关键。本节引见了两种旨在成功这种对齐的基本技术。

这些方法的详细内容可以参考如何应用查问改写技术改善RAG成果

如何对齐检索结果和大模型的输入偏好

在RAG（检索增强型生成）流程中，虽然经过各种技术提高检索命中率或许看起来有益，但这并不必定能改善最终结果，由于检索到的文档或许并不合乎大型言语模型（LLM）的详细要求。因此，本节引见了两种旨在将检索器输入与大型言语模型的偏好对齐的方法

REPLUG计算检索到的文档的概率散布，而后经过计算KL散度启动监视训练。这种便捷有效的训练方法应用LM作为监视信号提高检索模型的体现，无需特定的交叉留意力机制。

UPRISE雷同经常使用固定的LLM微调揭示检索器。LLM和检索器都以揭示-输入对作为输入，并应用LLM提供的分数指点检索器的训练，有效地将LLM视为数据集标注器。

此外，Atlas提出了四种监视微调嵌入模型的方法：留意力蒸馏、EMDR2、困惑度蒸馏和LOOP，它们旨在提高检索器和LLM之间的协同作用，优化检索性能，并使对用户查问的回应愈加准确。

Generator模块

RAG的外围是生成器，它结合检索器提取的消息，生成准确、相关的连接文本。输入不只限于高低文消息，还蕴含相关文本片段，使得回答更丰盛、相关。生成器确保内容与消息的连接性，并在生成阶段对输入数据启动精细调整，以顺应大型模型。后续小节将讨论检索后处置和微调生成器。

如何经过Post-retrieval环节增强检索结果

在大型言语模型（LLM）的运行中，钻研者依赖于如GPT-4这类先进模型来综合处置不同文档的消息。但LLMs面临高低文长度限度和对冗余消息处置的应战，为此，钻研转向了检索后处置，以优化检索结果品质和更好地满足用户需求。检索后处置通常包括消息紧缩和结果重排序。

Fine-tuning LLM for RAG

在RAG模型中，生成器的优化是提高模型性能的关键。生成器担任将检索的消息转化为与用户查问相关的人造文本。RAG区别于规范LLM的中央在于，它结合了用户的查问及检索器失掉的结构化/非结构化文档作为输入，这对小型模型的了解尤为关键。因此，针对查问和检索文档的输入微调模型至关关键，通常会在微调前对检索到的文档启动后处置。RAG的生成器微调方法与LLM的通用微调方法坚持分歧。接上去的局部将引见触及不同数据类型和优化配置的钻研上班。

Augmentation模块

在哪些阶段启动增强？

预训练阶段

在预训练阶段增强开明畛域问答的预训练模型（PTM），钻研者们探求了却合检索战略的方法。例如，REALM模型在遮盖言语模型（MLM）框架中实施了常识嵌入和检索-预测流程。RETRO模型从零开局应用检索增强启动大规模预训练，缩小了参数数量并在困惑度上逾越了GPT模型。Atlas模型将检索机制融合到T5架构的预训练和微调阶段，而COG模型经过模拟复制现有文本片段，展现了在问答和畛域顺应方面的杰出性能。随着模型参数的增长定律，钻研者们正在预训练更大的模型，如RETRO++模型。这些模型在文本生成品质、理想准确性、降低毒性以及下游义务熟练度方面取得了清楚提高，特意是在常识密集型义务如开明畛域问答中。增强预训练的模型在困惑度、文本生成品质和义务特定性能方面优于规范GPT模型，且经常使用的参数更少。这种方法还面临一些应战，如少量预训练数据集和资源的需求以及模型大小参与时更新频率的降低。但是，这种方法提供了模型弹性方面的清楚好处，训练成功的增强检索模型可以脱离外部库独立运转，提高了生成速度和经营效率，这使得它成为人工智能和机器学习畛域继续钻研和翻新的抢手话题。

Fine-tuning阶段

RAG和微调是优化大型言语模型（LLMs）性能的关键手腕，可以针对详细场景启动优化。微调有助于检索特定格调的文档，改善语义表白，并协调查问和文档之间的差异。此外，微调还可用于调整生成器产出具有特定格谐和目的的文本，并可优化检索器与生成器间的协同作用。

微调检索器旨在优化语义表征的品质，经过经常使用专门的语料库间接微调嵌入模型来成功。此外，微调使检索器的才干与LLMs的偏好更好地协调，并针对特定义务提高顺应性，同时增强多义务场景中的通用性。

微调生成器可以产出愈加格调化和定制的文本，使模型能够顺应不同的输入数据格局，并经过指令性数据集生成特定格局的内容。例如，在自顺应或迭代检索场景中，LLMs可以被微调以发生推进下一步操作的内容。

协同微调检索器和生成器可以增强模型的泛化才干并防止过拟合，但这也会参与资源消耗。RA-DIT提出了一个轻量级的双指令调整框架，可有效地为LLMs参与检索才干并防止不用要的消息。

虽然微调存在专门数据集和计算资源的需求局限性，但它准许模型针对特定需求和数据格局启动定制，潜在地缩小资源经常使用量。因此，微调是RAG模型顺应特定义务的关键环节，虽然面临应战，但能够提高模型的多配置性和顺应性，是构建高效、有效检索增强系统的关键组成局部。

推理阶段

在RAG模型中，推理阶段是整合大型言语模型的关键环节。传统的Naive RAG在这个阶段整合检索内容指点生成环节。为克制其局限性，驳回了在推理中引入更丰盛高低文消息的初级技术。如DSP框架经过解冻的LMs与检索模型交流人造言语文本，丰盛高低文优化生成结果；PKG为LLMs参与常识疏导模块，使其检索相关消息而不扭转LM参数；CREAICL经过同步检索跨言语常识增强高低文；而RECITE间接从LLMs采样段落生成高低文。

针对须要多步推理的义务，ITRG迭代检索消息以确定正确推理门路，ITERRETGEN驳回迭代战略循环兼并检索与生成，PGRA提出义务无法知检索器和揭示疏导重排器的两阶段框架。IRCOT结合RAG和思想链方法，在问答义务中提高GPT-3性能。这些推理阶段优化提供了轻量且经济的选用，应用预训练模型的才干，无需额外训练。它们的关键好处是在不变卦LLM参数的同时提供义务相关的高低文消息。不过，此方法需粗疏的数据处置优化，并受限于基础模型的固有才干。为有效应答多义务需求，通常与分步推理、迭代检索和自顺应检索等程序优化技术结合经常使用。

增强数据源

RAG模型的成果清楚遭到数据源选用的影响，这些数据源依据不同常识和维度的需求可分为非结构化数据、结构化数据和由大型言语模型生成的内容。技术树展现了应用这些不同类型数据启动增强的代表性RAG钻研，其中三种色彩的树叶区分代表不同数据类型的运行。最后，RAG模型的增强关键依赖非结构化数据如文本，随后演化为包括结构化数据如常识图谱启动优化。近期钻研意向更偏向于经常使用LLMs自我生成的内容来启动检索和增强。

非结构化数据的增强

RAG模型在处置非结构化文本时，涵盖了从单个词汇到短语乃至文档段落的不同检索单元，以不同的粒度来平衡准确性与检索复杂性。一些钻研如FLARE驳回被动检索方法，由言语模型触发，以生成低概率词的句子为基础启动文档检索，并结合检索高低文优化生成结果。RETRO则应用块级检索逻辑，经过前一个块的最近街坊来指点下一个块的生成，留意到为坚持因果逻辑，生成环节须要确保仅经常使用前一个块的消息。

结构化数据的增强

结构化数据，如常识图谱（KGs），提供高品质的高低文并缩小模型发生失误幻象。RET-LLMs 应用过去的对话构建常识图谱记忆以供未来参考。SUGRE 驳回图神经网络（GNNs）来编码相关KG子图，经过多模态对比学习确保检索到的理想与生成文本之间的分歧性。KnowledGPT 生成常识库（KB）搜查查问，并将常识存储在共性化的基础上，从而增强了RAG模型的常识丰盛性和高低文性。

在RAG中应用LLMs生成的内容

在RAG模型的开展中，钻研人员探求了从LLMs外部常识中失掉增强消息的方法，以克制外部辅佐消息的局限。经过对疑问启动分类和选用性地运行检索增强（SKR），交流传统检索器为LLM生成器以发生更准确高低文（GenRead），以及迭代建设无界记忆池以自我增强生成模型（Selfmem），这些翻新做法极大地拓宽了数据源在RAG中的经常使用，目的是为了优化模型的全体性能和处置义务的有效性。

增强环节

在RAG畛域的通常中，一个繁多的检索步骤后接生成步骤或许造成“两边迷失”现象，即单次检索或许带来与关键消息不符的冗余内容，影响生成品质。关于须要多步推理的复杂疑问，这样的繁多检索往往消息有限。为此，钻研提出了迭代检索、递归检索和自顺应检索等方法来优化检索环节，使其能够失掉更深化、更相关的消息，特意是在处置复杂或多步查问时。自顺应检索则可以依据义务和高低文的特定需求灵活调整检索环节，优化了检索的灵敏性和有效性。

迭代检索

在RAG模型的迭代检索环节中，为了为LLMs提供更片面的常识库，系统会依据初始查问和已生成的文本屡次搜集文档。这种方法能够增强答案生成的稳如泰山性，但它或许会由于依赖特定的词汇序列来界定生成文本与检索文档的边界而造成语义不连接和不相关消息的积攒。针对特定数据场景，钻研者们驳回了递归检索和多跳检索技术，递归检索依赖于结构化索引来档次化处置数据，多跳检索则深化图结构化数据源提取关联消息。此外，ITER-RETGEN等方法将检索和生成融合在一同，经过检索增强的生成和生成增强的检索来处置特定义务，从而在后续的迭代中生成更好的回应。这些翻新方法都在努力优化模型的性能和义务的有效性。llamaindex案例：

递归检索

递归检索罕用于消息检索和NLP中，旨在经过迭代优化搜查查问来加深搜查结果的相关性和深度。这一环节经过反应循环逐渐准确至最关键的消息，从而增强搜查体验。例如，IRCoT应用思想链条来指点检索，ToC创立廓清树来优化查问中的含糊局部。递归检索关于初始用户需求不明白或消息需求专业化、粗疏的复杂搜查场景特意有效。这种方法的递归实质促使其继续学习和顺运行户需求，经常能够清楚优化用户对搜查结果的满意度。

自顺应检索

自顺应检索方法例如Flare和SelfRAG经过准许LLMs被动选择最佳的检索机遇和内容来改良RAG框架，增强了检索消息的效率和相关性。这些方法都是LLMs在操作中被动判别的更普遍趋向的一局部，如AutoGPT、Toolformer和Graph-Toolformer等模型代理所展现的。例如，Graph-Toolformer被动地经常使用检索器、运行Self-Ask技术以及借助大批揭示来启动搜查查问。WebGPT集成了强化学习框架以训练GPT-3模型在文本生成时自主经常使用搜查引擎。Flare经过监控生成环节中生成术语的概率来智能化检索机遇。Self-RAG引入了“反思符号”，准许模型反思其输入，并自主选择何时激活检索，或由预约义阈值触发。Self-RAG经过经常使用批判分数来更新分数，使模型的行为愈加定制化，并优化了检索决策环节。

LLM的优化因其日益增长的关键性而遭到关注，揭示工程、Fine-Tuning和RAG都有各自的特点，选用经常使用哪种方法应基于特定场景的需求和每种方法的固有属性。llamaindex案例：

RAG和Fine-Tuning的对比

RAG 相似于给模型一本教科书用于特定消息的检索，十分适宜处置详细的查问。而 FT 相似于在校生随期间学习并内化常识，更适宜重现特定的结构、格调或格局。FT 经过增强模型的基础常识、调整输入和教授复杂指令来提高模型的体现和效率，但在融入新常识或极速迭代新经常使用场景方面相对较弱。

RAG 和 FT 并不互斥，实践上可以互补，有助于在不同档次上优化模型的才干。在某些案例中，结合经常使用 RAG 和 FT 或许能够成功最优性能。但是，触及 RAG 和 FT 的优化环节或许须要经过屡次迭代才干取得满意的成效。

RAG成果评价

RAG的极速提高和在人造言语处置畛域的普遍运行使得RAG模型评价成为大型言语模型社区钻研的一个关键畛域。评价的外围目的是了解和优化RAG模型在各种运行场景中的性能。

过去，RAG模型的评价通常集中在它们在特定下游义务中的体现，并经常使用与义务相关的已建设评价目的，比如问答义务的EM和F1分数，理想核对义务的准确性目的。像RALLE这样的工具也是基于这些特定义务的度量规范启动智能评价的。

但是，目前缺少专门评价RAG模型共同特性的钻研。接上去的局部将从特定义务的评价方法转向基于RAG共同属性的文献综合。这包括讨论RAG评价的目的、评价模型的不同方面，以及可用于这些评价的基准和工具。目的是提供一个关于RAG模型评价的片面概览，并概述那些专门针对这些初级生成系统共同方面的方法论。

评价对象

RAG模型的评价关键围绕两个关键组成局部开展：检索模块和生成模块。这种划分确保了对提供的高低文品质和发生的内容品质的彻底评价。

Evaluation Aspects

现代RAG模型的评价通常强调三个关键品质得分和四个基天性力，这些综合消息共同构成了对RAG模型两个关键目的——检索和生成的评价。

Quality Scores

RAG模型的评价通常关注三个关键的品质评分：高低文相关性、答案虔诚度和答案相关性。这些评分规范从多个角度评价RAG模型在消息检索和生成环节中的性能：

须要的才干

RAG模型的评价笼罩了批示其顺应性和效率的四个关键才干：噪声鲁棒性、负面拒绝、消息整合和反理想鲁棒性。这些才干关于评价模型在多样化应战和复杂情境下的体现至关关键。

高低文相关性和噪声鲁棒性是评价检索品质的关键目的，而答案虔诚度、答案相关性、负面拒绝、消息整合和反理想鲁棒性则是评价生成品质的关键。这些评价方面的详细度量规范在文献中启动了总结，但目前这些度量还不是成熟或规范化的评价方法。虽然如此，一些钻研也曾经开收回针对RAG模型特性的定制度量目的。

评价的Benchmarks和工具

这一局部引见了RAG模型的评价框架，该框架蕴含基准测试和智能评价工具。这些工具提供用于权衡RAG模型性能的定量目的，并且协助更好地理解模型在各个评价方面的才干。出名的基准测试如RGB和RECALL专一于评价RAG模型的关键才干，而最新的智能化工具如RAGAS、ARES和TruLens则应用大型言语模型来评定品质得分。这些工具和基准测试共同构成了一个为RAG模型提供系统评价的松软框架，相关细节在下表中有所总结。

展望

RAG面临的应战

虽然RAG技术曾经取得了严重停顿，但仍有若干应战须要深化钻研。其中包括如何处置LLMs的高低文窗口大小限度、优化RAG的鲁棒性、探求结合RAG和微调（RAG+FT）的混合方法、裁减LLMs在RAG框架中的角色、钻研规模规律在RAG中的适用性，以及成功消费就绪的RAG。特意地，须要在RAG模型中找到平衡高低文长度的方法，提高反抗性或反理想输入的抵制力，并确定RAG与微调的最佳整合形式。同时，须要确保RAG在消费环境中的适用性和数据安保，处置检索效率和文档召回率的疑问。这些应战的探求和处置将推进RAG技术向前开展。

RAG的模态裁减

RAG技术曾经开展到不只限于文本问答，而是蕴含图像、音频、视频和代码等多种数据模态。这一裁减催生了在各个畛域整合RAG概念的翻新多模态模型。例如，RA-CM3作为一个多模态模型，能够检索和生成文本与图像；BLIP-2应用图像编码器和LLMs启动视觉言语预训练，成功图像到文本的转换；而"Visualize Before You Write"办规律展现了在开明式文本生成义务中的后劲。音频和视频方面的GSS方法和UEOP成功了数据的音频翻译和智能语音识别，而Vid2Seq经过引入期间标志协助言语模型预测事情边界和文本形容。在代码畛域，RBPS经过检索与开发者目的分歧的代码示例长于处置小规模学习义务，而CoK办规律经过整合常识图谱中的理想来提高问答义务的性能。这些停顿标明，RAG技术在多模态数据处置和运行方面具有渺小的后劲和钻研价值。

RAG的生态

下游义务和评价

RAG技术在丰盛言语模型处置复杂查问和生成详尽回答方面体现出极大后劲，它曾经在开明式疑问回答和理想验证等多种下游义务中展现了优秀的性能。RAG岂但优化了回答的精准度和关联性，还增强了回答的多样性和深度。特意在医学、法律和教育等专业畛域，RAG或许会缩小培训老本，优化与传统微调方法相比的性能。为了最大化RAG在各种义务中的成效，完善其评价框架至关关键，包括开发愈加粗疏的评价目的和工具。同时，增强RAG模型的可解释性是一个关键目的，以便用户能更好了解模型生成回答的逻辑，促成RAG运行的信赖度和透明度。

技术栈

RAG生态系统的开展清楚遭到其技术栈退化的影响。随着ChatGPT的兴起，LangChain和LLamaIndex等关键工具因其提供的丰盛RAG相关API而极速盛行，成为LLMs畛域的外围工具。即使新兴技术栈在配置上不如它们，也经过专业化的服务来突显差异化，例如Flowise AI经过低代码途径经常使用户能够轻松部署AI运行。雷同，HayStack、Meltano和Cohere Coral等技术因其独到的奉献而备受注目。

传统软件和云服务提供商也在拓展服务以提供RAG为中心的处置打算，如Weaviate的Verba和亚马逊的Kendra。RAG技术的演化出现出不同的专业化方向，包括定制化、简化和专业化，以更好地顺应消费环境。RAG模型及其技术栈的共同生长表如今技术提高为基础设备设定了新的规范，技术栈的增强又推进了RAG才干的进一步演化。RAG工具包正在成为企业运行的基础技术栈，但一个完选集成的综合平台仍须要进一步翻新和开展。

通常

LlamaIndex通常

本文中所提到的很多RAG的优化打算，都可以在LlamaIndex中找到对应的成功，LlamaIndex官网也出了一份官网的指南，详细引见了一些模块的最佳通常阅历。更多概略可以参考A Cheat Sheet and Some Recipes For Building Advanced RAG。

下图罗列了一些RAG技术在llamaindex中对应的代码模块，可以参考llamaindex文档进一步尝试。

业界通常

百川智能的RAG打算

百川智能的RAG打算流程包括以下几个关键步骤：

6.向量检索、稠密检索、Rerank的结合 ：为了提高常识失掉效率和准确性，百川智能结合经常使用了向量检索与稠密检索，构成了一种混合检索形式，以提高目的文档的召回率。

7.大模型自省技术 ：在通用RAG基础上，百川智能翻新性地提出了Self-Critique技术，让大模型能够依据Prompt，对搜查回来的内容启动自省和挑选，以确保提供与用户查问最婚配、最优质的答案。

8.模型与搜查的深度融合 ：经过这些步骤，百川智能成功了大模型与搜查的严密结合，为用户提供定制化处置打算，有效降低老本、优化性能，并继续增值企业专有常识库。

百川智能的RAG打算清楚地改善了大模型内行业垂直场景中的运行，经过提供一种更低老本、更高效的定制化大模型处置打算，优化了大模型技术的落地后劲，并有望引领大模型产业走向一个全新的阶段。

OpenAI案例

OpenAI展现了一个经常使用检索增强生成（RAG）技术来优化疑问解答系统的案例。后来，系统仅仅经过基于余弦相似度的检索打算到达45%的准确率。为了提高性能，尝试了多种战略，如HyDE检索，它经过生成虚构答案并用其检索相关段落，以及微调嵌入模型来调整嵌入空间。虽然这些方法提高了准确性，但由于老本和速度的疑问，最终并未被驳回。经过调整数据分片和嵌入，准确率优化至65%；进一步经过Rerank和分类不同类型的疑问，准确率优化至85%。最后，经过prompt工程、引入工具经常使用和查问裁减等方法，将准确率提高到了98%。在整个环节中，他们并没有启动大模型的微调，并强调了处置疑问的关键在于检索系统能够提供正确的高低文消息。

总结

RAG技术经过结合言语模型中的参数化常识和外部常识库中的非参数化数据，清楚优化了大型言语模型（LLMs）的才干，特意是在处置复杂查问和生成详细照应方面。RAG技术阅历了从初级到初级再到模块化的演进，其中初级RAG经过引入查问重写和块从新排序等复杂架构元素，优化了性能和可解释性。RAG与微和谐强化学习等其余AI方法的整合，进一步裁减了其配置。在内容检索方面，驳回结构化和非结构化数据源的混合方法正成为趋向。RAG的运行范围正在裁减到多模态数据，如图像、视频和代码，突出了其在AI部署方面的实践意义。

RAG生态系统的增长表如今以RAG为中心的AI运行的参与和支持工具的开展。随着RAG运行畛域的扩张，提炼评价方法以跟上其退化变得迫切必要，确保性能评价的准确性和代表性关于充沛捕捉RAG在AI钻研和开发中的奉献至关关键。

原文链接:

<<Multi 从工程师视角看

Preparedness团队首席Aleksander Madry OpenAI 机器学习模型的外部计算如何将输入转化为预测>>