卡内基梅隆大学最新RAG综述 15种典型RAG框架

2024-11-14

1. 引言

1.1 检索增强生成（RAG）概览

RAG（Retrieval-Augmented Generation）融合了两大外围组件：

-（i）检索模块，担任从外部常识库中检索相关文档或消息，应用 密集向量 示意从大型数据集，如维基百科或私有数据库中识别相关文档。

-（ii）生成模块，担任处置这些消息，产出相似人类言语的文本，检索到的文档随后被送至生成模块，该模块通常基于 transformer 架构构建。

RAG有助于 缩小生成内容的“幻觉”现象 ，确保文本更具理想性和高低文适宜性。RAG已宽泛运行于多个畛域，包含:

• 开明畛域问答

• 对话智能体

• 共性化介绍。

1.2 混合检索和生成的新系统

在RAG发生之前，人造言语处置（NLP）关键依赖于检索或生成方法。

• 基于检索的系统：例如传统的消息检索引擎，能够高效地依据查问提供相关文档或片段，但不可分解新消息或以连接的叙说方式出现结果。

• 基于生成的系统：随着 transformer 架构的兴起，纯生成模型以其流利性和发明力遭到欢迎，却经常无理想准确性上有所短少。

这两种方法的互补性，使得大家开局尝试检索和生成的混合系统。最早的混合系统可以追溯到DrQA，经常使用检索技术来失掉问答义务的相关文档。

1.3 RAG 的局限性

• 在面对含糊查问或特定常识畛域的检索时，仍或者发生失误。依赖于如DPR（Dense Passage Retrieval）所经常使用的密集向量示意，有时也会检索出不相关或偏离主题的文档。因此，须要经过引入更精细的查问裁减和高低文消歧技术来优化检索技术的精准度。实践上，检索与生成的结合应该是浑然一体的，但在实践操作中，生成模块有时难以将检索到的消息有效整合进回应中，造成检索理想与生成文本间的不分歧或不连接。

• 计算老本也是一个备受关注的点，由于须要对每个查问口头检索和生成两个步骤，这关于大规模运行尤其资源密集。模型剪枝或常识蒸馏等技术或者有助于在不就义功能的前提降低低计算累赘。

• 伦理疑问，尤其是成见和透明度疑问。AI和LLM中的成见是一个宽泛钻研且始终演化的畛域，钻研者们识别出包含性别、社会经济阶级、教育背景在内的多种成见类型。虽然RAG经过检索更平衡的消息有后劲缩小成见，但仍存在加大检索起源成见的危险。而且，确保检索结果在选用和经常使用环节中的透明度，关于保养这些系统的信赖至关关键。

2. RAG系统的外围构件与架构概览

2.1 RAG模型概览

RAG模型包含两个外围组件：

• 检索器：应用密集段落检索（DPR）或传统BM25算法等技术，从语料库中检索最相关的文档。

• 生成器：将检索到的文档整分解连接、高低文相关的回答。

RAG的强项在于其能够灵活应用外部常识，在功能上逾越了依赖 静态数据集 的生成模型如GPT-3。

2.2 RAG系统中的检索器

BM25是一种经常使用较广的消息检索算法，应用词频-逆文档频率（TF-IDF）来依据相关性对文档启动排序。虽然是一种经典方法，依然是许多现代检索系统，包含RAG模型中经常使用的系统的一个规范算法。

BM25依据查问词在文档中的发生频率来计算文档的相关性得分，同时思索文档长度和词在整个语料库中的频率。虽然BM25在关键词婚配方面体现杰出，但它无了解语义含意上存在局限。例如， BM25不可捕捉词与词之间的相关 ，并且在处置须要高低文了解的复杂人造言语查问时体现不佳。

然而，BM25因便捷高效而被宽泛驳回。适用于基于关键词的便捷查问义务，虽然像DPR这样的现代检索模型在处置语义复杂的义务时往往功能更好。

2.2.2 密集段落检索（DPR）

密集段落检索（Dense Passage Retrieval，DPR）是一种新的消息检索方法。经常使用一个高维向量空间，查问和文档都被编码成高维向量。

驳回 双编码器架构 ，区分对查问和文档启动编码，从而成功高效的最近邻搜查。

与BM25不同，DPR在捕捉查问和文档之间的 语义相似性方面体现杰出 ，使其在开明域问答义务中极为有效。

DPR的长处在于其能够 依据语义含意而非关键词婚配来检索相关消息 。经过在少量问答对语料库上训练检索器，DPR能够找到与查问高低文相关的文档，哪怕查问和文档没有经常使用齐全相反的词汇。最新的钻研经过将DPR与预训练言语模型结合，进一步优化了DPR。

2.2.3 REALM（Retrieval-Augmented Language Model）

REALM将检索环节融入言语模型的预训练，确保检索器与生成器协同优化，以顺应后续义务。

REALM的翻新之处在于：能够学习检索出能够优化模型在特定义务上体现的文档，比如问答或文档摘要。

训练环节中， REALM对检索器和生成器启动同步降级 ，优化检索流程以更好地服务于文本生成义务。

REALM的检索器被训练为能够识别出 既与查问相关又有助于生成准确、连接回答的文档 。因此，REALM清楚优化了生成回答的质量，尤其是在须要依赖外部常识的那些义务上。

最新钻研显示，在某些常识密集型义务中， REALM逾越了BM25和DPR ，特意是在检索与生成严密结合的状况下。

RAG的 精髓在于检索段落的质量 ，但许多现有方法依赖于基于相似性的检索（Mallen等，2022）。

Self-RAG和REPLUG经过应用大型言语模型（LLM）增强检索才干，成功了更灵敏的检索。

首次检索后，交叉编码器模型经过联结编码查问和检索文档来从新排序结果，计算相关性得分。这些模型虽然提供了更丰盛的高低文感知检索，但计算老本较高。

RAG系统应用LLM中的自留意力机制来治理输入和检索文本各局部的高低文和相关性。在将检索消息整合到生成模型时，驳回交叉留意力机制，以确保在生成环节中突出最相关的消息片段。

2.3 RAG系统中的生成器

在 RAG 中，生成器是将检索到的消息与输入查问融合，生成最终输入的关键环节。

一旦检索组件从外部资源中提取出相关常识，生成器便会将这些消息编织成连接、合乎高低文的回应。大型言语模型（LLM）构成了生成器的外围，确保生成的文本流利、准确，并与原始查问坚持分歧。

T5（(Text-to-Text Transfer Transformer）是RAG系统中用于生成义务的罕用模型之一。

T5的灵敏性体如今其将一切NLP义务视为文本到文本的义务。这种一致的框架使得T5能够针对宽泛的义务启动微调，包含问答、摘要和对话生成。

经过整合检索与生成，基于T5的RAG模型在多个基准测试中逾越了传统生成模型，如GPT-3和BART，特意是在Natural Questions数据集和TriviaQA数据集上。

此外，T5在处置复杂多义务学习方面的才干，使其成为须要应答多样化常识密集型义务的RAG系统的首选。

BART（Bidirectional and Auto-Regressive Transformer）特意适宜处置从喧闹输入中生成文本的义务，例如摘要和开明域问答。

作为一种去噪自编码器，BART能够重建损坏的文本序列，使其在须要从不完整或喧闹数据中生成连接、理想性输入的义务中体现杰出。

当与RAG系统中的检索器结合时，BART已被证实能够经过外部常识提高生成文本的理想准确性。

3. 跨模态的检索增强型生成模型

3.1 基于文本的RAG模型

基于文本的RAG模型是目前最为成熟且宽泛钻研的类型。

附丽文本数据，口头检索与生成义务，推进了问答、摘要和对话智能体等运行的开展。

BERT和T5等Transformer架构构成了文本RAG模型的基石，运用自留意力机制来捕捉文本内的高低文咨询，从而优化检索的准确度和生成的流利度。

3.2 基于音频的RAG模型

基于音频的RAG模型将检索增强型生成的理念拓展至音频畛域，为语音识别、音频摘要和语音界面中的对话智能体等运行开拓了新天地。音频数据常经过Wav2Vec 2.0等预训练模型衍生的嵌入示意来出现。这些嵌入作为检索和生成组件的输入，使得模型能够有效地处置音频数据。

3.3 基于视频的RAG模型

基于视频的RAG模型融合视觉与文本消息，增强了视频了解、字幕生成和检索等义务的体现。视频数据经过 I3D TimeSformer 等模型的嵌入示意来出现。这些嵌入捕捉了时期与空间特色，关于有效的检索和生成至关关键。

3.4 多模态RAG模型

多模态RAG模型融合了文本、音频、视频和图像等多种模态的数据，为检索和生成义务提供了一种更片面的方法。

例如Flamingo这样的模型将不同模态整合进一个一致的框架内，成功了文本、图像和视频的同时处置。跨模态检索技术触及在不同模态间检索相关消息。

“检索即生成（Retrieval as generation）”经过结合文本到图像和图像到文本的检索，将检索增强型生成（RAG）框架裁减到了多模态运行。应用大规模的配对图像和文本形容数据集，在用户查问与存储的文本形容相婚配时，能够极速生成图像（“检索即生成”）。

4. 现有RAG框架一览

基于智能体的RAG

一种新的智能体检索增强型生成（RAG）框架驳回了分层的多智能体结构，子智能体经常使用小型预训练言语模型（SLMs）针对特定的时期序列义务启动微调。主智能体将义务调配给这些子智能体，从共享常识库中检索相关揭示。这种模块化多智能体方法成功了较高的功能，展现了在时期序列剖析中相较于特定义务方法的灵敏性和效率。

RULE是一个多模态RAG框架，旨在优化医学视觉-言语模型（Med-LVLM）的理想准确性，经过引入校准选用战略控制理想危险，并开发偏好优化战略平衡模型外在常识与检索高低文，证实了其在优化Med-LVLM系统理想准确性方面的有效性。

METRAG，一个多档次、思想增强（thoughts enhanced）的检索增强型生成框架，结合文档相似性和适用性来优化功能。包含一个义务自顺应摘要器，以发生蒸馏后内容摘要。应用这些阶段的屡次思索，LLM生成常识增强内容，在常识密集型义务上与传统方法相比展现出更优越的功能。

RAFT（Retrieval Augmented Fine-Tuning）

FILCO旨在优化生成模型在开明域问答和理想验证等义务中提供的高低文质量，处置对检索段落适度或无余依赖的疑问，或者造成生成输入中的幻觉疑问。该方法经过词汇和消息论方法识别有用的高低文，并经过训练高低文过滤模型在测试时期提炼检索高低文，提高了高低文质量。

反思标志是自反思检索增强型生成（Self-RAG）（Asai等，2023）的关键属性，经过结合检索与自反思来提矮小型言语模型（LLMs）的理想准确性。与传统方法不同，Self-RAG自顺应地检索相关段落，并经常使用反思标志评价和提炼其照应，准许模型依据特定义务需求调整行为，并在开明域问答、推理、理想验证和长篇生成义务中体现出优越功能。RAG的智能性和有效性在很大水平上取决于检索质量，对常识库的更多元数据了解将增强RAG系统的有效性。

一种以数据为中心的检索增强型生成（RAG）上班流程，逾越了传统的检索-阅读形式，驳回了预备-重写-检索-阅读框架，经过整合高低文相关、时期关键或特定畛域的消息来增强LLMs。其翻新点包含生成元数据、分解疑问和答案（QA），并引入文档集群的元常识摘要（MK摘要）。

CommunityKG-RAG

CommunityKG-RAG是一个零样本框架，将常识图谱（KGs）中的社区结构整合到检索增强型生成（RAG）系统中。经过应用KGs中的多跳衔接，提高了理想审核的准确性和高低文相关性，逾越了不须要额外畛域特定训练的传统方法。

RAPTOR引入了一种档次化方法来增强检索增强型言语模型，处置了传统方法只检索短的、延续文本块的限度。RAPTOR经过递归嵌入、聚类和总结文本，构成摘要树以在不同形象级别检索消息。试验标明RAPTOR在须要复杂推理的问答义务中体现出优越功能。当与GPT-4配对时，RAPTOR在QuALITY基准测试中的准确性提高了20%。

4.1 基于长高低文的RAG框架

近期推出的支持常年高低文的大型言语模型（LLMs），如Gemini-1.5和GPT-4，清楚优化了RAG功能。

Self-Route

Self-Route 经过模型自省灵活调配查问至RAG或LC，从而优化计算老本与功能。为RAG和LC在处置常年高低文义务时的最佳运行提供了深入见地。

SFR-RAG是一个小巧而高效的RAG模型，旨在增强LLMs对外部高低文消息的整合，同时缩小幻觉现象。

LA-RAG是一种新型RAG范式，旨在优化LLMs中的智能语音识别（ASR）才干。亮点在于其能够应用细粒度的标志级语音数据存储和语音到语音的检索机制，经过LLM的高低文学习提高ASR的准确度。

LLMs在AI法律和政策背景下因常识过期和幻觉而面临应战。HyPA-RAG是一个混合参数自顺应检索增强型生成系统，经过自顺应参数调整和混合检索战略提高了准确度。在NYC Local Law 144的测试中，HyPA-RAG展现了更高的正确性和高低文精度，有效应答了法律文本的复杂性。

MemoRAG引入了一种新型RAG范式，克制传统RAG系统在处置含糊或非结构化常识时的局限。MemoRAG的双系统架构应用轻量级长距离LLM生成草稿答案并指点检索工具，而更弱小的LLM则担任完善最终输入。这一框架针对更好的线索提取和记忆容量启动了优化，在复杂和便捷的义务中都清楚逾越了传统RAG模型。

NLLB-E5推出了一个可裁减的多言语检索模型，处置支持多言语，尤其是像印度语这样的低资源言语所面临的应战。借助NLLB编码器和E5多言语检索器的蒸馏方法，NLLB-E5能够成功跨言语的零样本检索，无需多言语训练数据。在Hindi-BEIR等基准测试上的评价显示了其弱小的功能，突显了义务特定的应战，并推进了世界容纳性的多言语消息失掉。

5. RAG的应战与局限性

• 裁减性与效率 ：RAG的一大应战在于其裁减性。鉴于检索组件依赖外部数据库，应答宏大且日增的数据集须要高效的检索算法。高昂的计算和内存需求也使得RAG模型难以在实时或资源受限的环境中部署。

• 检索质量与相关性 ：保障检索文档的质量和相关性是一个关键议题。检索模型有时或者前往有关或过期的消息，这会降低生成内容的准确性。特意是在长篇内容生成方面，优化检索准确度仍是钻研的热点。

• 成见与公正性 ：与其它机器学习模型一样，RAG系统或者因检索数据集中的成见而体现出成见。基于检索的模型或者会加大检索常识中的有害成见，造成生成的输入带有成见。开发用于检索和生成的成见缓解技术是一个继续的应战。

• 连接性 ：RAG模型常在将检索到的常识融入连接、与高低文相关联的文本中遇到难题。检索到的内容与生成模型输入之间的衔接并不总是完美，或者会造成最终回答中发生不分歧或理想性幻觉。

• 可解释性与透明度 ：与泛滥AI系统相似，RAG模型往往被视作不透明的黑箱操作

6. 未来方向

6.1 强化多模态融合

在RAG模型中整合文本、图像、音频和视频数据，需着眼于优化多模态融合技术，成功不同数据类型间的无缝交互，包含：

• 研发更先进的方法来对齐和分解跨模态消息。

• 须要更多翻新来增强多模态输入的连接性和情境顺应性。

• 优化RAG系统跨不同模态检索相关消息的才干。例如，结合基于文本的查问与图像或视频内容检索，可以增强视觉问答和多媒体搜查等运行。

6.2 裁减性与效率

随着RAG模型在更宽泛的大规模运行中部署，其裁减性变得至关关键。钻研应聚焦于开发高效裁减检索和生成环节的方法，同时不就义功能。散布式计算和高效索引技术关于处置宏大数据集至关关键。优化RAG模型的效率须要优化检索和生成组件，以缩小计算资源和提前。

6.3 共性化与顺应性

未来的RAG模型应专一于依据集体用户的偏好和情境共性化检索环节。这包含开发基于用户历史、行为和偏好调整检索战略的技术。经过深化了解查问和文档库的高低文和情感，增强RAG模型的高低文顺应性，关于优化生成照应的相关性至关关键。钻研应探求基于互动高低文的灵活调整检索和生成环节的方法，包含将用户反应和高低文线索整合到RAG流程中。

6.4 伦理与隐衷考量

处置成见是未来钻研的关键畛域，尤其是针对RAG模型的成见。随着RAG系统在多样化运行中的部署，确保偏心性并缩小检索和生成内容中的成见至关关键。未来的RAG钻研应聚焦于 包全隐衷 的技术，以在检索和生成环节中包全敏感消息。包含开发安保数据处置方法和隐衷看法的检索战略。模型的可解释性也是继续改良RAG钻研的一个关键畛域。

6.5 跨言语及低资源言语支持

拓展RAG技术以支持多言语，尤其是资源匮乏的言语，是一个充溢宿愿的开展方向。

努力于优化跨言语检索与生成才干，确保在不同言语中都能提供准确且相关的结果。优化RAG模型对低资源言语的有效支持，须要开发在有限训练数据下启动内容检索与生成的方法。钻研应聚焦于转移学习与数据增强技术，以提高在边缘言语中的体现。

6.6 初级检索机制

未来RAG钻研应探求能够顺应变动查问形式和内容需求的灵活检索机制。包含构建能够依据新消息和用户需求演进而灵活调整检索战略的模型。

钻研混合检索方法，结合密集检索与稠密检索等不同战略，有望优化RAG系统的效果。钻研应着眼于如何整合多样化的检索方式，以顺应各种义务并到达最佳功能。

6.7 与新兴技术的融合

将RAG模型与脑机接口（BCIs）相结合，或者在人机交互和辅佐技术畛域开拓新的运行。钻研应讨论RAG系统如何应用BCI数据来优化用户体验和生成具备高低文感知的照应。RAG与增强理想（AR）和虚构理想（VR）技术的结合，为发明沉迷式互动体验提供了机会。未来的钻研招考查RAG模型如何被用于增强AR和VR运行，经过提供高低文相关的消息和交互，优化用户体验。

本文转载自，作者：

<<智能化

TextIn 优化RAG功能必备一款低劣的文档解析神器>>