评价RAG系统组件的终极指南

2024-11-15

RAG系统蕴含两个外围组件：检索器和生成器，本文将引见如何评价这两个组件。

检索增强型生成（RAG）系统被设计用来优化大型言语模型（LLM）的照应品质。当用户提交查问时，RAG系统从向量数据库中提取关系消息，并将其作为场景传递给LLM。而后，LLM经常使用这个场景为用户生成照应。这一环节清楚提高了LLM反响的品质，缩小了“幻觉”。

图1 RAG系统上班流程

在图1的上班流程中，RAG系统中有两个关键组件：

任何RAG系统的有效性和功能在很大水平上取决于这两个外围组件：检索器和生成器。检索器必定有效地识别和检索最关系的文档，而生成器应该经常使用检索到的消息生成连接、关系和准确的照应。在部署之前，对这些组件启动严厉的评价关于确保RAG模型的最佳功能和牢靠性至关关键。

一、评价RAG

为了评价RAG系统，通经常常使用两种评价方法：

与传统的机器学习技术不同，RAG系统的评价更为复杂，具备明白的定量目的（例如基尼系数、R平方、AIC、BIC、混杂矩阵等）。发生这种复杂性是由于RAG系统生成的照应是非结构化文本，须要定性和定量目的的联合来准确评价它们的功能。

TRIAD框架

为了有效地评价RAG系统，通常遵照TRIAD框架。该框架由三个关键局部组成：

图2 RAG TRIAD

二、检索评价

检索评价运行于RAG系统的检索组件，该系统通经常常使用向量数据库。这些评价权衡检索器在响运行户查问时识别关系文档并对其启动排序的有效性。检索评价的关键目的是评价场景关系性，即检索到的文档与用户查问的分歧水平。它确保提供应生成组件的场景是关系的和准确的。

图3 场景关系性

每个目的都对检索到的文档的品质提供了共同的视角，并有助于对场景关系性的片面了解。

准确率

准确率权衡检索到的文档的准确性。它是检索到的关系文档的数量与检索到的文档总数的比率。其定义是：

图4 准确率公式

这象征着准确率评价系统检索的文档中有多少实践上与用户的查问关系。例如，假设检索器检索10个文档，其中7个是关系的，则准确率为0.7或70%。

准确率评价的是，“在系统检索的一切文档中，有多少是实践关系的?”

当出现不关系的消息或者发生负面结果时，准确性尤为关键。例如，医疗消息检索系统的高精度是至关关键的，由于提供有关的医疗文件或者会造成失误消息和潜在的有害结果。

召回率

召回率权衡检索文档的片面性。它是针对给定查问检索到的关系文档的数量与数据库中关系文档的总数之比。其定义是：

图5 召回率公式

这象征着召回率评价系统成功检索到数据库中存在的关系文档的数量。

召回率评价的是，“在数据库中存在的一切关系文档中，系统设法检索了多少个?”

在错过关系消息或者代价高昂的状况下，召回率至关关键。例如，在法律消息检索系统中，召回率高至关关键，由于未能检索到关系法律文件或者会造成案例钻研不完整，并或者影响法律诉讼的结果。

准确率和召回率之间的平衡

准确率和召回率的平衡通常是必要的，由于提高其中一个有时会降落另一个目的。目的是找到适宜运行程序特定需求的最佳平衡。这种平衡有时用F1评分来量化，这是准确率和召回率的和谐平均值：

图6 F1评分公式

平均倒数排名(MRR)

平均倒数排名(MRR)是一种经过思考第一个关系文档的排名位置来评价检索系统有效性的度量。当只对第一个关系文件感兴味时，它特意有用。倒数排名是第一个关系文档被找到的排名的倒数。MRR是在多个查问中这些相互排名的平均值。MRR的公式为：

图7 MRR公式

其中Q是查问的数量，是第Q个查问的第一个关系文档的排名位置。

MRR评价的是，“平均而言，响运行户查问检索第一个关系文档的速度有多快?”

例如，在基于RAG的问答系统中，MRR至关关键，由于它反映了系统向用户出现正确答案的速度。假设正确答案出如今列表顶部的频率越高，则MRR值越高，标明检索系统更有效。

平均精度(MAP)

平均精度（MAP）是一个权衡多个查问检索精度的目的。它同时思考了检索的精度和检索文档的顺序。MAP被定义为一组查问的平均精度得分的平均值。为了计算单个查问的平均精度，在检索到的文档排名列表中的每个位置计算精度，仅思考前K个检索到的文件，其中每个精度都依据文件能否关系启动加权。跨多个查问的MAP公式为：

图8 MAP公式

其中(Q)为查问数量，是查问(Q)的平均精度。

MAP评价的是，“平均而言，系统在多个查问中检索到的排名靠前的文档有多准确?”

例如，在基于RAG的搜查引擎中，MAP至关关键，由于它思考了不同级别的检索精度，确保关系文档在搜查结果中出如今更高的位置，从而经过首先出现最关系的消息来增强用户体验。

检索评价综述

三、照应评价

照应评价运行于系统的生成组件。这些评价权衡系统基于检索文档提供的场景生成照应的效率。将照应评价分为两类：

忠实度（具备依据）

忠实度评价生成的照应能否准确、能否基于检索到的文档，它确保反响不蕴含幻觉或不正确的消息。这个目的是至关关键的，由于它将生成的照应追溯到其起源，确保消息基于可验证的基本理想。忠实度有助于防止“幻觉”，即系统发生听起来仿佛正当但实践上不正确的反响。

为了权衡忠实度，罕用的方法有以下几种：

答案关系性

答案关系性权衡生成的照应在多大水平上处置了用户的查问并提供了有用的消息。

（1）BLEU（双语评价替补）

BLEU权衡生成的照应和一组参考照应之间的堆叠，重点关注n元语法（n-gram）的精度。它是经过权衡生成的照应和参考照应之间的n-gram（n个单词的延续序列）的堆叠来计算的。BLEU评分公式为：

图9 BLEU公式

其中(BP)是冗长性处罚，用于处罚过短的回答，(P_n)是n-gram的精度，(w_n)是每个n-gram级别的权重。BLEU从数量上权衡生成的照应与参考照应的婚配水平。

（2）ROUGE（基于召回的Gisting评价钻研）

ROUGE权衡生成照应和参考照应之间n-gram、单词序列和单词对的堆叠，同时思考召回率和准确率。最经常出现的变体ROUGE-N权衡生成照应和参考照应之间n-grams的堆叠。ROUGE-N的公式为：

图10 MAP公式

（3）METEOR(带有显式排序的翻译评价度量)

METEOR思考同义词、词干和词序来评价生成的照应和参考照应之间的相似性。METEOR分数的公式为：

图11 METEOR公式

其中$F_{\text{mean}}$是准确率和召回率的和谐均值，是对不正确的词序和其余失误的处罚。METEOR经过思考同义词和词干，提供了比BLEU或ROUGE更粗疏的评价。

（4）基于嵌入的评价

该方法经常使用词的向量示意(嵌入)来权衡生成照应和参考照应之间的语义相似度。余弦相似度等技术用于比拟嵌入，依据单词的含意而不是它们的准确婚配提供评价。

四、优化RAG系统的揭示和技巧

可以经常使用一些基本揭示和技巧来优化RAG系统：

经常使用从新排序技术

从新排序是优化任何RAG系统功能的最宽泛经常使用的技术。它失掉最后的检索文档集，并依据它们的相似性进一步对最关系的文档启动排序。可以经常使用交叉编码器和基于BERT的从新排序器等技术更准确地评价文档关系性。这确保提供应生成器的文档场景丰盛且高度关系，从而失掉更好的照应。

调整超参数

活期调整块大小、堆叠和顶级检索文档的数量等超参数可以优化检索组件的功能。尝试不同的设置并评价它们对检索品质的影响可以提高RAG系统的全体功能。

嵌入模型

选用适宜的嵌入模型关于优化RAG系统的检索组件至关关键。正确的模型，无论是通用的还是特定畛域的，都可以清楚增强系统准确示意和检索关系消息的才干。经过选用与特定用例相分歧的模型，可以提高相似性搜查的精度和RAG系统的全体功能。在做出选用时，思考模型的训练数据、维度和功能目的等起因。

分块战略

经过为LLM捕捉更多关系消息，定制块大小和堆叠可以清楚地提高RAG系统的功能。例如，LangChain的语义分块基于语义拆分文档，确保每个块在场景上是分歧的。依据文档类型(例如PDF、表格和图像)而变动的自顺应分块战略可以协助保管更适宜场景的消息。

向量数据库在RAG系统中的作用

向量数据库是RAG系统功能的关键组成局部。当用户提交查问时，RAG系统的检索器组件应用向量数据库依据向量相似性找到最关系的文档。这个环节关于为言语模型提供正确的场景以生成准确和关系的照应至关关键。弱小的向量数据库可确保极速准确的检索，间接影响RAG系统的全体有效性和照应性。

论断

开发RAG系统自身并不艰巨，但评价RAG系统关于权衡功能、成功继续改良、与业务目的坚持分歧、平衡老本、确保牢靠性和顺应新方法至关关键。这种片面的评价环节有助于构建强健、高效和以用户为中心的RAG系统。

经过处置这些关键方面的疑问，向量数据库成为高功能RAG系统的基础，使它们能够在有效治理大规模复杂数据的同时提供准确、关系和及时的照应。

原文题目： TheUltimateGuideToEvaluateRAGSystemComponents：WhatYouNeedToKnow ，作者：Usama Jamil

<<常识增强生成才是霸道优化豪华RAG一倍性能 RAG曾经不够了 KAG

一个开源的人造言语处置工具包！ WordLlama 极速轻量级 16MB>>