应用TopK文档启动查问改写准确率 QOQA 平均优化RAG 1.6%

2024-11-15

1. 背景

大型言语模型（LLMs）在泛滥言语义务中展现出十分不错的效果，但是，LLMs中的幻觉现象正极大地削弱它们的可信度和适用性。一种处置大言语模型幻觉的方法是检索增强生成（RAG），经过检索文档来提供基于检索到文档中的理想消息的更准确的用户查问回答。

但是，RAG并未齐全根除幻觉，这样因此激起少量钻研来提高RAG的准确性。一个不完善的RAG系统，经常由于含糊不清的查问而引发误导，造成没能准确捕捉到用户的实在用意。

最新有钻研标明，经常使用LLMs对用户查问启动裁减可以优化相关文档的检索效果。 查问裁减是指在原始查问中添加更多相关术语，使得用户的查问更易与相关文档相连 。查问裁减重要分为两大类：

• 基于检索器的方法经过应用检索结果来拓展查问

• 基于生成的办规律是借助大型言语模型（LLMs）等内部数据来丰盛查问内容

其中：

• 伪相关反应（Pseudo Relevance Feedback，PRF）经过智能依据排名靠前的文档调整初始查问，进一步优化搜查结果，无需用户明白输入。PRF经过假如顶部结果的相关性，增强了查问，从而优化了后续检索的准确度。

• Query2Doc 钻研显示，将LLM生成的内容融合到查问中，其效果清楚优于传统的检索技术。但这种方法也存在危险，或许会引入不准确消息，与指标文档的婚配度不高，并且容易遭到LLM幻觉的影响。

• 基于检索的办规律经过引入相关术语或短语，增强了搜查查问的实效性，使查问愈加丰盛和精准。

•CSQE应用LLM从检索到的文档中提取关键句子启动查问裁减，生成顺应义务的查问，虽然这有时会使得查问变得过长。当将CSQE裁减的查问与BM25评价的结果以及经过交叉编码器从BEIR从新排名的结果启动比拟时，发现功能优化并不清楚。

为了处置以上疑问，本文作者提出了一种准确查问优化方法（ueryptimization usinguery expnsion，QOQA），应用前k个平均查问-文档对齐得分，借助LLMs来精炼查问。这种方法既计算效率高，又能优化文档检索的准确性，缩小误导。在试验中，这种方法能够以平均1.6%的优化率，准确提取所需文档。

2. 什么是 QOQA？

2.1 借助大型言语模型（LLM）优化查问

为了优化查问质量，驳回大型言语模型（LLM）依据得分对查问启动改写裁减。

首先，输入原始查问，并经过检索器失掉相关文档。而后，将原始查问与检索到的顶级文档兼并，构成裁减查问，并提交给LLM以发生一系列从新表述的查问。

经过改写的查问将依据其与检索文档的符合度启动评价，相应的查问-文档对齐得分及其查问文本将被存入查问池。

上图展现了揭示词模板，将揭示模板降级为蕴含原始查问、检索文档以及排名靠前的查问改写。为确保功能逾越原始查问，一直在模板中融入原始查问消息。在后续的优化过程，会依据得分生成一个经过优化的查问，并将其添加到查问池中。

上图中，彩色文字是对义务形容的揭示词。蓝色文字是原始查问以及与之相关的顶级检索文档。紫色文字是由LLM优化器生成的改写后查问及其评分。

2.2 查问-文档对齐得分计算

2.1 中提到了一个查问-文档对齐得分，该得分触及三个得分：

• 基于稠密检索的BM25分数

• 基于密集检索的密集分数

• 融合了稠密与密集检索的混合分数

混合分数如下图公式：

3. 效果对比

上表比拟了不同文档检索模型在SciFact、Trec-Covid和FiQA数据集上的体现。在密集检索方面，增强模型（QOQA变体）显示出优越的功能。

特意地，QOQA（基于BM25评分）在SciFact数据集上以75.4分的优秀效果上游，在Trec-Covid数据集上以79.2分的混合评分证实了其弱小的功能。QOQA在多个数据集上分歧的功能优化，凸显了其在优化检索效率方面的清楚效果。

如上表，由QOQA生成的改写查问相较于原始查问，在准确度和详细性上更胜一筹。

QOQA方法发生的查问能够精准地蕴含“纳米”或“分子证据”等关键词汇，从而有效抓取最为贴切的文档。这种对关键词的精准把控确保了改写查问与答案文档在词汇上的更高重合度。因此，借助QOQA优化的查问在检索蕴含正确答案的文档时显示出了清楚的效果。

上表中可以看出，优化步骤关于搜查更佳的改写查问起到了促成作用。

缺少了裁减局部，全体功能尤其以BM25分数为规范，会有清楚的降低。

证实裁减局部在塑造高质量改写查问和优化文档检索效率方面施展了无法或缺的作用。

本文转载自，作者：

<<Arctic

阿里RAG新框架R4 增强检索器>>

应用TopK文档启动查问改写 准确率 QOQA 平均优化RAG 1.6%