LLM4CS 一种应用LLM优化多轮会话检索的效果的打算

2024-11-15

大家好，我是HxShine

当蠢才享一篇人大的文章，大型言语模型知道您的会话高低文搜查用意（Large Language Models Know Your Contextual Search Intent: A Prompting Framework for Conversational Search）。

在会话型搜查中，由于会话型搜查场景的多样性和长尾特性，精准地理解用户的高低文搜查用意不时是一个关键应战。现有的基于有限数据训练的方法在处置实在会话型搜查场景时，依然体现出无余的有效性和鲁棒性。

本文提出了一个便捷却高效的框架，称之为LLM4CS，其让LLMs作为基于文本的搜查用意解释器，以协助会话型搜查。便捷来说，LLM4CS驳回了三个步骤来做这件事件：1）多轮疑问重写：联合高低文将句子改写成语义完整的句子。2）回复活成：应用LLM生成回复，同时联合回复消息可以辅佐提高检索效果。3）语义消息聚合：尝试了不同的语义消息聚合方法优化检索效果。在包括CAsT-19、CAsT-20和CAsT-21在内的三个宽泛经常使用的会话型搜查基准上启动的宽泛智能评价和人工评价，都展现出了清楚的功能。

•Title:Large Language Models Know Your Contextual Search Intent: A Prompting Framework for Conversational Search

•URL:

•Authors:Kelong Mao, Zhicheng Dou, Fengran Mo, Jiewen Hou, Haonan Chen, Hongjin Qian

•Code:

1 Motivation

•多轮会话环节中，用户用意在不同会话轮次的环节中随时会出现变动，这给对话环节中的常识检索参与了难度。

•这篇论文试图处置对话式搜查中用户高低文搜查用意的准确了解疑问。由于对话式搜查场景的多样性和长尾特性，基于有限数据训练的现有方法在处置实践对话式搜查场景时，效果和持重性仍不尽人意。

•大型言语模型在文本生成和对话了解方面展现出了惊人的才干，如何将LLM关系才干引入会话型搜查中，提高会话型搜查的效果还有待探求。

该方法便捷来说分为三步：

1）改写：应用LLM了解才干比拟强的特点，对多轮对话的疑问启动改写，将语义改写成完整的语义。

2）回复活成：间接应用LLM生成回复，该回复或者蕴含与检索结果关系的content，从而可以辅佐优化检索效果。

3）集成：驳回多种方法对改写的emb和回复的emb启动融合，生成最终的搜查用意查问向量，优化最终查问效果。

整个框架的目的是将用户的会话查问转换为可以用于检索的搜查用动向量，而后经常使用这个向量去检索关系文档。经过这种模式，LLM4CS 框架能够处置会话搜查中的多样性和长尾性疑问，提高搜查功能和鲁棒性。

1 Context & Question: 示意会话轮次的用户查问（query）和对话高低文（context）。高低文包括之前轮次的用户查问和系统照应。

2 Search Intent Interpreter (LLM): 这一步对用户疑问启动重写，并生成假定性的回复。

•REW (Rewriting): 重写，LLM 生成一个或多个重写的查问。

•RTR (Rewriting-Then-Response): 先重写再照应，LLM 先生成重写的查问，而后基于这些重写生成假定性照应。

•RAR (Rewriting-And-Response): 重写和照应，LLM 同时生成重写和照应。

3 Query Encoder: 这是用于将用户查问转换为向量的编码器。

4 Aggregation: 聚合，将生成的多个重写和照应聚分解一个集成示意，这里探求多种模式对改写的结果以及回复的结果启动聚合，以持重地示意用户的实在搜查用意。

•MaxProb: 最大略率，选用生成概率最高的重写和照应作为最终检索的向量。

•SC (Self-Consistency): 自洽性，选用与一切用动向量聚类中心最相似的用动向量作为最终检索的向量。

•Mean: 平均值，将一切重写向量和相应的假定性照应向量取平均作为最终检索向量。

5 向量召回：用动向量和passage向量点积

•Search Intent Vector: 聚合后的搜查用动向量，用于示意用户的搜查用意。

•Passage Vectors (Offline Encoded): 预先编码的段落向量，即文档库中的各个段落。

2.1 改写的揭示词：Instruction和Demonstration解析

说明：

Instruction：说明多轮query rewrite和response生成的指令。

Demonstration：给出关系示例，并在示例中引入CoT思索环节。

2.2 改写输入和结果说明

说明：

Input：输入蕴含轮疑问以及历史多轮对话疑问和回复的高低文消息（Context），并给出CoT思索模版。

Model Output：输入结果，蕴含改写结果Rewrite和回复结果Response两个局部，这两局部对后续搜查效果优化有比拟大的作用。

3 Conclusion

• LLM4CS揭示框架能够经常使用LLMs来准确了解和示意用户的高低文搜查用意。经过经常使用揭示框架可以清楚改善会话搜查结果的品质。

二、详细内容

1 试验结果

试验说明：

1.Human：示意经常使用人类生成的改写结果来查问。

2.RI-H：示意与人类改写（Human）相比的相对改良百分比。假设这个百分比是正数，象征着 LLM4CS 的功能超越了人类重写；假设是正数，则示意低于人类重写。

3.RI-2nd-Best：示意与第二名的最佳结果相比的相对改良百分比。这提供了 LLM4CS 框架与现有最先进方法相比的功能优化状况。

论断：LLM4CS 在少数状况下都取得了最佳或凑近最佳的功能，尤其是在 CAsT-20 和 CAsT-21 数据集上，它在一切目的上均优于或凑近人类重写的功能。

2 LLM4CS在多轮疑问重写上效果清楚优于T5QR方法

论断：在多轮疑问重写上，LLM4CS 生成的查问重写品质高，无论是在与人类重写的相似性还是在传播用意的准确性方面。在大局部状况下，它重写结果要么与人类重写十分凑近（Good-H），要么只管表白不同但依然准确（Good-A）。

说明：

•Good-H：模型的重写与人类重写简直相反。

•Good-A：模型的重写只管与人类重写表白不同，但成功传播了用户的搜查用意。

•Bad-O：重写遗漏了关键的高低文消息或存在其余类型的失误。

•Bad-C：重写中存在指代表白失误。

3 消融试验

3.1 不同聚合方法以及不同改写战略的影响

试验设置：

1.三种揭示方法：REW（仅重写）、RTR（重写后照应）、RAR（重写和照应一同生成）。

2.三种聚合方法：MaxProb（经常使用最高概率的输入）、SC（自洽性）、Mean（平均值）。

论断：

1.在少数状况下，RAR 揭示方法联合 Mean 聚合方法效果最好，这标明同时生成重写和照应，并经过一切生成内容的平均值获取的消息聚合，关于提高搜查效果有协助。

2.MaxProb 方法理论不是最佳选用，这标明依赖繁多最高概率输入或者不如思索多个输入的综合效果好。

3.SC 方法在某些状况下体现不错，但在其余状况下或者不如 Mean 方法，这标明选用与一切用动向量聚类中心最相似的用动向量是一个有用的战略，但或者须要依据详细状况启动选用。

3.2 CoT对全体功能的影响

论断：

1.CoT在各种战略上都有不错的优化：标明CoT能有效地疏导大型言语模型更准确地理解用户的搜查用意。

2.在REW上CoT揭示方法带来的优化比拟大：或者象征着在没有额外的假定性照应的状况下，CoT 提供的推理步骤关于指点查问重写更为关键。

3.在RTR 和 RAR 上CoT揭示方法带来的优化没有那么大：对或者是由于在 RTR 和 RAR 方法中，多个假定性照应自身曾经增强了最终搜查用意的示意，从而缩小了 CoT 对功能优化的影响。

三、总结：LLM4CS框架在会话型搜查中展现出十分清楚的功能

本文展现了大型言语模型无了解和解释会话搜查中用户高低文用意方面的弱小后劲。经过LLM4CS框架的运行，对多轮查问启动重写并生成假定性照应，而且经过集成示意的方法，增强了模型对用户实在搜查用意的持重了解才干。本文在多个会话型搜查基准上启动的评价，结果展现了LLM4CS框架的长处，这为驳回大型言语模型优化会话型搜查提供了有力证据。面对会话型搜查的复杂性和多样性，本钻研的成绩标记着咱们朝着愈加了解用户搜查用意，进一步运行LLMs在会话型搜查中走出了关键一步。

本文转载自，作者：

<<基于Llama 经常使用人造言语启动SQL查问 3和LangChain

Informer 超强！一区间接写！基于SSA>>