微软开源GraphRAG 极大加弱小模型问答 推理 摘要

7月3日,微软在官方开源了基于图的RAG(检索增强生成)——GraphRAG。

为了加弱小模型的搜查、问答、摘要、推理等才干,RAG曾经成为GPT-4、Qwen-2、文心一言、讯飞星火、Gemini等国际外出名大模型标配配置。

传统的RAG系统在解决外部数据源时,只是繁难地将文档转换为文本,将其宰割为片段,而后嵌入到向量空间中,使得相似的语义对应相近的位置。

但这种方法在解决须要全局了解的海量数据查问时存在局限,由于它适度依赖部分文本片段的检索,无法捕捉到整个数据集的全貌

所以,微软在RAG基础之上经过“Graph”图的模式,例如,文本中的实体,人物、地点、概念等,构建了超大的常识图谱,协助大模型更好地捕捉文本中的复杂咨询和交互,来增强其生成、检索等才干。

开源地址:

Graph RAG架构繁难引见

Graph RAG的外围是经过两阶段构建基于图谱的文本索引:首先,从源文档中衍生出实体常识图谱;而后,针对一切严密相关的实体群组预生成社区摘要。

所以,Graph RAG的第一步就是将源文档宰割成较小的文本块,这些文本块随后被输入到大模型中以提取关键消息。

在这个环节中,大模型不只有识别文本中的实体,还要识别实体之间的相关,包括它们之间的相互作用和咨询,用来构建一个宏大的实体常识图谱,其中蕴含了数据集中一切关键实体和它们之间的相关。

繁难来说,这个环节就像杀鸡一样,当一整只鸡(数据)拿过去后,咱们就要把它合成成腿、翅膀、胸肉等更粗大的组成部分,同时会关注这些部位之间的相关繁难后续的解决。

接着,Graph RAG经常使用社区检测算法来识别图谱中的模块化社区。这些社区由相关的节点组成,它们之间的咨询比与图中其余部分的咨询更为严密。 经过这种模式,整个图谱被划分为更小、更易于治理的单元,每个单元都代表了数据集中的一个特定主题或概念

在基于图的索引之上,Graph RAG进一步生成社区摘要。这些摘要是对社区内一实际体和相关的总结,它们提供了对数据集中特定部分的上档次了解。

而后要求大模型对每个答案启动打分,分数在0—100之间,得分过低的将被过滤掉,高分则留下。将残余的两边答案依照得分高下排序,逐渐增加至新的上下文窗口中,直至词数限度。

例如,当用户提问“如何启动有效减肥时?”,系统会应用与疑问相关的社区摘要来生成部分答案。这些部分答案随后被汇总并精炼,以构成最终答案。

Graph RAG对大模型的好处

与传统RAG相比,Graph RAG的全局检索才干十分强,所以很长于解决大规模数据集,以下是对大模型的关键协助。

裁减上下文了解才干: 理论大模型受限于其上下文窗口的大小,这限度了它们了解和生成基于长文本的才干。Graph RAG经过构建基于图的索引,将整个文本汇合合成成更小、更易于治理的社区模块,从而裁减了模型的了解和生成才干。

增强全局查问: 传统的RAG方法在解决全局数据的查问时体现不佳,由于依赖于部分文本片段的检索。Graph RAG经过生成社区摘要,使得模型能够从整个数据集中提取相关消息,生成愈加片面和准确的答案。

提高摘要的品质和多样性: Graph RAG方法经过并行生成社区摘要,而后汇总这些摘要来生成最终答案,能协助大模型从不同的角度和社区中提敞开息,从而生成更丰盛的摘要。

优化算力、资源应用率: 在解决大规模文本数据集时,资源的有效应用至关关键。Graph RAG经过模块化解决,缩小了对算力资源的需求。与传统的全文摘要方法相比,Graph RAG在生成高品质摘要的同时,清楚降落了对token的需求。

优化消息检索和生成的协同: Graph RAG方法经过联合检索增强和生成义务,成功了两者之间的协同上班,提高了生成内容的准确性和相关性。

增强了对数据集结构的了解: 经过构建常识图谱和社区结构,Graph RAG不只协助模型了解文本内容,还能了解数据集的外在结构。

提高对复杂疑问的解决才干: 在解决须要多步骤推理或多文档消息整合的复杂疑问时,Graph RAG能够经过检索和摘要不同社区的消息,优化对疑问更深档次的了解。尤其是在解读PDF、Word等文档时十分有用。

为了评价Graph RAG的性能,微软在一个100万tokens、超复杂结构的数据集上,蕴含文娱、播客、商业、体育、技术、医疗等外容,启动了综合测试。

结果显示, 全局检索方法在片面性和多样性测试上,逾越了Naive RAG等方法 。特意是,Graph RAG方法在播客转录和资讯文章数据集上都显示出了超高的水准,多样性也十分片面,是目前最佳的RAG方法之一。

同时Graph RAG对tokens的需求很低,也就是说可以协助开发者节俭少量老本。

原文链接:​ ​​ ​

您可能还会对下面的文章感兴趣: