GraphRAG的退化版 LightRAG开源了！笨重弱小

2024-11-15

Hi，这里是Aitrainee，欢迎阅读本期新文章。

咱们以前引见了HybridRAG、GraphRAG这些，当天咱们将引见一个崭新的RAG名目：。

现有的RAG系统老是搞不清复杂相关，答案经常被切碎，不足高低文，难以真歪了解疑问。而LightRAG就是来处置这些疑问的，它把图结构引入文本索引和检索，驳回 双层检索系统 ，从低到高片面笼罩消息。更酷的是，它还能极速降级数据，坚持实时高效的照应，而且它曾经开源了哦！

并且你如今可以经过便捷的API调用来成功多种检索形式，包含本地、全局和混合检索。

LightRAG 的上班流程分为三个外围部分：

1. 图基文本索引（Graph-Based Text Indexing）

2. 双层检索范式（Dual-Level Retrieval Paradigm）

3. 增量常识库的极速顺应

一、图基文本索引

步骤 1：实体和相关提取

• 经常使用大型言语模型（LLM）剖析文档，智能识别出文本中的实体（如人名、地点、组织等）及其相关（如“属于”或“位于”）。

• 文本被宰割成多个较小的块（chunks）来优化处置效率。

步骤 2：LLM Profiling 生成键值对

• 对每个识别出的实体和相关，LLM 生成键值对（Key-Value Pair）。其中，“键”（Key）是一个或多个关键词，而“值”（Value）是与这些实体或相关相关的文本段落。

步骤 3：去重优化

• 兼并不同文档中的重复实体和相关，缩小不用要的计算，优化处置速度。

二、双层检索范式

步骤 4：生成查问关键词

• 针对用户查问，系统智能提取部分关键词（low-level）和全局关键词（high-level）用于婚配检索。

步骤 5：关键词婚配

• 经常使用向量数据库，部分关键词会婚配相关的实体，全局关键词会婚配到相应的实体相关。

步骤 6：整合高阶相关性

• 为增强检索的准确性，LightRAG 会搜集检索到的图元素的邻接节点，触及检索到的实体及其相关的高低文。

三、检索增强的答案生成

步骤 7：经常使用检索到的消息

• 检索成功后，系统将提取到的实体和相关输入LLM，并基于这些消息生成答案。

步骤 8：高低文整合与答案生成

• 系统将用户查问与多源检索结果启动兼并，生成合乎查问语境的答案。

四、增量常识库的极速顺应

步骤 9：增量降级常识库

• 新文档添加时，系统会依照之前的图基索引步骤处置新文档，将重生成的常识图谱与现有图谱数据兼并，成功无缝降级。

步骤 10：缩小计算开支

• 为了优化效率，LightRAG 防止重建整个常识图谱，仅降级新数据部分，从而缩小计算开支，优化系统照应速度。

经过这些步骤，LightRAG 成功了更精准、更高效、更具高低文关联的常识检索和答案生成，特意是对复杂疑问的处置和大规模数据处置具备清楚长处。

LightRAG 架构实例解释

LightRAG 关键经过以下几个步骤来让消息检索更准确、更智能：

1. 从文本中提敞开息 ：系统会读取文档，识别出关键的“实体”（比如人、地点、事物）和它们之间的“相关”（比如某人属于某组织，某事物位于某地）。

• 比如，系统或者会识别出“Beekeeper（养蜂人）”这个实体，并且提取出它与“Bee（蜜蜂）”的相关。

2. 去掉重复消息 ：系统会去除文档中相反的实体和相关，防止不用要的重复。这样可以减轻系统的累赘，提高效率。

• 比如，系统发现同一个文档中屡次提到了“Beekeeper”，但意思相反，就只保管一次性。

3. 把消息放入图表 ：这些提取进去的实体和相关会被放入一个“图”中。在这个图里，实体是“节点”，相关是“边”，一切的节点和边相连构成了一个可以高效查问的消息网络。

• 比如，图中可以显示“Beekeeper”节点和“Bee”节点经过一条“治理（Manage）”的边相连。

4. 双层检索 ：当用户提问时，系统会分两步启动检索。首先，它会寻觅与疑问间接相关的“部分关键词”（如“Beekeeper”），而后它会寻觅与这些关键词关联的“全局关键词”（如“Bee”、“Hive（蜂巢）”等）。

5. 生成答案 ：系统联合检索到的消息，应用大言语模型（LLM）生成具体的答案，并且确保答案逻辑连接、消息准确。

6. 常识降级 ：当有新的消息添加时，系统会把新消息无缝整合到已有的图中，确保系统总是基于最新的常识启动检索，而不会每次都重建整个系统。

这张图表可以了解为整个环节的可视化，它展现了从识别实体到检索再到生成答案的完整流程。

面对疑问“哪些目的最适宜评价电影介绍系统？”时，LLM首先提取低档次和上档次的关键词，用这些关键词在生成的常识图谱上检索相关的实体和相关。检索到的消息被组织成三个部分：实体、相关和相应的文本片段。而后，这些结构化的数据被送入LLM，协助它生成一个片面的答案。

LightRAG在四个数据集/评价维度上都显示出了清楚的改良，成果优于GraphRAG、NaiveRAG、RQ-RAG 、HyDE。

在四个数据集和四个评价维度下，基线与LightRAG的胜率（%）对比

LightRAG 的代码结构基于nano-graphrag，一个更小、更快的GraphRAG。

本文转载自，作者：

<<构建高效的优化系统的回答质量 RAG Prompt

学会辨别大模型>>

GraphRAG的退化版 LightRAG开源了！笨重 弱小