HippoRAG如何从大脑失掉线索以改良LLM检索

2024-11-15

译者 | 李睿

审校 | 重楼

常识存储和检索正在成为大型言语模型(LLM)运行的关键组成局部。只管检索增强生成(RAG)在该畛域取得了渺小提高，但一些局限性依然没有克制。

俄亥俄州立大学和斯坦福大学的钻研团队推出了HippoRAG，这是一种翻新性的检索框架，其设计理念源于人类常年记忆系统中的海马索引实践。

HippoRAG的引入使大型言语模型（LLM）运行程序能够更有效地集成灵活常识，并更快、更准确地检索关键消息。HippoRAG在多跳（multi-hop）问答等义务上体现出令人印象深入的性能，关于须要对大型复杂常识图启动组装和推理的LLM运行程序十分有用。

LLM常识整合的应战

哺乳生物的大脑可以贮存少量的常识，并在不失落以前阅历的状况下始终整合新阅历。这种常年记忆系统准许人类始终降级他们用于推理和决策的常识。

为了成功这些义务，的RAG系统经常使用多个检索和生成步骤来衔接不同的段落。但是，即使口头了多步RAG，关于许多常识集成场景来说，也往往是不够的。

HippoRAG从大脑中的新皮层和海马体之间的生物相互作用中取得灵感，这种相互作用使弱小的基于场景的、始终降级的人类大脑记忆成为或者。

依据迷信钻研，大脑皮层担任处置和存储实践的记忆表征，而海马体则领有一组互关系联的索引，这些索引指向新皮层中的记忆单元，并贮存它们之间的关联性。这两个关键组成局部共同单干，口头“形式分别”和“形式成功”的配置，前者确保不同阅历的表征具备共同性，后者则让从局部抚慰中检索完整记忆成为或者。

HippoRAG经过经常使用LLM将文档语料库转换为充任人工海马索引的常识图来模拟这种记忆模型。HippoRAG分为两个阶段，离线索援用于存储消息，在线检索用于将常识整合到用户恳求中。

离线索引阶段相似于大脑中的记忆编码，经常使用指令调优的LLM以常识图三元组的方式从段落中提取关键特色。与传统的RAG管道中经常使用的密集嵌入相比，这准许更细粒度的形式分别。

人工海马索引是在检索语料库中失掉的三元组的基础上建设的开明常识图谱。为了衔接这些组件，HippoRAG经常使用现成的密集编码器启动检索，这些编码器在常识图中相似的名词短语之间提供额外的边缘，以协助下游形式成功衔接。编码器有助于使系统更有弹性和灵敏性，由于相反的常识可以用稍微不同的方式表白。

在线检索环节反映了大脑的记忆检索环节。LLM从用户查问中提取清楚的命名实体，而后依据检索编码器确定的相似性将其链接到常识图中的节点。而后，HippoRAG经常使用共性化PageRank算法，这是PageRank的一个版本，它经常使用一组用户定义的源节点在图中散布概率。这种解放使HippoRAG能够将其输入限度为前一步当选用的候选查问节点集。而后将结果运行于索引的段落，以选用它们启动检索。

HippoRAG的实践运行

钻研人员在两项具备应战性的多跳问答基准测试（MuSiQue和2WikiMultiHopQA）以及HotpotQA数据集上，对HippoRAG的检索才干启动了片面的评价。他们将其与几种弱小的检索方法和最近的LLM增强基线启动了比拟。

评价结果标明， HippoRAG在单步检索上优于一切其余方法，包含那些基于LLM增强的基线模型。与多步骤检索方法IRCoT相联合时，HippoRAG在相反的数据集上提供高达20%的互补增益。

HippoRAG的一个关键好处是它能够在一个步骤中口头多跳检索。其在线检索环节的老本与目前的迭代检索方法(例如IRCoT)相比低10到30倍，快6到13倍，同时成功了相当的性能。

钻研人员在报告中写道：“咱们提出的神经生物学原理方法只管便捷，但曾经显示出克制规范RAG系统固有局限性的渺小后劲，同时保管了它们相关于参数记忆的好处。HippoRAG在门路跟踪多跳QA和门路发现多跳QA方面的出色体现，以及其清楚的效率优化和继续降级的才干，使其成为了衔接规范RAG方法和参数化记忆之间的弱小两边框架，为LLM中的常年记忆疑问提供了令人信服的处置打算。”

钻研人员抵赖，为了进一步改良HippoRAG，还须要克制一些局限性，例如对其组件启动微调，并进一步验证其对更大常识图谱的可裁减性。但是，的钻研结果曾经证实了神经生物学启示的方法在推动LLM常识整合方面的后劲，并使他们能够对非结构化消息启动更复杂的推理。

常识图谱和LLM的联合是一个十分弱小的工具，可以解锁许多运行程序。GNN-RAG是一种将图神经网络(GNN)和常识图与LLM相联合的翻新方法，已被证实可以处置许多经典RAG不可处置的复杂推理疑问。而将GNN引入HippoRAG或者是未来探求的一个幽默方向。

原文题目：HippoRAG takes cues from the brain to improve LLM retrieval，作者：Ben Dickson

链接：

<<RAG初级优化检索后处置模块心中有数

仅需Llama3 1>>

HippoRAG如何从大脑失掉线索以改良LLM检索

LLM常识整合的应战

HippoRAG的实践运行

您可能还会对下面的文章感兴趣：

随便看看