联合常识图谱的 多跳问答技术 LLM 成果清楚优化 GMeLLo
1. GMeLLo 提出的背景
1.1 多跳问答
多跳问答的难度往往比拟大,由于不只有追溯理想,还要聚合与串联理想。
随着大型言语模型的开展,基于揭示的方法搭配可选的检索模块已成为处置多跳问答的罕用手腕,但以往少数上班并重于静态消息库。
1.2 常识编辑
常识编辑目前有两种干流打算:修正模型参数和保管模型参数。
1.2.1 修正模型参数
可进一步细分为元学习和定位-编辑方法。
• 元学习方法(meta-learning):应用超网络来学习编辑大型言语模型所需的调整。
• 定位-而后-编辑(locate-then-edit)范例,首先识别与特定常识对应的参数,而后经过间接降级指标参数来启动修正。
2.2.2 保管模型参数
在保管模型参数的状况下,重要方法是引入额外的参数或外部存储器。
• 额外参数范式( additional parameters ):将额外的可训练参数归入言语模型。这些参数在修正后的常识数据集上启动训练,而原始模型参数坚持不变。
• 基于存储器的模型(memory-based models):将一切编辑的示例存储在存储器中,并经常使用检索器为每个新输入提取相关的编辑理想,从而疏导模型生成编辑后的输入。
基于以上背景,作者提出了 GMeLLo (raphmory-based Editing forargeanguage Models)方法,经过整合大言语模型和常识图谱(Knowgledge Graph),处置常识编辑后的多跳问答义务。
如上图,在降级了无关英国首相的消息后,显然相应的配偶消息也应予以修正。
如上图所示,GMeLLo 包括以下关键步骤:
• 借助大型言语模型将编辑后的理想句子转化为三元组,应用这些三元组来降级常识图谱,确保其消息坚持最新。
• 关于给定的疑问,应用大型言语模型提取其相关链。经过模板填充,将相关链转换为正式查问,并用于搜查降级后的常识图谱。
• 依据疑问检索最相关的编辑理想,并经过大型言语模型依据这些理想生成答案。
• 当大型言语模型提供的答案与常识图谱的答案相抵触时,将常识图谱的答案作为最终回应。
3.1 从常识库中提取三元组
将常识图谱 Wikidata 用作基础常识库。当收到降级的理想时,运用大型言语模型从句子中提取实体并确定它们的相关(从预约义列表当选用一个相关)。生成经过编辑的理想三元组,而后用于降级常识图谱。须要依据主体实体和相关来识别常识图谱中的衔接,冲破这些衔接,并基于三元组建设新的衔接。
经过高低文学习,以确保大型言语模型对义务有深化了解。此外,鉴于大型言语模型或许生成不在预约义相关列表中的相关,经常使用检索模型从预约义相关列表中识别出最相似的相关(即嵌入空间中最凑近的相关)。检索模型的融入让三元组提取环节更弱小。
3.2 从疑问中提取相关链
随着环球极速开展,大型言语模型的训练数据或许很快过期。
不过,由于言语形式的演化理论较为缓慢,大型言语模型的少量训练数据应当能使其有效地理解大少数句子形式。
借助大型言语模型从句子中提取相关链,涵盖疑问中提到的实体及其与其余未识别实体的相关。与从常识库中提取三元组提取相似,让大型言语模型从预约义列表当选用一个相关,以缩小相反相关的不同表述。
以 MQuAKE-CF 数据集中的一个疑问句子为例,
疑问:
Eeyore 的创作者的孩子的国籍所在国度的首都是什么?
What is the capital of the country of citizenship of the child of the creator of Eeyore?
相关链
Eeyore->创作者->?x->孩子->?y->国籍->?z->首都->?m
Eeyore->creator->?x->child->?y->country of citizenship->?z->capital->?m
示例中的这个疑问须要一个 4 跳的推理环节。
以“Eeyore”作为关注的已知实体,要得出最终答案,须要依次识别其创作者“?x”,接着是创作者的孩子“?y”,失掉孩子的国籍“?z”,最终检索该国的首都“?m”。一切的相关,如“创作者”“孩子”“国籍”和“首都”,都从预约义的相关列表当选取。相关链囊括了得出答案所需的所有关键消息。
为了让大型言语模型能够提取相关链并以结构化模板生成输入,在揭示中提供了若干相关链提取的示例用于模型的高低文学习。详细揭示词如下:
• 以上揭示词用于从常识库中提取三元组
• 以上揭示词用于从疑问中提取三元组
• 以上揭示词用于基于LLM的QA
3.3 将相关链转换为正式查问
一旦失掉相关链,接上去就要把已知实体和相关整合到正式的查问模板中。
思考以 RDF 格局展现常识图谱并以 SPARQL 查问,比如:
PREFIX ent: <rel: <DISTINCT?id?label WHERE {ent:E0 rel:R0?x.?x rel:R1?y.?y rel:R2?z.?z rel:R3?id.?id rdfs:label?label.}LIMIT 1
“ent”和“rel”区分作为实体和相关的前缀。
标识符“E0”在常识图谱中惟一代表“Eeyore”,而“创作者”“孩子”“国籍”和“首都”的标识符区分记为“R0”“R1”“R2”和“R3”。
在识别出实体“?id”后,检索其字符串标签“?label”作为最终答案。
3.4 整合LLM-QA与KG-QA
3.4.1 LLM-QA:基于大型言语模型的问答
经常使用预训练的 Contriever 模型从一系列编辑过的理想句子中检索最相关的理想。而后,大型言语模型依据疑问和这些相关理想生成答案。与 MeLLo 中的“拆分-回答-审核”流程相比,无理想准确提供的状况下,这种基于大型言语模型的问答形式估量更简便,并能得出更准确的结果。
Contriever是一个 Embedding模型,用于Dense Retrieval
Github地址:
但是,处置多跳疑问,尤其是那些编辑的理想与两边跳无关的疑问时,往往不可准确检索到相关消息。
3.4.2 KG-QA:基于常识库的问答
为了处置基于大型言语模型问答的难题,整合来自基于常识库的问答的照应,以优化大型言语模型的输入。
当相关链和理想三元组准确推导进去后,基于常识库的问答系统会提供正确答案。
但是,假设相关链提取有误,常识图谱中的搜查门路或许失效,造成基于常识库的问答系统不可发生输入。在这种状况下,将大型言语模型的照应视作最终答案。
4. 成果评价
4.1 评价数据集
MQuAKE是一个聚焦于多跳问答的测试数据集,重要包括两个数据集:MQuAKE-CF、MQuAKE-T。
• MQuAKE-CF:在 MQuAKE-CF 上的试验是基于完整数据集的随机抽样子集启动的,总计蕴含 3000 个实例(2、3、4 跳疑问各 1000 个实例),专为反理想编辑而设。每个疑问都与一个或多个编辑相关,用于测验常识编辑方法处置反理想编辑的有效性。
• MQuAKE-T,专为期间常识的降级定制。由 1868 个实例造成,每个实例都与一个理想环球的理想变动相关。其旨在评价常识编辑方法在运用当代理想数据降级过期消息方面的效劳。
4.2 参数设置
详细而言,测试样本被分组处置:
• MQuAKE-CF:每组样本数 n 取值于 {1, 100, 1000, 3000}
• MQuAKE-T:每组样本数 n 取值于 {1, 100, 500, 1868}
4.3 测试基准
• MEND:经过训练一个超网络,基于编辑的理想转换原始微调梯度来生成权重降级。
• MEMIT:降级各层的前馈网络以归入一切相关理想。
• MeLLo:驳回基于内存的形式启动多跳问答,将一切降级的理想存储于外部内存中。
4.4 重要结果
如上图,GMeLLo 在 MQuAKE-CF 数据集和 MQuAKE-T 数据集上均清楚优于一切现有方法,尤其在处置少量编辑时体现杰出。
MeLLo 的功能降低重要归因于随着编辑数量的参与,它在识别相关理想方面遭逢应战。
当 k = 1 时,模型仅经常使用与输入疑问间接相关的理想作为高低文。但是,随着 k 的增大,模型在从更宽泛的内存中区分相关理想时面临困境。
GMeLLo 模型经过驳回明白的符号图示意来化解这一难题,增强了系统有效降级和检索相关理想的才干。这一个性清楚优化了 GMeLLo 的可裁减性,使其十分实用于须要治理少量极速变动消息的实践问答运行。
经常使用两个更大的模型,GPT-3.5-Turbo-Instruct 和 GPT-3.5-Turbo 在 MQuAKE-CF 数据集上对 MeLLo 和 GMeLLo 启动评价,k = 3000。MeLLo 和 GMeLLo 与 GPT-3.5-Turbo-Instruct 的准确率区分为 30.7%和 51.4%。
而GMeLLo在经常使用GPT-3.5-Turbo时准确率高达66.4%,但当与MeLLo联合经常使用时,该模型却频繁出错。
这些发现标明,GMeLLo即使在裁减到更大型的言语模型时,依然能够坚持良好的功能。
5. 局限性
• 未借助更为精妙的揭示技术,例如思想链(CoT),来成功更精准的多跳推理。
• 未优化预约义的相关列表,以优化其准确性。
• 可以进一步强化常识图谱,以允许更复杂的问答,比如触及历史消息的查问。
本文转载自,作者: