iText2KG 清楚降落LLM构建常识图谱时的幻觉现象

2024-11-15

1. 常识图谱构建存在的疑问

常识图谱经过捕捉实体之间的相关来构建常识的结构化示意，在剖析文本数据集和从结构化异构数据中推断常识方面具备清楚长处。比如，常识图谱能够融合来自多个起源的不同数据，提供一个具备凝聚力的消息视角。还能为文本语料库的剖析提供更上档次的可解释性。

常识图谱的关键性不用多言，最近的GraphRAG又再一次性将常识图谱掀起高潮。

1.1 传统常识图谱构建的疑问

传统的命名实体识别、相关提取和实体解析是罕用于将非结构化文本转化为结构化数据、捕捉实体及其关联和相关属性的 NLP 技术。但是，这些方法存在一些局限性：往往局限于预约义的实体和相关，或许依赖特定的本体，并且大多依赖监视学习方法，须要少量的人工标注。

1.2 LLM时代常识图谱构建的疑问

LLMs （大言语模型）的最新停顿在包括常识图谱补全、本体优化和问答等各类 NLP 义务中展现出了后劲和更优的性能，为常识图谱的构建带来了良好的前景。

LLMs 在少样本学习方面也表现杰出，能够成功即插即用的处置打算，并且无需少量的训练或微调。由于它们在宽泛的消息源中接受训练，因此能够跨不同畛域提取常识。

所以，近期的钻研已开局应用 LLMs 的开展成绩，特意是其在常识图谱构建义务中的少样本学习才干。

不过，未处置和语义重复的实体及相关依然构成严重应战，造成构建的图谱发生不分歧的状况，须要少量的前期处置。这些不分歧或许表现为冗余、含糊以及图谱裁减的实践艰巨。

此外，许多现有的方法与主题相关，这象征着其有效性在很大水平上取决于其设计所针对的特定用例。这种依赖性限度了这些方法在不同畛域的通用性，须要为每个新的主题畛域定制处置打算。

基于大型言语模型（LLM）构建常识图谱（KG）的处置打算，可依据三种范式来分类：本体疏导、微调以及零样本或少样本学习。

2. iText2KG

为了处置以上疑问，作者提出了iText2KG。上图是 iText2KG 的上班流程概览。蕴含四个模块：

1）文档蒸馏器（Document Distiller）：应用 LLM，将原始文档从新整顿为预约义和语义块。该形式相似预约义的 JSON 结构，疏导言语模型从每个文档中提取与特定键相关的特定文本消息；

2）增量实体提取器（Incremental Entities Extractor）：失掉语义块，识别语义块内共同的语义实体，消弭歧义，确保每个实体都有明晰的定义并与其余实体区离开；

3）增量相关提取器（Incremental Relations Extractor）：处置已处置的实体和语义块，以检测语义上共同的相关。

4）图集成器（Graph Integrator）：经常使用 Neo4j 以图形格局直观地出现这些相关和实体。

2.1 文档蒸馏器（Document Distiller）

运用大型言语模型（LLM）依照预约义的形式（Schema）或蓝图将输入文档重写为语义块。这些形式（Schema）并非本体，而是一个蓝图，使 LLM 偏差于特定类别，同时在其余方面坚持灵敏性。

实践上，该形式（Schema）的配置相似于预约义的 JSON，疏导 LLM 从每个文档中为特定的键提取特定的值（文本消息）。在这个名目的Github仓库里可以找到一些这种Schema的示例（如下图）：

关于每个文档，假设其中存在所需消息，将取得一个半填充的 JSON。

而后将一切这些半填充的 JSON 聚合起来，构成文档的语义块。

该模块的关键目的为：

-（a）经过缩小或许用冗余消息污染图形的噪声来提高信噪比。

-（b）应用形式疏导图形构建环节，特意是针对概念键。例如，关于一篇迷信文章，能够提取“题目”和“作者”，并参与诸如“具备题目”和“具备作者”之类的相关以及语义消息。为确保处置打算在各种用例中的实用性，Schema是一个取决于用户偏好和用例不凡性的输入。经过从新制订原始文档来增强图形构建环节的设想已被以下论文所证明。

2.2 增量实体提取器（Incremental Entities Extractor）

增量式实体婚配器（iEntities Matcher）会遍历一切语义块并提取全局文档实体。

iEntities Matcher 的关键算法如上图。

iEntities Matcher的外围算法是先应用大型言语模型（LLM）从首个语义块（即文档0）中提取实体，构建全局实体集ℰ，且假设这些实体在初次迭代中仅此一次性成对独立。

遵照解放（C1，原文详细定义，即：实体和相关都应该形容一个语义上共同的概念。），疏导LLM提取繁多律念的实体，以防止语义混杂。

关于文档汇合中的后续文档，算法抽取部分实体，并尝试将其与全局实体集中的实体启动婚配。

假设部分实体在中找到对应，则参与到婚配集中。

若未找到，算法将经常使用预设阈值的余弦相似度在中寻觅相似实体。若依然无婚配项，部分实体将间接参与婚配集；

若有，则基于最高相似度选取最佳婚配的全局实体参与。随后，全局实体集经过与婚配集的兼并启动降级。

这一流程在文档汇合中的每个文档上重复口头，最终构成一个片面的全局实体集。

2.3 增量相关提取器（Incremental Relations Extractor）

将全局文档实体与每个语义块一同作为高低文提供应增量式相关婚配器（iRelations Matcher）以提取全局文档相关。

驳回了与 iEntities Matcher 相反的方法。

依据将全局实体还是本地实体作为与语义块一同的高低文提供应 LLM，相关提取会有不同的表现。

当提供全局实体作为高低文时，LLM 会提取语义块间接陈说和隐含的相关，特意是关于语义块中未明白存在的实体。这为图形丰盛了潜在消息，但参与了不相关相关发生的或许性。

相反，当提供本地婚配的实体作为高低文时，LLM 仅提取高低文间接陈说的相关。这种形式降落了图形的丰盛水平，但也降落了不相关相关的概率。

iRelations Matcher 的两个版本如上图所示，蓝色表部分实体（Local），白色示意全局实体（Global）。

2.4 图集成器（Graph Integrator）

将全局文档实体和全局文档相关输入到 Neo4j 中以构建常识图谱。

3. 效果评价

一切试验中，作者均选择了 GPT-4 来作为基础模型启动评价。GPT-4 即使在零样本的情境下，也能达成近乎微调后的顶尖性能。

驳回了三个用例：网站转化为常识图谱、迷信文章转化为常识图谱以及简历转化为常识图谱区分对各个模块启动效果评价，确保 iText2KG 能在不同的常识图谱构建场景中实用。

3.1 文档蒸馏器效果评价

作者首先对模块 1 （文档蒸馏器）启动评价，以确保所提取的消息与形式及输入文档的语义相符。针对该模块，作者提出了以下目的：

• 形式分歧性（Schema consistency）：测验重写文本内容能否与输入的架构相符。关于架构中每个关键点，咱们定义 Cs(K)为正确对应到该关键点相关架构的元素数目。Is(k) 为那些被参与但不属于架构的元素数目。架构中某个关键点的分歧性得分计算如下：

• 消息分歧性（Information consistency）：评价重写文本的内容能否与原始报告的语义相符，详细分类为：差异极大（<30%）、中等差异（30-60%）、大抵分歧（60-90%）和齐全分歧（>90%）。

3.1.1 形式分歧性

上表显示，文档蒸馏器在各类文档类型中均成功了较高的形式分歧性。

迷信文章和简历出现出最高的形式分歧性得分，标明该模块处置结构化消息的才干杰出，特意是关于关键依托题目来组织数据的文档。

网站的分歧性得分仍高达 0.94，但相对略低，这或许是由于网络内容的多样性和结构化水平较低所致。

标明文档蒸馏器在处置和从不同类型文档中提取结构化消息方面的持重性和顺应性。

3.1.2 消息分歧性

上图展现了不同类型文档（简历、迷信文章和网站）的消息分歧性状况。

关于简历，大部分消息（74.5%）齐全分歧，25.5%大抵分歧，不存在中等分歧性。标明重写的文本与简历原始内容的语义高度婚配。由于简历关键以明晰繁复的短语编写，使得大型言语模型更易于捕捉语义。

关于迷信文章，57.1%的消息齐全分歧，42.9%大抵分歧，在保管原始语义方面展现出较高的准确性，虽然略逊于简历。这在预料之中，特意是鉴于迷信文章是用更为复杂的迷信英语撰写的。

网站有 56.0%的消息齐全分歧，24.0%大抵分歧，20.0%为中等分歧性。这或许归因于网络内容的非结构化个性，这给准确的语义重写带来了更大的应战。

3.2 增量实体提取器和增量相关提取器效果评价

• 三元组提取精度（Triplet Extraction Precision）：不关心实体/相关解析环节，间接评价与相应文本的三元组分歧性。三元组有的时刻是隐含的，不必定间接由文本表述。将精度得分定义为提取的相关三元组数量除以提取的三元组总数。

• 实体/相关解析失误发现率（Entity/Relation Resolution False Discovery Rate）：评价在提取的实体或相关总数中未处置（假阳性）的实体或相关所占比例。详细而言，计算未处置的实体或相关与提取的实体或相关总数的比率。经过突出总提取中的失误（未处置的实体/相关）比例，标明实体和相关提取环节的牢靠性。

3.2.1 三元组提取

参照上图，作者区分对经常使用全局还是部分实体作为高低文启动比拟，比拟二者在相关提取方面出现出不同的表现。

当以 全局实体 作为高低文时，相关三元组的精度比以部分实体作为高低文时低 10%。当经常使用全局实体作为高低文时，大型言语模型会提取语义块中明白提及和隐含的相关。这会 构成一个更丰盛的图，蕴含更多潜在消息 ，但也有更高的发生不相关相关的或许性。

经常使用 部分实体 作为高低文会以至大型言语模型仅提取间接陈说的相关，从而造成生成的图不够丰盛，但不相关相关发生的或许性较低。

这表现了一种取决于用例的掂量。作者让用户选择是接受精度降落 10%以换取更丰盛的图，还是失掉 10%的精度但失掉相对不那么丰盛的图。

3.2.2 实体/相关解析

LlamaIndex 为检索增强生成（RAG）构建具备边级和节点级文本消息的未衔接子图；因此，未将 LlamaIndex 与 iText2KG 启动对比评价。

从下面两个图中，可以看出 iText2KG 在三个不同的常识图谱构建场景中，在实体和相关解析环节方面取得了更优的成绩。

此外，结果显示，当输入文档数量较少且具备明晰、非复杂的短语时，大型言语模型在实体和相关解析方面表现杰出，如简历到常识图谱的环节所示。

此外，网站到常识图谱中未处置实体和相关的失误发现率高于其余常识图谱构建场景。是由于文档（块）数量较多以及网站文本消息的非结构化个性所致。

因此，只需文档（块）数量宏大且文本是非结构化且言语复杂，实体/相关解析环节关于构建分歧的常识图谱就变得至关关键。

3.3 阈值预计

为基于余弦相似度预计兼并实体和相关的阈值，经常使用 GPT-4 生成了一个蕴含 1500 个相似实体对和 500 个相关的数据集，其灵感源自不同畛域。

3.4 全体效果

上图对比了其余方法与iText2KG在三种不同情境下的表现：

• 其余基准方法在一切三种常识图谱构建情境中都 暴显露孤立节点 ，这些节点间不足咨询。或许由于实体和相关提取的同时启动，造成言语模型发生幻觉效应，进而惹起“忘记”现象。可以经过火离实体和相关提取步骤可以优化性能。

• 在“网站至常识图谱”的场景中，输入文档数量的参与往往造成图中噪声节点的参与。标明文档蒸馏在有效提炼和精炼输入数据方面的关键性。

• iText2KG方法在三种常识图谱构建情境中均展现出了更优的实体和相关解析才干。当输入文档较少且内容便捷、不复杂时，言语模型在实体和相关解析上表现出高效性，这一点在“简历至常识图谱”的流程中失掉了表现。但是， 随着数据集变得更为复杂和宏大，应战也随之增大 ，如“网站至常识图谱”的场景。输入文档的分块大小和阈值对常识图谱构建的影响不容漠视。文档蒸馏器的输入可以是独立文档或分块。分块越小，语义块能捕捉到的文档细节就越详细，反之亦然。

• 论文原文:

本文转载自，作者：

<<浅谈

为什么你的模型生成的内容长度总是不超越2K? AgentWrite>>