重点是开源! 用智能体框架优化常识图谱构建效果 AgentRE
1. 背景
相关抽取(Relation Extraction,RE)是指将非结构化文本转化为结构化数据(相关三元组),在常识图谱构建等畛域表演了关键角色。
但是相关抽取往往由于 相关类型的多样性 和 句子中实体相关的含糊性 等疑问,造成难以成功高效的RE。
这两年,大言语模型仰仗其在人造言语了解和生成方面的弱小才干,开局在相关抽取方面失掉宽泛运行。虽然取得必定停顿,但往往局限于监视式微调或大批样本问答(QA)基础抽取,较少在复杂相关抽取场景下失掉运行。
将LLMs运行于复杂场景下的RE义务,往往存在以下疑问:
• 2.如何在特定或资源匮乏的畛域有效成功RE?许多特定畛域数据稀缺,使得传统监视模型难以到达现实性能。
• 3.如何以正当的老本成功有效的RE?虽然LLMs性能出色,但在实践运行中,较小的模型因其较低的计算资源消耗而更具吸引力。因此,应用大型模型的常识来微调小型模型是一个可行的战略。
基于智能体的框架能够赋予LLMs更多才干,如记忆、反思和与外部环境交互,从而促成复杂RE义务的成功。受此启示,作者提出了一种翻新的基于智能体的RE框架——AgentRE,用于应答以上相关抽取中面临的疑问。
2. 什么是AgentRE?
上图 (a)展现了“文本输入,文本输入(text-in, text-out)”形式下言语模型的RE流程,该模型间接从输入文本或经过便捷的揭示方法发生带有失误的结果。
图(b)则展现了AgentRE的RE流程,这是一个蕴含检索和记忆模块的智能体框架,在屡次推理回合中应用各种消息,以成功更准确的RE。
首先,AgentRE将大型言语模型(LLM)作为智能体,处置来自不同渠道的数据。借助检索和记忆模块等工具,辅佐智能体启动推理。与传统的单轮“文本输入,文本输入”言语模型不同,AgentRE经过多轮交互和推理,拓宽了消息源的应用范围,克制了单轮提取的局限。
其次,在资源有限的状况下,AgentRE能够借助LLM的推理和记忆才干,在提取环节中进执行态总结和反思,从而精进其继续学习才干,经过始终积攒阅历与常识,优化提取效劳。
最后,将AgentRE的推理门路转化为蕴含多种推理战略的高品质数据,如间接生成、分步提取和基于思想链的提取。这些丰盛的数据可用于微调小型模型,疏导它们灵敏选用不同的提取战略,从而在老本可控的前提下,优化模型的提取体现。
图(a)AgentRE的全体架构,其中LLM表演智能体的角色,经过与检索、记忆和提取模块的协同上班,从输入文本中提炼出相关三元组。
图(b)至(d)区分展现了检索、记忆和提取模块的外部结构。
• 检索模块(Retrieval Module) :担任保养静态常识库,便于存储和检索消息,这包括训练集中的标注样本以及相关的标注指南等资料。
• 记忆模块(Memory Module) :担任保养灵活常识库,用于记载提取结果的短期记忆,以及用于总结和反思历史操作的常年记忆。经过在记忆模块中启动读写操作,记载并应用以往的提取阅历。
• 提取模块(Extraction Module) :应用检索和记忆模块提供的消息,经过多种推理方法从输入文本中抽取结构化消息(相关三元组)。
2.1 检索模块
检索模块担任从现有数据集中提取相关样本,并收集补充常识,辅佐提取模块成功相关提取(RE)义务。可检索的数据范围宽泛且类型单一,关键分为两大类。
• 标注数据:带有明白输入输入相关的标注数据,这些数据可以作为大批样本整合进LLM的高低文中,协助模型掌握义务的输入输入相关。
为了高效地治理和运用这两类数据,设计了两种特定的检索模块:
• 样本检索模块
• 相关消息检索模块。
一旦失掉了富裕消息量的标志数据和其它相关消息,检索模块就可以应用这些数据:
• 一种间接的方法是将它们兼并为揭示,以此整合有益消息。这些揭示词模板如上图所示。揭示词分为不同色彩标志的多个局部,每个局部都有明晰的标签,疏导模型处置输入文本并生成适当的输入。:
• 紫色局部用于义务形容和输入句子
• 蓝色局部用于示例和或许的相关类型
• 青绿色局部用于相关消息
• 彩色局部用于输入。
2.1.1 样本检索
如图(b)下部展现,样本检索模块应用编码器将文本转化为嵌入向量。计算训练数据集中样本与文本的相似性,以检索与文本相似的样本。
例如,关于句子“5月9日,诺贝尔文学奖得主、作家莫言在北京宣布了演讲。”,样本检索模块可以从训练数据集中检索出相关样本,如文本“When the newly minted Nobel Prize in Literature, British novelist Kazuo Ishiguro, found himself…”及其对应的相关三元组标签(Kazuo Ishiguro, 获奖, Nobel Prize in Literature)。
提取环节或许被合成为两个阶段:
• 首先是识别句子中潜在的相关类型
• 而后基于这些识别出的候选相关类型启动提取
检索候选相关类型的环节在图(b)中以虚线箭头示意。成功这种检索的一种有效方法是开发一个在数据集上训练的分类器,预测给定文本中最或许发生的相关。此外,应用LLMs的推理才干也可以成功检索相关类型的义务。
2.1.2 相关消息检索
如图(b)的上部展现,相关消息检索模块的目的是检索与特定句子相关的常识点。相较于样本检索经常使用的嵌入检索技术,本模块运用了多元化的检索手腕,融合向量与实体,成功准确婚配与含糊语义婚配的无机联合。
以句子“5月9日,诺贝尔文学奖得主、作家莫言在北京宣布了演讲。”为例,本模块不只提取句子的语义消息,还识别出其中的潜在实体,如莫言、诺贝尔奖和北京,并应用这些实体检索相关背景常识。
此外,以诺贝尔奖为终点,还能从标注指南中检索到关于奖项相关类型的详细形容,包括相关两端实体的定义和深化阐释。
驳回多种战略从不同数据源中检索相关常识,比如从常识图谱中检索实体的属性和相关,从标注指南中检索相关类型的解释性消息,或是从外部百科全书中检索相关背景常识。
2.2 记忆模块
记忆模块担任在提取环节中灵活地利用现有常识,并启动反思和总结,更好地成功后续的提取义务。
仿照人脑的记忆机制,模型的记忆被划分为短期记忆和常年记忆。
2.2.1 短期记忆
短期记忆记载了初步的提取阅历。
如图(c)所示,关于句子“博物馆位于莫言的故乡,高密西南乡。”,模型提取的结果是(莫言, 出世地, 高密西南乡)和(博物馆, 位于, 高密西南乡)。其中第一个相关三元组是正确的,但第二个由于博物馆的指代不明白而被标志为失误。短期记忆中,经过记载这些正确与失误的结果,模型便能在后续的提取中将它们作为参考。这个环节相当于从过往阅历中吸取经验。详细来说,模型会区分在正确记忆和失误记忆中参与新的条目。
2.2.2 常年记忆
常年记忆涵盖了对过往记忆的深化反思与降级,如图(c)所示。
在常年记忆中,AgentRE能够基于准确的成绩对常年记忆启动刷新,并针对不准确的结果启动深思熟虑。
以图(c)的示例为鉴,失掉正确的提取成绩后,AgentRE便将其关于莫言的记忆从“莫言,驰名作家,1955年2月17日出世,本名管谟业”降级为“莫言,驰名作家,1955年2月17日出世于高密西南乡,本名管谟业”。关于失误的结果,AgentRE则启动反思。比如,面对一个失误的提取成绩和相关的标注准绳,它会发生反思文本“ 依据标注准绳,不完整的实体,如博物馆,本不应被提取 ”。因此,当接纳到下一个输入文本“以最有影响力的当代作家和学者王先生命名的博物馆……”,AgentRE便能借助先前的反思防止吃一堑,长一智。
2.3 提取模块
AgentRE中提取模块自创了 ReAct 的互动式方法,经过多轮的思索、执行、观察来推动,如图(d)所描画。
在此框架下,检索与记忆模块被视作智能体可调用的外部工具。智能体经过一系列API接口,输入工具称号和参数,随后取得反应结果。这种设计赋予了智能体灵敏调用工具、选用工具种类及调用方式的才干。
以图(d)中的句子为例:“5月9日,诺贝尔文学奖得主、作家莫言在北京宣布了演讲。”在首回合,智能体识别出或许的相关类型,随后选择调用SearchAnnotation API来失掉相关新闻。进入第二轮,智能体运用SearchKG API检索无关莫言的既有常识。最终,在收集到充沛的消息后,智能体执行Finish操作,以产出提取成绩。
在提取环节中,AgentRE并非总是遵照一连串完整的ReAct互动。会依据输入文本的复杂度,灵敏选用最适合的提取战略。
比如,在间接提取中,预测的相关三元组间接从文本中导出;在分阶段提取中,先挑选相关类型,再启动三元组的提取;或许驳回思想链(CoT)提取,最终结果经过逐渐推导生成。
2.4 小模型的精炼
在实在场景中,部署具有弱小推理才干的LLMs智能体以成功消息提取义务,往往须要高昂的老本。
而相对较小的大型言语模型(SLLMs)在推理才干上理论体现逊色。为了补偿这一鸿沟,作者提出了一种蒸馏学习的方法,经过应用大型模型的历史推理门路来疏导小模型的学习。
对不同类型疑问驳回多样化的推理战略,可以清楚增强模型处置疑问的顺应性。例如:
• 在相关提取(RE)义务中,文本中明白表述的间接相关可以间接推断并生成结构化输入。
• 关于那些蕴含更复杂相关的句子,驳回基于思想链(CoT)的推理方法,可以疏导模型逐渐迫近最终结果,缩小失误。
AgentRE推理框架经过智能体有效地为不同情境定制了多样化的推理方法。为了赋予SLLMs相似的才干,并简化推理环节,倡导从AgentRE的历史推理门路中提炼出更繁复的推理逻辑,用以指点小模型的学习。
3. 效果评价
3.1 测评数据集
为验证AgentRE的效劳,在以下两个数据集启动测试:
• DuIE:作为规模最大的中文相关抽取数据集,囊括了48类预设相关类型。笼罩了传统便捷的相关类型,也涵盖了触及泛滥实体的复杂相关类型。该数据集的标注文根源自百度百科、百度消息流及百度贴吧,共蕴含210,000句样本与450,000个相关实例。
• SciERC:专为迷信畛域设计的英文命名实体识别与相关抽取数据集。其标注数据源自Semantic Scholar Corpus,笼罩了500篇迷信文章摘要。SciERC数据集共标注了8,089个实体和4,716个相关,平均每篇文档蕴含9.4个相关。
3.2 测试基准方法
将AgentRE与数种基于LLM的消息抽取模型/框架启动了对比:
• ChatIE:经过与ChatGPT的对话,提出了一种零次学习IE方法,将零次学习IE视为一种多轮问答环节。先识别潜在的相关类型,再基于这些类型抽取相关三元组。
• GPT-RE:在大批学习框架内驳回义务感知检索模型,并整合CoT智能推理机制,以处置输入-标签映射中的实例相关性和解释疑问。
• CodeKGC:运用Python类来表白相关的框架形式,经过推理依据增强消息抽取的准确性。
• CodeIE:将IE义务转化为代码方式,借助LLMs的代码推理才干。
• UIE:引入了一种结构化编码言语,用于文本到结构化输入的生成,实用于T5模型的预训练。
• USM:一个集结构化与概念才干于一体的一致语义婚配框架,专为消息抽取设计,基于RoBERTa构建。
• InstructUIE:在Flan-T5上实施基于指令的微调,以优化义务的泛化才干。
ChatIE和CodeKGC运用LLMs启动零次学习,而CodeIE、CodeKGC和GPT-RE则驳回大批学习战略。UIE、USM和InstructUIE则驳回监视微调(SFT)。GPT-RE还在特定义务上对如text-davinci-003这样的大型模型启动了微调,老本较高。
3.3 测评结果
试验结果如上图,仅驳回F1分数作为评价规范。
关于比拟基准模型/框架,尽量援用原始宣布数据,或经过复现其发布的模型与源代码来失掉结果。
为了确保试验比拟的公正性,关键驳回同一基础大型言语模型,如gpt-3.5-turbo。关于那些驳回不同基础模型的方法,在表格中以斜体字出现了它们的原始成绩,并补充了经常使用gpt-3.5-turbo作为基础模型所失掉的结果。
上表依据三种不同的试验范式划分:
• 零样本学习(ZFL)
• 少样本学习(FSL)
• 有监视的微调(SFT)
在SFT设置下,这些方法大抵可分为三类,依据模型参数规模如下:
• 1)UIE经常使用的T5-v1.1-large和USM经常使用的RoBERTa-Large,参数规模区分为0.77B和0.35B。
• 2)InstructUIE经常使用的Flan-T5和AgentRE-SFT经常使用的Llama-2-7b,参数规模区分约为11B和7B。
• 3)GPT-RE-SFT经常使用的gpt-3.5-turbo,参数规模约为175B。
在ZSL组中,ChatIE-multi的体现超越了ChatIE-single,说明 多轮对话的有效性 。AgentRE-ZSL的出色体现则反映了其在高效应用辅佐消息方面的长处。
在FSL组中,CodeKGC-FSL逾越了基于对话的ChatIE,而GPT-RE与其体现相婚配,突显了却构化推理和准确样本检索的长处。AgentRE-FSL清楚逾越了最佳模型,展现了其在 应用标志数据和辅佐消息方面的卓长处 。
在SFT设置下,对较小模型如UIE和USM启动微调,虽然优于基线模型,但仍不迭AgentRE-FSL。AgentRE-SFT在InstructUIE上的体现清楚更佳,证明了 AgentRE中蒸馏学习的有效性 。但是,GPT-RE-SFT在SciERC上取得了最佳性能,虽然由于其宏大的模型规模和基于text-davinci-003的API训练带来了更高的训练老本。
3.4 消融试验
消融试验探求了AgentRE在不同性能下的体现:
• 缺少检索模块(AgentRE-w/oR)
• 缺少记忆模块(AgentRE-w/oM)
• 两者皆无(AgentRE-w/oRM)
依据上表,AgentRE-w/oRM的性能清楚无余,标明这两个模块的关键作用。
AgentRE-w/oR和AgentRE-w/oM相较于AgentRE-w/oRM展现出更好的效果,标明独立引入记忆和检索模块的好处。
完整框架AgentRE整合了这两个模块,到达了最佳体现,证明联合检索才干失掉相似样本和应用记忆模块优化先前提取的协同效应。
3.4.1 检索模块剖析
影响检索模块效果的关键变量包括用于数据示意和检索的模型,以及检索环节中可用的内容。
上表结果标明:无论是统计方法还是基于嵌入的方法,都清楚优于随机检索。这标明,检索与输入文本更严密相关的标志样本,关于辅佐模型的决策环节、提高其抽取精度具有清楚效果。在评价的模型中,BGE在两个数据集上均展现出最好的性能。
检索内容:在为检索模块选定了基础模型之后,进一步讨论不同类型可用消息对检索的影响。
上表列出了试验结果,其中“None”和“AgentRE-w/oM”区分代表没有和仅有完整检索模块的变体。此外,“-samples”、“-doc”和“-KG”区分示意缺少标志样本检索、注释指南检索和常识图谱检索组件的变体。
结果证明,疏忽任何类型的消息都会降落AgentRE的性能,尤其是移除标志样本(-samples)对性能的影响最为清楚。
为探求记忆模块对消息抽取效劳的影响,剖析了在DuIE数据集上,AgentRE在不同记忆性能下,随着训练样本数量参与的F1、召回率和准确度得分,如上图所示,图中的X轴代表训练样本的数量。对比模型包括不蕴含记忆模块的AgentRE-w/oM、搭载浅层记忆的AgentRE-wM),以及融合了浅层与深层记忆的AgentRE-wM+。相较于缺乏记忆性能的模型,这些搭载记忆模块的模型能够同时应用输入样本及历史抽取记载。
• 搭载记忆模块的模型(AgentRE-wM和AgentRE-wM+)在一切评价目的上均优于无记忆模块的版本,凸显了记忆模块在优化抽取精度方面的踊跃作用。
• 随着数据量的参与,搭载记忆模块的模型体现更佳,这标明了应用过往抽取阅历进执行态学习的有效性。
• AgentRE-wM+在数据输入增多时相较于AgentRE-wM展现出更出色的性能,这暗示了一种片面的记忆方法,逾越了单纯的集体样本追踪,能够进一步优化抽取效劳。
本文转载自,作者: