附用于提取的揭示词哪个中文开源大模型在消息抽取上效果最好

2024-11-15

1. 背景

消息抽取（Information Extraction，IE）普通包括命名实体识别（Named Entity Recognition，NER）、相关抽取（Relation Extraction，RE）和事情抽取（Event Extraction，EE）。

RE则努力于发事实体间的语义咨询，比如某人在某地上班或两人之间的婚姻相关。

EE则关注于识别文本中的特定事情及其相关要素，这些事情是特定期间、地点下出现的，触及特定介入者和实体的执行或现象。

当天这篇论文的作者选取了4个中文开源模型启动试验和对比，这4个开源模型区分是：ChatGLM3-6B、Qwen-7B-Chat与Qwen-14B-Chat 、Baichuan2-13B-Chat。并且选取了ChatGPT作为测试基准启动对比。之所以选取这几个模型，是由于这几个模型在SuperCLUE排行榜上排名比拟靠前，并且这几个模型都可以在一张A40的GPU上成功部署。

2. 消息抽取方法

2.1 命名实体识别方法

命名实体识别（NER）方面，作者驳回了两种战略：基础法和分步法。

• 基础法繁复明了，仅需提供句子和实体类型列表，模型便能依照指定格局输入实体及其类型。

• 分步规律将义务拆分为两步：第一步，模型需识别并输入文本中的实体类型；第二步，模型将逐个针对每种实体类型输入相应的实体。

下图是作者用于命名实体识别的揭示词：

2.2 相关抽取方法

相关抽取（RE）试验中，驳回了两种零样本框架：VanillaRE和QA4RE。在这两种框架下，模型输入包括句子、两个实体以及一切或者的相关类型，区分设置了有类型解放和无类型解放两种状况。

• VanillaRE框架间接列出一切候选相关供模型选用

• QA4RE框架则将相关转化为多项选用题，更适宜LLMs启动生成性问答

下图是作者用于相关抽取的揭示词：

2.3 事情抽取方法

事情抽取（EE）义务因难度较高且基础框架体现不佳，作者只展现了分步法的试验结果，并对比了不同大型言语模型的功能。在分步法的第一阶段，模型担任从文本中识别一切预约义的事情类型；第二阶段则进一步提取每种事情类型的论元角色及其内容。

下图是作者用于事情抽取的揭示词：

3. 究竟哪个模型强！

3.1 命名实体识别义务哪个模型强？

在命名实体识别（NER）义务上，作者对比了零样本和少样本两种战略。零样本测试中，动用了五款大型言语模型（LLMs），并针对两个数据集启动了功能评价。少样本测试中，筛选了零样本评价中体现最优的开源模型 Qwen-14B-Chat，进一步在两个数据集上启动了测试。

3.1.1 零样本测试

NER 的零样本测试成绩展如今下表中。

• (1) 一切大型言语模型中，ChatGPT-3.5-Turbo 以出色的体现上游，其在一切数据集和方法上均取得了最高的F1分数。在一切开源LLMs中，Qwen-14B-Chat 在 MSRA 数据集上取得了最高的F1分数，而 Baichuan-13B-Chat 则在 Weibo 数据集上创下了最高纪录。

• (2) 在一切开源LLMs中，参数规模为13B/14B的模型在相反方法和数据集的准确度上，一直逾越了参数规模为6B/7B的模型。除了 Baichuan-13B-Chat 在 Weibo 数据集上驳回2-Stage方法获取的F1分数低于 Qwen-7B-Chat 0.55之外，参数规模较大的模型在F1分数上广泛优于参数规模较小的模型。这或者是由于 规模更大的LLMs领有更丰盛的实体识别相关常识 ，从而带来更精准的分类效果。

• (3) 在涵盖两个数据集和五款LLMs的共10项测试中，2-Stage方法在7项测试的F1分数上逾越了基础法。2-Stage方法在每次测试中至少优化了1.31个百分点，最高优化了18.01个百分点的准确率。这标明2-Stage方法能更有效地疏导模型识别所需类型的实体，从而清楚提高模型的预测准确度和F1分数。

• (4) 当模型坚持不变时，MSRA 数据集上的F1分数广泛高于 Weibo 数据集。这种差异可动力于几个要素：首先，两个数据集的难度级别不同；其次，MSRA 数据集源自报纸媒体，经常使用的是书面言语，而 Weibo 数据集来自社交媒体，言语格调更倾向书面语。 模型的外在常识与书面言语更为符合，因此在提取书面文本消息方面更为随心所欲 。

3.1.2 少样本测试

NER 的少样本测试结果如下表。作者对每种方法启动了三种不雷同本量的少样本测试：1个、5个和10个样本。

• (1) 少样本测试在四分之三的状况下F1分数逾越了零样本测试，这标明 提供示例有助于模型更好地理解义务 。但在2-Stage方法中，除了从零样本到一样本F1分数有所优化外， 参与样本数量并未清楚优化 ，甚至降低了F1分数，这重要是由于准确度的大幅下滑。2-Stage方法将NER义务拆分为两个子义务，随着示例的增多，模型在第一阶段倾向于生成更多类型以婚配示例中的多样性，这或者造成在第二阶段征询一个不存在的类型时模型失误地输入潜在答案，从而清楚降低了准确度和F1分数。

• (2) 在基础法中，除了在Weibo数据集上从1样本参与到5样本时准确度有所降低外，其余一切测试均显示，随着样本数量的参与，同一数据集上的准确度也随之提高。这是由于基础法的揭示缺少具体的义务形容，造成模型在零样本测试中对预测实体类型的了解不够明白。一旦提供了示例，模型就能更准确地识别出须要提取的实体，从而清楚优化了从零样本到一样本的准确度。随着样本数量的进一步参与，模型对义务的了解愈加深化，准确度也获取了进一步优化。

(3) 2-Stage方法的测试结果出现出不同的变动趋向。除了在Weibo数据集上从5样本参与到10样本时召回率细微降低外，其余一切测试都显示，随着样本数量的参与，同一数据集上的召回率有所优化。这或者与(1)中提到的要素无关，即生成更多内容时，试验的召回率也在必定水平上获取了改善。

3.2 相关抽取义务哪个模型强？

中文零样本相关抽取的结果如下表。

• (1) 大少数大型言语模型在类型解放下体现优秀，但 在不足解放时功能急剧降低 。没有类型解放，LLM必定在50种相关类型中做出选用，而适当的解放可以大大缩小对模型的搅扰消息。特意地，在某些特定类型的实体对中，只保管了正确的相关类型和“无上述相关”(NoTA)。

• (2) 传统基础法框架下的体现广泛优于QA4RE框架。这或者是由于DuIE2.0数据集的相关抽取义务关于LLM而言并不复杂，而问答(QA)方式的引入反而参与了了解难度。此外，在无解放试验中，许多不正当的选项（如“Alice是Bob的出版商”）被参与揭示中，这些消息对LLM选用相关类型形成了搅扰。

• (3) 在两种设置下，LLM的体现大体分歧。ChatGLM3-6B、Qwen-7B-Chat、Qwen-14B-Chat和ChatGPT-3.5-turbo在有类型解放和无解放的环境中均展现出上游长处。在一切开源LLM中， Qwen-14B-Chat的体现最为出色 ，其在类型解放环境中的体现仅比ChatGPT-3.5-turbo低0.03个百分点。

• (4) 在无解放的QA4RE环境中，ChatGPT-3.5-turbo的体现远远超越其余LLM（70.01%对比47.35%），显示出其在面对较长且蕴含不正当句子的揭示时，具备比一切开源LLM更强的抗搅扰才干。但是，思考到模型规模的差异（175B对比最大的14B），这样的差距实践上也是在可接受范围内。

探讨DuIE 2.0数据集的局限性时，值得留意的是，在类型解放设置中，许多实体对只保管了正确的相关类型和“无上述相关”(NoTA)。例如，出版社和书籍之间的相关类型仅限于“出版”或NoTA。这在必定水平上解释了为什么LLM在类型解放条件下能够体现出色。

3.3 事情抽取义务哪个模型强？

上表展现了零样身手情抽取义务的结果。鉴于事情抽取对模型了解力的更高应战，只能驳回两阶段合成法，才干提炼出更为清晰的答案。ChatGPT以其出色的了解力和对复杂揭示格局要求的精准掌握，再次以一切大型言语模型中最高的F1分数领跑。在开源模型畛域， Baichuan2-13B-Chat体现出色，虽然其F1分数仍落后ChatGPT高达31.22分 。

• 论文原文:

本文转载自，作者：

<<基于开源AI数据框架LlamaIndex构建高低文增强型LLA运行

Google新钻研实用于百万级单元格的TableRAG>>

附 用于提取的揭示词 哪个中文开源大模型在消息抽取上效果最好