中科大提出UniMEL框架

2024-11-15

多模态实体链接的关键性与应战

多模态实体链接（Multimodal Entity Linking, MEL）是常识图谱畛域中的一项基础义务，旨在将文档中的提及（mentions）链接到常识库中的实体。随着社交媒体和互联网的开展，文本和视觉的多模态性成为数据义务中的关键媒介。同时，线上消息的品质错落不齐，许多提及自身含混不清，高低文消息毛糙，仅依托文本模态往往难以启动有效消歧。但是，文本和视觉模态的结合往往能更准确、更轻松地启动消歧。例如，提及“United States”或者指代不同的实体，如国度称号、体育队伍或船只，但当同时思考文本和视觉消息时，可以更容易地将“United States”准确链接到“美国国度轮椅橄榄球队”的实体。

虽然深度学习方法在MEL义务中取得了必定的成绩，经过融合提及文本和图像失掉提及示意、运行交叉留意力机制和编码图像提取特色等方法，但这些方法仍面临多个应战：

为了处置上述疑问，咱们引入了一个一致框架UniMEL，旨在经常使用大型言语模型处置MEL义务，充沛融合多模态提及的图像和高低文，并生成实体的新繁复形容。据咱们所知，这是初次在MEL义务中引入基于多模态大型言语模型（MLLMs）的方法。

论文概览：题目、作者、会议和链接

题目 : UniMEL: A Unified Framework for Multimodal Entity Linking with Large Language Models

作者 : Qi Liu, Yongyi He, Defu Lian, Zhi Zheng, Tong Xu, Che Liu, Enhong Chen

会议 : Proceedings of the 33nd ACM International Conference on Information and Knowledge Management (CIKM ’24

多模态实体链接的定义与运行场景

多模态实体链接（Multimodal Entity Linking, MEL）是一种在常识库中将文本提及（mentions）与实体相链接的义务，这些提及不只蕴含文本消息，还包括视觉消息。这种链接模式在许多人造言语处置（NLP）的下游运行中十分有用，例如疑问回答和介绍系统。随着社交媒体和互联网的开展，文本和视觉的多模态性成为了数据义务的关键媒介。例如，提及“美国”或者指向不同的实体，如国度、体育队伍或船只，但当同时思考文本和视觉消息时，可以更准确地将其链接到“美国国度轮椅橄榄球队”的实体。

UniMEL框架的外围组件与上班流程

1. LLMs-based Entity Augmentation

为了处置实体形容过长和消息冗余的疑问，UniMEL框架经常使用大型言语模型（LLMs）来有效地摘要实体形容。经过向LLMs提供实体称号和其原始形容，并设计特定指令来强调生成摘要的繁复性和内容要求，LLMs能够生成新的、繁复的、消息丰盛的实体形容摘要。

2. MLLMs-based Mention Augmentation

应用多模态大型言语模型（MLLMs）的弱小视觉了解和指令遵照才干，UniMEL框架增强了提及的形容消息。经过将提及的图像、称号和文本高低文输入MLLMs，并设计特定的义务指令来疏导MLLMs专一于提及自身，从而生成高品质的文本形容，增强提及的消息。

3. Retrieval Augmentation

在选用最佳婚配实体之前，理论须要增加候选集并尽或者确保其准确性。经过增强的实体和提及消息，首先将实体称号和新形容衔接起来，并经常使用预训练的嵌入模型失掉其嵌入示意。而后，计算提及嵌入与常识库中每个实体嵌入的余弦相似度，检索出相似度最高的K个实体。

4. Multi-choice Selection

在域特定义务和数据上微调LLMs可以增强其在处置特定义务中的才干。经过高品质的数据和小规模候选集，设计了一个用于LLM指令调整的揭示模板。LLM依据给定的指令和文本输入预测答案，从而选用与提及最婚配的实体。

试验设计与数据集引见

1. 数据集引见

这些数据集的统计消息如下表所示：

数据集	训练集样本数	验证集样本数	测试集样本数
Wikidiverse

2. 试验设置

咱们的试验设置遵照了之前的上班，数据集被划分为训练集、验证集和测试集。咱们经常使用Wikidata作为咱们的常识库，并移除了那些在Wikidata中找不到对应实体的提及。在Wikidiverse中，数据集被划分为80%训练集、10%验证集和10%测试集。在WikiMEL和Richpedia中，数据集被划分为70%训练集、10%验证集和20%测试集。

关键试验结果与剖析

1. 试验结果

咱们的UniMEL框架在三个数据集上的体现如下：

这些结果标明，咱们的UniMEL框架在多模态实体链接义务中具备清楚的长处，并且能够有效地处置不同的数据集和实体类型。

2. 结果剖析

咱们的UniMEL框架经过整合文本和视觉消息，并对实体形容启动精简，有效地提高了实体链接的准确性。此外，咱们还对模型启动了微调，仅调整了约0.26%的模型参数，这进一步提高了模型在特定畛域义务上的体现。

经过对比不同的基线方法，咱们发现即使是纯文本方法（如BERT），也能在某些数据集上展现出不错的功能。但是，结合视觉消息的方法（如咱们的UniMEL）在处置含混不清和品质较低的提及消息时，体现更为杰出。

总体来说，这些试验结果验证了咱们的UniMEL框架在多模态实体链接义务中的有效性和先进性。

模型的长处与应战

1. 模型的长处

UniMEL模型在多模态实体链接义务中展现出清楚的长处。首先，该模型经过结合大型言语模型（LLMs）和多模态大型言语模型（MLLMs），有效地处置了文本和视觉消息的融合疑问。例如，经过MLLMs对提及的图像和文本高低文启动增强，使得模型能够更深化地理解图像与其高低文之间的语义相关。此外，UniMEL应用LLMs的总结才干，对实体形容启动精简，从而提高了实体检索的准确性和效率。

其次，UniMEL在候选实体集的缩减和重排方面也体现杰出。经过嵌入模型对实体和提及的嵌入示意启动相似度计算，模型能够有效地增加候选实体范围，并经过LLMs启动准确的多选婚配，从而提高了链接的准确性。

最后，试验结果显示，UniMEL在三个地下的多模态实体链接数据集上均到达了最佳功能，验证了其在实践运行中的有效性和优越性。

2. 模型的应战

虽然UniMEL在多模态实体链接义务中体现出弱小的才干，但仍面临一些应战。首先，文本和视觉消息的有效融合仍是一个复杂的疑问，尤其是在消息互补性无余的状况下，如何设计更有效的融合机制是提高模型功能的关键。

其次，虽然LLMs在处置文本消息方面体现杰出，但它们在特定畛域常识的运行上仍有限。如何让LLMs更好地顺应特定畛域的常识，以提高模型在特定义务上的体现，是未来钻研的一个关键方向。

最后，从实体形容中提取有效消息并启动高效处置的疑问也是应战之一。模型虽然经过LLMs的总结才干对形容启动了精简，但如何进一步优化消息提取和处置流程，以提高处置速度和准确性，仍需进一步探求。

论断与未来上班方向

UniMEL框架经过整合LLMs和MLLMs，有效地处置了多模态实体链接义务中的关键疑问，如文本和视觉消息的融合、实体形容的精简和候选实体集的高效处置等。试验结果标明，UniMEL在多个地下数据集上均取得了优秀的功能，验证了其在实践运行中的有效性和前景。

未来的上班方向可以从以下几个方面启动：

本文转载自，作者：

<<生成式AI的开展方向应当是Chat还是Agent

顶穿天花板！AI编程初创公司应战1亿高低文窗口编码才干超级加倍！>>