场景图常识增强多模态结构化示意才干

2024-11-14

一、引言

视觉言语模型（VLMs）已在多种多模态了解和生成义务中展现了清楚的功能体现。但是，虽然这些多模态模型在宽泛的义务中体现出色，但是它们是否有效地捕捉结构化常识(即了解对象间相关以及对象与其属性间相关的才干)依然是一个未处置的疑问。

如图（a）所示，咱们在剖析CLIP模型时发现，与图像不婚配的题目（A horse is riding an astronaut）相比，图像与正确婚配的题目（An astronaut is riding a horse）之间的CLIP分数（即语义相似性）体现出较低的数值。图(b)展现了当替换用来润色两个对象的属性时，模型在准确辨别它们的语义上或者遇到应战。这些发现标明，CLIP模型发生的通用表征才干不可辨别那些包括相反单词但在结构化常识方面存在差异的文本段落。换言之，CLIP模型体现出相似于词袋模型的特点，未能有效了解和捕捉句子中的细粒度语义。

针对上述疑问，咱们提出了Structure-CLIP，旨在经过场景图常识增强多模态结构化示意。与NegCLIP的随机替换方法不同，Structure-CLIP驳回了基于场景图的疏导战略来启动单词替换，以更准确地捕捉底层语义用意。此外，咱们提出了一种常识增强编码器，它应用场景图来提取关键的结构消息，并经过在输入层面上融合结构化常识，从而增强结构化示意的才干。在Visual Genome Relation和Visual Genome Attribution两个数据集上的试验结果展现了咱们的Structure-CLIP模型的出色功能以及其组件的有效性。此外，咱们在MSCOCO数据集上启动了跨模态检索评价，结果标明Structure-CLIP仍保管了充沛的通用表征才干。

总的来说，咱们的奉献点可以总结成以下三点：

二、疑问设定和处置思绪

给定一个图像，以及两个图像题目和，其中图像题目与图像内容婚配，而则与图像不婚配。关键的是，这两个文本题目由相反的单词构成，但其单词顺序有所不同。细粒度图文婚配义务的外围指标是在两个高度相似的图像题目中准确识别出与图像婚配的题目。详细来说，义务需要模型使得图像与婚配文本的得分高于图像与不婚配文本的得分。

如图所示是咱们提出的Structure-CLIP模型的框架图。在该模型中，咱们首先应用场景图来生成由相反词汇构成但含有不同细粒度语义的高品质语义负样本，而后经过对比学习的形式来优化细粒度结构化示意的才干（如图左侧所示）。其次，咱们设计并成功了一种结构化常识增强的编码器，该编码器以场景图作为输入，并将结构化常识融入到结构化示意中（如图右侧所示），从而成功了却构化消息向文本消息的有效常识迁徙。

三、方法

1.基于场景图的语义负采样对比学习战略

在形容视觉场景时，场景图经过更粗疏地描写对象间的属性和相关，提供了更准确和片面的语义消息。咱们应用场景图解析工具，将文本句子解析成相应的场景图。以题目 Black and white cows sit in a pile of yellow hay 为例，在生成的场景图中，咱们可以关注到文本中的关键元素，如 cow 和 hay ；相关属性，如white和yellow，用于形容对象的色彩或其余属性；以及相关，如 sit in ，示意对象之间的空间位置或其余类型的相关。经过这种形式生成的场景图能够将文本消息转换为更详细的对象形容和相关，从而提供更精细的结构化常识表白。这有助于咱们更深化地理解句子中表白的结构化常识，可以增强细粒度的视觉-言语联结示意，从而提高模型的全体功能和成果。

在本钻研中，咱们驳回了一种基于场景图疏导的战略来构建高品质的语义负样本。这一方法与先前随机替换句子中单词位置的方法构成了显明对比。咱们的语义负样本在坚持句子的基本结构不变的同时，扭转了句子的细粒度语义。这一战略确保了负样本在语义层面上与正样本存在清楚的差异，同时坚持了词汇的基本组成。因此，借助这些高品质的语义负样本，咱们的模型能够更有效地学习和把握细粒度的结构化语义示意。

详细来说，关于文本场景图中的三元组，咱们经过替换文本中的两个对象主体来生成高品质语义负样本。例如，经过替换文本 An astronaut is ridding a horse 中的对象 astronaut 和 horse，咱们可以失掉高品质负样本``A horse is ridding an astronaut”。

在本钻研中，咱们驳回的对比学习方法旨在经过接近图像I与其对应原始题目W，同时将图像I与生成的高品质语义负样本W分别，以此来学习高效的多模态表征。为此，咱们设计了一个多模态对比学习模块，其损失函数定义如下：

为了确保模型在不同运行场景中均能展现出稳固的通用表征才干，咱们驳回了一种联结训练战略。该战略结合了传统的小批量图像-文本对比学习损失和新提出的损失函数。详细而言，原始的图像-文本对比学习损失L整合了从图像到文本的对比损失L以及从文本到图像的对比损失L。因此，综合思考两个方向的损失，图像-文本对比学习的总体损失可示意为：

因此，咱们的方法结合了hinge损失与InfoNCE损失，从而成功更片面的优化。详细地，最终的损失函数表白式为：

咱们实施的联结训练战略一方面有效地坚持了模型的通用性，这一点在跨模态检索义务中体现为清楚的功能优化。另一方面，该战略极大地增强了模型在处置结构化示意方面的才干。这种改良不只要效提高了模型无了解句子中细粒度语义消息的才干，还增强了捕捉深档次语义咨询的才干，从而在处置复杂文本和图像数据时体现出更高的准确性。

2.结构化常识增强框架

编码器驳回场景图作为文本输入的辅佐消息，旨在经过这种共同的结构化输入来增强模型的结构化表征才干，并成功从结构化表征到文本表征的高效常识迁徙。咱们设计的常识增强编码器旨在将常识结构化并整合到模型输入中。结构化常识包括对象及其属性和对象间的相关。经过从生成的场景图中提取这些结构化消息，咱们能够失掉丰盛的语义消息，从而有效地捕捉文本的细粒度语义。这一环节触及了对对象及其属性和对象间相关的明白建模。

首先，咱们为两种结构化常识（即属性对和三元组）制订了一致的输入格局，而后经过三元组编码形式来失掉三元组向量示意，将 K 个三元组转换为 K 个语义嵌入向量。再而后将三元组语义嵌入向量输入到Transformer层中来取得最终的结构化表征。常识增强编码器能够从提供的一切三元组输入中提取丰盛的结构化常识。这种结构化常识关于增强模型的表征才干至关关键，并且对优化模型的全体功能有清楚影响。但是，仅仅依托结构化常识或者在某种水平下限度模型在捕捉通用语义方面的才干。因此，为了成功更片面的语义了解，咱们提出了一种将文本嵌入与结构化常识嵌入结合的方法，来失掉文本侧的全体表征。经过这种形式，咱们的模型不只能够捕捉到整个句子所包括的词汇级消息，还能够综正当解句子中的结构化常识，从而捕捉更详细的语义消息。

四、试验

1.试验结果

咱们将Structure-CLIP与八种代表性的现有方法启动了比拟，这包括多种多模态模型以及先进的大型言语模型。在VG-Relation和VG-Attribution数据集上，咱们的Structure-CLIP模型展现出了出色的功能，逾越了一切参考的基线模型，成功了最先进的功能体现。这一结果也标明了经过结合场景图常识，咱们的模型清楚增强了其结构话示意才干。

咱们也对Structure-CLIP模型在通用示意义务上的功能启动了详细评价。试验结果标明，在清楚增强结构化示意才干的同时，Structure-CLIP模型依然坚持了良好的通用示意才干。

2.消融试验

咱们对CLIP-base模型的多个增强版本启动了详细的消融钻研。在驳回语义负采样战略的状况下，模型功能相比于传统的随机负样本采样战略成功了清楚优化。当常识增强编码器与语义负采样战略结合经常使用时，模型功能成功了清楚优化，这标明常识增强编码器在此组合战略下的成果失掉了清楚增强。

咱们对Structure-CLIP在不同超参数和嵌入方法下启动了消融试验。

咱们探求了三种不同的三元组嵌入方法，以有效整合三元组消息。相比之下，咱们提出的三元组嵌入方法既思考了元素的位置，又综合了它们的组合消息。咱们的Structure-CLIP模型在捕捉句子中的细粒度语义消息方面体现出更强的才干，并清楚增强了多模态结构化示意的功能。

3.Case剖析

这些案例明晰地展现了Structure-CLIP在给定图像的状况下成功辨别婚配和未婚配的题目，且辨别成果十分清楚。CLIP模型在确定这些题目与给定图像之间的语义相似性时面临了必定的应战。特意是在两个属性或对象被替换的状况下，CLIP模型体现出了接近相反的语义相似性判别，提醒了其在捕捉结构化语义方面的局限性。相较于CLIP模型，Structure-CLIP对细粒度语义的庞大变动展现了更高的敏理性，这突显了其在结构化常识表征方面的长处。

五、总结

在本文中，咱们提出了Structure-CLIP，旨在整合场景图常识来增强多模态结构化示意。首先，咱们经常使用场景图来指点语义否认样例的构建。此外，咱们引入了一个常识增强编码器来应用场景图常识作为输入，从而进一步增强了却构化示意。咱们提出的Structure-CLIP在预训练义务和下游义务上优于一切最近的方法，这标明Structure-CLIP可以有效地和鲁棒地理解多模态场景中的细粒度语义。

作者：

<<1 Geoffrey 从人类之父到AI 与咱们的来源之源回想录 Hinton

定制化视频生成新榜样！零样本主体驱动阿里等颁布DreamVideo 准确静止控制！复旦&amp>>