打破视觉

2024-11-14

引言：探求视觉-言语对比预训练中的噪声和低品质标注疑问

在视觉-言语对比预训练中，噪声和标注品质被以为是影响训练效果的关键起因。本文经过深化钻研和剖析训练环节中的两个关键疑问——失误的负样本对调配和低品质及多样性无余的标注——提醒了经过处置这些疑问来提高训练品质的后劲尚未被齐全成功。

首先，咱们钻研了影响对比学习的噪声疑问，即在一个批次中或者会发现语义相似甚至相反的图像/标注被失误地视为负样本对。其次，咱们讨论了标注的低品质和多样性无余疑问，标注或者冗长且缺乏细节，喧闹，或与图像齐全有关。

为了处置第一个疑问，咱们提出了一种算法，经过图像-文本、图像-图像和文本-文本的相似性来开掘新的正样本对，以缩小因语义相似的图像/标注而发生的失误负样本。关于第二个疑问，咱们首先经常使用最先进的图像形容生成技术为每个训练图像生成伪标注，这些伪标注将作为给定图像的新实在正样本。而后，咱们提出在同一批次中经常使用多个伪标注启动训练，以有效参与标注的多样性。

经过运行所提出的处置打算，咱们最终取得了每个图像的多个正样本对，这象征着咱们须要经常使用一种能够顺应多个正样本的损失函数来训练咱们的模型。在这里，咱们提出经常使用sigmoid损失来满足这一需求，该损失准许每个样本和每个批次灵活变动的正样本数量，且对噪声具备鲁棒性。

疑问剖析：失误负样本对和低品质题目标影响

1. 失误负样本对的识别与批改

在大规模对比图像-文本预训练中，失误地将近似重复的样本视为负样本对是一个经常出现疑问。这种失误的负样本对会清楚阻碍训练环节和模型品质。为了处置这一疑问，咱们提出了一种算法，经过计算图像-文本、图像-图像和文本-文本的相似性，来从新调配这些失误的负样本对为正样本。这种方法可以有效缩小训练数据中由于语义相似的图像或题目而发生的失误负样本。

2. 题目品质与多样性的优化战略

低品质和多样性无余的题目会影响模型的训练效果。为了提高题目标品质和多样性，咱们首先经常使用先进的图像形容生成技术（如BLIP2）为每个训练图像生成伪题目，这些伪题目将作为给定图像的新真正正样本。而后，咱们提出在同一批次中经常使用多个伪题目（例如，每个图像选用五个题目）启动批量文本增强，以有效参与题目标多样性。

处置打算：新正样本的开掘与伪题目标批量文本增强

1. 基于相似性开掘新的正样本对

咱们提出的算法不只批改了失误的负样本对，还能够基于图像和文本特色的余弦相似性开掘新的正样本对。这一环节经过灵活调整正样本的数量来顺应模型训练，从而提高了训练的准确性和效率。

2. 经常使用伪题目启动批量文本增强

为了进一步提高模型对图像形容的准确性，咱们驳回批量文本增强的战略，将多个伪题目归入同一批次的训练中。这种方法不只参与了文本的多样性，还经过集成多个伪题目来改善了单个失误题目或者带来的负面影响，从而提高了模型的鲁棒性和形容才干。

模型训练：驳回sigmoid损失函数

1. Sigmoid损失函数的选用与长处

在处置视觉-言语对比预训练中，特意是在面对数据品质和噪声疑问时，传统的对比损失函数（如InfoNCE）或者无余以处置多个正样本的状况。这是由于这些损失函数通常假定每个样本只要一个正样本。为了处置这一疑问，咱们驳回了sigmoid损失函数。Sigmoid损失函数的关键长处在于它能够人造地处置每个样本灵活变动的正样本数量，且对噪声具备较强的鲁棒性。

在咱们的设置中，每个图像不只与其原始标注配对，还或者与经过算法生成的多个伪标注配对，这些伪标注是经过初级图像题目生成技术（如BLIP2）创立的。这种方法参与了训练环节中的正样本数量，有助于模型更好地理解和形容图像内容。sigmoid损失函数能够有效地处置这种多正样本的状况，而不会引入额外的计算老本。

2. 多正样本对训练的成功

为了参与训练数据的多样性和品质，咱们驳回了批量文本增强技术，即在同一批次中为每个图像生成多个伪标注。这些伪标注作为正样本输入模型，经过sigmoid损失函数启动训练。这种方法不只提高了标注的多样性，还经过集成多个伪标注来缩小单个失误标注对模型训练的影响。

此外，咱们还驳回了一种新的正样本开掘算法，经过剖析图像-文本、图像-图像和文本-文本之间的相似性来灵活地识别和校对失误的负样本对，将其转换为正样本。这一战略进一步参与了正样本的数量和品质，为模型训练提供了更丰盛的学习信号。

试验验证：数据集和试验设置

咱们的模型在多个地下可用的视觉-言语数据集上启动了预训练和测试，包括YFCC15M-v2、CC3M和CC12M等。这些数据集蕴含少量的图像-文本对，实用于视觉-言语对比学习的大规模训练。

在试验中，咱们经常使用了与CLIP相反的模型架构和设置，驳回AdamW优化器，学习率设置为1e-3，权重衰减为0.1。图像经过随机缩放和裁剪至224×224像素，运行随机翻转、高斯含糊和色彩颤抖等增强技术。文本数据则被截断至77个令牌。

一切模型均在8块NVIDIA A100 GPU上训练32个周期。咱们的试验设置旨在公平地与先前的上班启动比拟，并展现咱们方法在处置多正样本和噪声数据时的长处。经过这些试验，咱们证实了驳回sigmoid损失函数和多正样本战略的有效性，成功了在多个基准测试上的清楚功能优化。

试验结果与剖析：模型功能的清楚优化

1. 图像识别与检索的改良

在图像识别和检索方面，经过对比训练数据中的噪声和低品质标注的处置，咱们的方法在多个数据集上都显示出了清楚的功能优化。详细来说，咱们的模型在11个数据集上的图像识别平均优化了约6%，在Flickr30k和MSCOCO的图像检索义务上区分优化了约19%和15%。这一效果的优化归功于咱们对失误负样本对的纠正以及对训练数据品质的改良。

2. 不同组件的影响剖析

咱们的方法包括两个关键的技术改良：失误负样本对的纠正和批量文本增强。经过对这些组件的独自剖析，咱们发现图像-文本相似度矩阵（Sit）是最有影响力的，由于它不只协助过滤掉失误的配对，还调整了语义上相似的样本。此外，咱们还观察到，经常使用多个伪题目启动训练可以清楚提高模型的准确性，这验证了批量文本增强的有效性。

论断与展望：多正样本对战略的前景与应战

经过本钻研，咱们展现了在视觉-言语对比预训练中处置多个正样本对的后劲和效果。咱们的方法不只清楚提高了模型在图像识别和检索义务上的功能，而且还提出了一种新的损失函数——sigmoid损失，以顺应训练样本中正样本数量的灵活变动。

虽然咱们的方法取得了清楚的提高，但在实践运行中仍面临一些应战。例如，如何有效地从大规模噪声数据中开掘和应用真正的正样本对，以及如何进一步优化模型以处置更大规模的数据集。此外，多正样本对战略在不同类型的视觉-言语义务中的普适性和效果还有待进一步钻研。

总之，多正样本对战略为视觉-言语模型的训练提供了新的视角和或者性，预示着在智能图像标注、图像检索以及其余关系畛域的宽泛运行前景。

总结：视觉-言语预训练的新方向及其潜在影响

在视觉-言语预训练畛域，最新的钻研提出了一种新的方法，经过处置失误的负样本配对和低品质的图像形容疑问，清楚提高了模型的功能。这些疑问不时是影响训练品质的关键起因，而现有的处置打算尚未齐全施展其后劲。经过深化剖析和新算法的运行，钻研者们成功地推进了这一畛域的开展。

1. 失误的负样本配对疑问

在传统的对比学习中，每个批次中或者会失误地将语义相近的样本视为负样本对。这种现象在数据集中普遍存在，尤其是在大规模的图像-文本数据集中。为了处置这一疑问，钻研者提出了一种新的算法，经过剖析图像-图像、文本-文本和图像-文本之间的相似性，灵活地从新调配正负样本对。这种方法有效缩小了因语义近似而发生的失误负样本，从而提高了模型的训练效果。

2. 图像形容的品质和多样性疑问

传统的数据集中的图像形容往往品质不高，缺乏详细消息，这重大影响了模型的学习效果。为了提高形容的品质和多样性，钻研者驳回了最先进的图像形容生成技术，为每张图像生成多个伪形容。这些伪形容作为新的正样本介入训练，清楚参与了形容的多样性和品质。此外，经过批量文本增强技术，同一批次中的多个伪形容可以同时用于训练，进一步优化了模型的功能。

3. 新的损失函数

由于引入了多个正样本对，传统的对比损失函数已不再实用。钻研者提出经常使用sigmoid损失函数，这种损失函数可以灵敏地处置每个样本的灵活正样本数量，且对噪声具备较强的鲁棒性。这一改良使得模型训练愈加高效，同时也缩小了因失误标注带来的负面影响。

经过这些翻新方法的运行，钻研者在多个规范数据集上取得了清楚的功能优化，不只在图像识别义务上平均提高了约6%，在图像检索义务上也区分在Flickr30k和MSCOCO数据集上提高了约19%和15%。这些效果不只展现了处置失误负样本配对和提高图像形容品质的关键性，也为未来的视觉-言语预训练钻研提供了新的方向。

本文转载自，作者：

<<对于AI落地最后一公里这里有30条前沿洞察

在中构建人工自动驱动的搜查配置 DUCKDB>>