模型架构变革与识别机制再更新 CLIP视觉感知还能怎样卷

2024-11-15

近年来，随着计算机视觉与人造言语处置技术的飞速开展，CLIP（Contrastive Language-Image Pre-training）模型作为一种弱小的跨模态预训练模型，其运行与钻研畛域始终拓展。为了进一步优化CLIP模型在处置复杂义务时的效劳与精度，泛滥钻研团队努力于对传统的CLIP模型启动多维度、深档次的改良，旨在增强其特定畛域的才干，比如增强CLIP在少样本分类义务上的泛化才干、细化CLIP的视觉识别区域、强化CLIP对图像内容的关注而非对图像非内容特色的关注、优化图像-文本跨模态对齐等才干。

在详细实施上，这些 改良大多聚焦于CLIP的视觉编码器和文本编码器的变革 。例如，经过对编码器的留意力池化层启动参数微调，可以使其愈加顺应特定义务的需求；引入多模态通道则可以增强模型在处置跨模态消息时的灵敏性和鲁棒性；变革最终回归层则可以间接优化模型的输入性能；而改良输入数据的形式，如为模型提供伪标签或预先增强图像、文本数据，则可以从源头上优化模型的学习效率和效果。这些变革包括但不限于以下几个方面：

本文精心梳理了数篇前沿钻研，这些钻研聚焦于如何经过翻新战略改良传统的CLIP模型，以清楚增强其处置复杂义务的才干。从优化少样本分类的泛化性到细化视觉识别精度，再到深化图像内容与文本之间的跨模态对齐，每一篇都为咱们提醒了CLIP模型后劲的新边界。接上去就让咱们一同看看CLIP模型还能如何被进一步强化与拓展吧！

经常使用语义感知微调增强 Few-shot CLIP

关键词：CLIP的视觉编码器留意力池层参数微调

文章总结

文章提出了一种名为Semantic-Aware FinE-tuning (SAFE)的新方法，旨在经过微调CLIP模型的视觉编码器中的特定部分来增强其在 Few-shot场景下的体现。文章首先指出，在少样本(few-shot)微调环节中，间接驳回预训练的CLIP模型或许造成劫难性忘记和过拟合。此外，预训练的参数或许并不齐全适宜一切下游义务。CLIP的视觉编码器蕴含一个共同的 留意力池层，该层对密集特色图口头空间加权求和 。由于密集特色图中蕴含了丰盛的语义消息，文章以为应该依据下游义务的详细需求来调整这些特色的权重。为了处置上述疑问，文章提出了SAFE方法。 这一方法在训练环节中微调留意力池层的参数，目的是让模型能够专一于对义务更为关键的语义特色。 例如，在宠物分类义务中，模型应更多地关注耳朵和眼睛，而不是车辆分类义务中或许更关注的侧镜。在推理阶段， SAFE驳回了一种残差混合技术，联合了经过微调的留意力池层和原始留意力池层的特色。这样做可以整合来自少样本的特定常识和预训练模型的先验常识。 SAFE方法不只独立有效，还可以与现有的适配器方法(如SAFE-A)兼容，进一步优化CLIP在少样本分类义务中的体现。文章经过在11个基准数据集上的宽泛试验，证实了SAFE和SAFE-A方法在1-shot和4-shot设置下均清楚优于现有最佳方法。

模型解析

该文章改良CLIP在少样本分类义务上的泛化才干的关键在于微调了CLIP视觉编码器中的 留意力池层 的参数，使其愈加适用于义务，并且整合了微调后的和原始留意力池层。 传统的CLIP模型的视觉编码器关键蕴含以下几类层： 视觉特色提取层（包括卷积层、激活层、归一化层、残差衔接）、 留意力池层（这是CLIP特有的层，它经常使用多头留意力机制来对密集特色图启动空间加权求和，生成能够捕捉图像全局高低文消息的特色示意） 、池化层（用于降落特色的空间维度，从而缩小参数数量和计算量，同时使特色检测愈加鲁棒）、全衔接层（在卷积神经网络的末端，用于将学习到的特色映射到最终的输入，例如类别概率）。文章对 留意力池层启动的参数微调是基于CLIP在池化层之前的密集特色的无心义的语义属性，从而促使模型依据特定的下游义务关注不同的语义消息。

详细来说，CLIP共同的留意力池层应用了Transformer的多头留意力机制。留意池层外部的操作如下：经过线性层Linearq将全局平均特色F映射到query q，经过线性层Lineark和Linearv将每个空间位置的密集特色F映射到key-value对。而后，留意池层经过缩放后的点积留意（dot-product attention）获取输入的密集特色的空间加权和，再输入线性层Linearc。留意池层的输入是整个图像的综合示意，可以捕捉密集特色映射中的关键语义，用于视觉识别。 简而言之，留意池化层对密集特色中的各种空间语义赋予不同的权重，经过加权和的方法将特色池化。

另内在推理环节中，文章将微调后的留意池层与原始留意池层启动残差混合，将预训练获取的先验常识与Few-shot常识联合起来，从而防止了在少样转义务上微调或许造成的劫难性忘记疑问。

Alpha-CLIP：关注你想重点关注的部分，看这篇就够了

关键词：在CLIP输入中引入新通道

文章总结

对比言语-图像预训练（CLIP）在从不同义务的图像中提取有价值的内容消息方面施展着至关关键的作用。它对齐文本和视觉形式来了解整个图像，包括一切细节，甚至是那些与特定义务有关的细节。但是，为了更精细地理解和控制图像的编辑，关注特定的感兴味区域变得至关关键，这些区域可以被人类或感知模型批示为点、蒙版或框。为了满足这些要求，咱们引入了 Alpha-CLIP，这是 CLIP 的增强版本，带有辅佐 Alpha 通道，用于倡导关注区域，并经过构建的数百万个 RGBA 区域文本对启动微调。Alpha-CLIP不只保管了CLIP的视觉识别才干，而且能够准确控制图像内容的重点。它在各种义务中都体现出了有效性，包括但不限于放开环球识别、多模态大型言语模型和条件 2D/3D 生成。它具备很大的后劲，可以作为图像相关义务的多配置工具。

模型解析

文章引见了一个名为Alpha-CLIP的模型，它是Contrastive Language-Image Pre-training (CLIP)的一个增强版本， 关键改良在于参与了一个辅佐的Alpha通道，用于批示模型应该关注图像中的特定区域。 以下是对Alpha-CLIP模型架构的总结：

总结来说，Alpha-CLIP经过对CLIP模型的裁减，引入了Alpha通道来指定图像中的关注区域，并经过少量RGBA区域文本对的微调，成功了对图像特定内容的准确控制和强调，同时坚持了CLIP的原有视觉识别才干。

CLIP-VG：基于Self-paced课程学习，使CLIP成功视觉定位

关键词：变革CLIP最终回归层来成功视觉定位，self-paced式端到端优化

文章总结

视觉定位（VG, Visual Grounding）是视觉和言语畛域的一个关键主题，它将由文字表白形容的特定区域定位在图像中。为了缩小对手动标志数据的依赖，曾经开发了无监视视觉定位技术，以经常使用伪标签来定位区域。但是，现有无监视方法的性能高度依赖于伪标签的品质，这些方法总是遇到多样性有限的疑问。为了应用视觉和言语预训练模型来处置视觉定位疑问，并正当应用伪标签，咱们提出了CLIP-VG，这是一种新方法，可以对带有伪言语标签的CLIP启动self-paced课程学习。咱们提出了一种便捷而高效的 端到端网络架构 ，以成功CLIP到视觉定位的迁徙学习。基于CLIP架构，进一步提出单源和多源self-paced课程算法，该算法可以逐渐找到更牢靠的伪标签来学习最优模型，从而成功伪言语标签的牢靠性和多样性之间的平衡。在单源和多源场景下，该方法在RefCOCO/+/g数据集上的体现清楚优于目前最先进的无监视方法，改良幅度为6.78%至 10.67%和 11.39%至 14.87%区分。其结果甚至优于现有的弱监视视觉定位方法。此外，咱们的方法在齐全监视的环境中也具备竞争力。

模型解析

总的来说，CLIP-VG模型经过self-paced课程学习的形式，有效地利用伪言语标签来优化视觉定位义务的性能，同时坚持了模型的高效性和泛化才干。

RWKV-CLIP：弱小的视觉言语表征学习

关键词：优化CLIP视觉、文本编码器

文章总结

对比言语-图像预训练（CLIP）经过经常使用从网站取得的图像-文本对裁减数据集，显着提高了各种视觉-言语义务的性能。本文从数据和模型架构的角度进一步讨论了CLIP。为了处置杂噪声数据的普遍存在疑问并提高从互联网抓取的大规模图像文本数据的品质，咱们引入了一个多样化的形容生成框架，该框架可以应用大型言语模型（LLM）从基于 Web 的文本、分解题目和检测标签中分解和提炼内容。 此外，咱们提出了RWKV-CLIP，这是第一个由RWKV驱动的视觉言语表征学习模型，它将transformer的有效并行训练与RNN的高效推理相联合。 在各种模型尺度和预训练数据集上的综合试验标明，RWKV-CLIP是一个弱小而高效的视觉言语表征学习，它在几个下游义务中成功了最先进的性能，包括线性探针、零样本分类和零样本图像-文本检索。

模型解析

RWKV-CLIP由 多个空间混合(Spatial Mixing)和通道混合(Channel Mixing)模块重叠而成 ，经过这些模块成功对输入图像和文本的深化处置，从而优化视觉、文本特色的融合。

为了提矮小规模网络图像-文本数据的品质，引入多样化形容生成框架，应用大型言语模型（LLMs）分解和优化来自网络文本、分解字幕和检测标签的内容。 RWKV-CLIP经过改良的编码器架构，成功了图像和文本之间的更优跨模态对齐。模型经过优化数据和模型架构，增强了对噪声数据的鲁棒性，尤其是在处置大规模网络数据时。

CLAP：如何将内容与格调隔分开？增强提醒对比学习来帮你

关键词：改良CLIP编码器

文章总结

对比视觉言语模型（如CLIP）因其学习特色杰出的泛化才干，在多种下游义务中取得了宽泛关注。但是，这些模型学习的特色往往融合了内容微格调消息，这在必定水平下限度了其在散布变动下的泛化才干。为了克制这一局限性， 文章驳回因果生成视角来处置多模态数据，并提出联合数据增强的对比学习方法，以从原始示意中分别出内容特色 。为成功这一指标，文章首先探求了图像增强技术，并开发了一种方法将其无缝集成到预训练的CLIP类模型中，以提取纯正的内容特色。 更进一步地，作者意识到文本数据固有的语义丰盛性和逻辑结构，探求了文本增强的经常使用，以从格调特色中分别出潜在内容。 这使得CLIP类模型的编码器能够专一于潜在的内容消息，并经过预训练的CLIP类模型优化学习到的示意。经过在多个数据集上启动了宽泛的试验，结果标明，在零样本和少样本分类义务上取得了清楚改良，同时对各种扰动的鲁棒性也获取了增强。这些结果凸显了文章所提方法在优化视觉言语示意和推进多模态学习畛域最新停顿方面的有效性。

模型解析

文章提出了一种名为CLAP（Contrastive Learning with Augmented Prompts）的新方法，旨在经过对比学习和数据增强来分别视觉-言语模型中的内容微格调特色。

总结来说，CLAP经过联合因果生成模型、图像和文本增强技术，以及对比学习，有效地从CLIP类模型中分别并提取了内容特色，从而提高了模型在多模态学习中的性能和鲁棒性。

关注你的近邻：免训练的放开词汇语义宰割

关键词：经过在CLIP的视觉Transformer的自留意力中强迫口头补丁定位成功密集预测

文章总结

虽然深度学习在密集视觉识别疑问（如语义宰割）上取得了清楚停顿，但传统方法仍遭到固定类别集的限度。与此同时，诸如CLIP（对比言语-图像预训练）之类的视觉-言语基础模型在泛滥零样本图像级义务中展现了特殊的有效性，这得益于其弱小的泛化才干。最近，一些钻研上班讨论了将这些模型运行于放开词会集语义宰割（Open-Vocabulary Semantic Segmentation, OVSS）。但是，现有方法往往依赖于不实际践的监视式预训练或须要访问额外的预训练网络。本钻研为无需训练的OVSS提出了一种弱小的基线方法，称为 邻域感知CLIP （Neighbour-Aware CLIP, NACLIP），这是一种针对此情形量身定制的CLIP便捷适配方法。 本文的方法在CLIP的视觉Transformer的自留意力中强迫口头补丁定位 ，虽然这关于密集预测义务至关关键，但在OVSS文献中却被漠视了。 经过融入无利于宰割的设计选用，咱们的方法在不须要额外数据、辅佐预训练网络或宽泛超参数调优的状况下，清楚提高了性能 ，使其在事实环球运行中具备高度的适用性。咱们在8个盛行的语义宰割基准上启动了试验，并在大少数状况下取得了最先进的性能。

模型解析

经过这些改良，NACLIP能够更好地顺应OVSS义务 ，特意是在没有额外训练数据或预训练网络的状况下，提高了模型对新类别的泛化才干。

视觉模型

<<往年必读的十篇最前沿论文入行端到端智能驾驶

AutoSplat敲门驾驶场景重构优于各种驾驶场景SOTA！应用解放GS打破视觉重建壁垒>>

模型架构变革与识别机制再更新 CLIP视觉感知还能怎样卷

经常使用语义感知微调增强 Few-shot CLIP

文章总结

模型解析

Alpha-CLIP：关注你想重点关注的部分，看这篇就够了

文章总结

模型解析

CLIP-VG：基于Self-paced课程学习，使CLIP成功视觉定位

文章总结

模型解析

RWKV-CLIP：弱小的视觉言语表征学习

文章总结

模型解析

CLAP：如何将内容与格调隔分开？增强提醒对比学习来帮你

文章总结

模型解析

关注你的近邻：免训练的放开词汇语义宰割

文章总结

模型解析

您可能还会对下面的文章感兴趣：

随便看看