多阶段对比学习多专家CLIP成功细粒度多模态表征学习

2024-11-15

当天给大家引见一篇港中文、上海AI Lab等机构联结宣布的CLIP优化上班，构建了基于多专家网络的MoE模型，成功更细粒度的视觉表征器训练，优化下游多模态大模型

论文题目 ：CLIP-MOE: TOWARDS BUILDING MIXTURE OF EXPERTS FOR CLIP WITH DIVERSIFIED MULTIPLET UPCYCLING

下载地址 ：

背景

基于CLIP的图文对比学习预训练是构建多模态大模型的一个外围基础模块。经过图片和文本的对比学习环节，训练图片和文本的Encoder，能够对齐图片和文本这两个模态的表征。

但是，很多上班都发现，CLIP训练的Encoder，提取的更多是粗粒度的图像消息，例如CLIP的表征会存在语义不同、内容相似的图像被分到同一个类别中。这种比拟弱的视觉Encoder会影响下游义务的成果。

为了处置上述疑问，本文构建了一种基于多专家网络的CLIP模型，不同专家从不同维度提取视觉表征，优化视觉编码器才干。并且整个环节只有要基于已有的checkpoint启动finetune，不用从0训练CLIP模型。

建模方法

CLIP-MoE的外围建模方法可以分红3个局部：多阶段对比学习、多专家网络、训练模式。

多阶段对比学习是港中文在 Avoiding feature suppression in contrastive learning: Learning what has not been learned before 中提出的CLIP训练方法。启动多轮的CLIP训练，每轮训练后，依据表征启动聚类，下一轮的对比学习在每个聚类类簇内启动训练。经过多轮训练，获取一系列的CLIP模型。这种建模方法可以了解为，比如最开局对比学习学到了依据色彩启动表征对齐，在聚类后，色彩相反的聚类到了一同，第二阶段就可以学到色彩以外的其余消息启动表征辨别。经过这种模式成功不同维度的表征学习。

本文也应用多阶段对比学习的思绪，基于一个预训练的CLIP模型，将参数固定，只对Transformer中的FFN层启动finetune。经过多阶段对比学习，生成多组FFN参数。

基于上述不同阶段的FFN参数，可以构建多专家网络。经过门控网络，设定样本经过各个FFN的概率，各个FFN的输入结果启动加权求和。并且在损失函数中引入复杂平衡loss，防止MoE被少数专家主导的状况。

在训练模式上，蕴含2个阶段。第一阶段，在多阶段对比学习环节中，基于预训练CLIP，模型参数freeze，只对FFN层启动finetune。在第二阶段，解冻一切参数，只对多专家网络中的路由局部启动finetune。

试验结果

经过试验结果来看，本文的CLIP预训练方法在零样本学习场景的图文检索、图像分类等义务上取得了清楚的成果优化。

文中也经过case剖析了这种CLIP-MoE结构关于细粒度图文婚配的有效性。CLIP-MoE能够愈加关注图像中的细节消息，做出和文本更准确的婚配。

本文转载自，作者：

<<KDD24大厂介绍系统优化上班总结

时序预测中的多频率建模方法一文汇总>>

多阶段对比学习 多专家CLIP成功细粒度多模态表征学习

背景

建模方法

试验结果

您可能还会对下面的文章感兴趣：

随便看看

多阶段对比学习多专家CLIP成功细粒度多模态表征学习