一文读懂OpenGVLab带来的最新视觉预训练框架
大模型技术论文始终,每个月总会新增上千篇。本专栏精选论文重点解读,主题还是围绕着行业通常和工程量产。若在某个环节产生卡点,可以回到大模型必备声调或许LLM面前的基础模型从新阅读。而最新科技(Mamba,xLSTM,KAN)则提供了大模型畛域最新技术跟踪。若关于具身自动感兴味的请移步具身自动专栏。技术宅费事死磕AI架构设计。当然最关键的是订阅“鲁班模锤”。
在过去的十年中,ImageNet预训练的视觉模型清楚提高了计算机视觉水平,在各种视觉义务中始终取得打破。ImageNet的成功激起了人们进一步探求从头开局预训练视觉模型的更好方法。最近,预训练的重点已从手动注释数据转移到大规模的网络爬虫图像文本数据。这一转变的一个关键里程碑是CLIP,它应用的图像-文本对的数据比ImageNet大数百倍,在各种义务中提供出色的功能,并逐渐成为视觉模型预训练的干流方法。
基于这一趋向,人们对探求图像-文本交织的数据的兴味越来越大,这在互联网上更为广泛。与CLIP中经常使用的结构化图像-文本对不同,这种交织数据是自在格局和非配对的,规模更大,文本消息更丰盛。充沛应用这些图像-文本交织的数据关于进一步大规模改良视觉模型预训练是必要的。
1.一图读懂
这张图片完整的对比了新模型与CLIP的差异。(a)展现了来自CLIP的对比学习框架,而(b)展现了陈腐的LCL预训练框架。全体而言,与CLIP相比,LCL可以在训练视觉编码器的时刻经常使用图像和文本交叉的训练数据。值得留意的是这两个框架在训练终了的时刻,可以将其中的text-encoder或许经常使用的大模型摈弃。
(c)则是展现了多模态的增量训练环节,将训练好的视觉编码器有选用地解冻或微调,而后依照传统的训练模型启动。当然这个环节也是允许图像-文本的交织训练数据。但是,其关键指标是使预训练的视觉编码器和大言语模型坚持分歧。
钻研人员提出这种训练框架的思绪在于人造言语处置最近一项钻研标明,现代言语模型的成功源于将训练数据集紧缩为模型参数。这种紧缩学习也实用于多模态畛域,只是要紧缩的数据从结构化纯文本裁减到图像-文本交织的数据。由于图像是原始像素和非结构化的,通常蕴含不用要和无法预测的细节。这些细节与初级语义义务有关,应该在紧缩学习中摈弃。所以应该调整这种紧缩算法,以便于能够顺应图像数据的添加。另外文本-图像交织的学习数据的将会更好的提取语义形象。
全体而言,Latent Compression Learning是一个新的视觉预训练框架,旨在经过最大化因果留意模型输入和输入之间的互消息来启动有效的潜在紧缩学习。
两个随机变量的互消息(mutual Information,MI)度量了两个变量之间相互依赖的水平。详细来说,关于两个随机变量,MI是一个随机变量由于已知另一个随机变量而缩小的“消息量”(单位通常为比特)。互消息的概念与随机变量的熵严密关系,熵是消息论中的基本概念,它量化的是随机变量中所蕴含的“消息量”。
框架的外围现实是经过因果留意模型来成功潜在的消息紧缩学习。
因果留意模型通罕用于序列预测或生成义务,确保每个输入仅依赖于前面的输入
LCL 时的模型架构概览如上图所示。在交织的图像文本输入序列中,引入不凡标志 <BoI> 和 <EoI>,区分作为图像中视觉嵌入的开局和完结的不凡标志。原文驳回 Vision Transformer (ViT)作为视觉编码器,它输入一系列图像块并输入一系列潜在示意。这最为关键的是损失函数,也就是训练指标的设定。
目前提升指标可以合成为两局部:第一局部为对比学习,就是上图最下面的那根线,对比视觉“潜变量”和先前高低文的语义分歧性(对比的对象是<BOI>标识的输入)。第二局部为自回归预测:就是传统文本生成的对比,大文言就是将生成的字符和预期的字符比拟。综合两者的差异,反向的微和谐训练模型。
这两个训练指标相互补充,学习到的视觉潜变量既保管了可以从先前高低文中预测的消息,又蕴含了预测后续高低文所需的消息,从而成功了有效的视觉预训练。
2.潜在紧缩学习
自回归言语建模同等于紧缩学习。假定