多模态大模型数据剖析与通常

数据集是大模型竞争的关键要素之一,AI大模型的打破得益于高品质数据的开展。训练大模型须要大规模、高品质、多模态的数据集,通常须要从各个畛域和多个数据源搜集数据,这些数据可以是文本、图像、语音、视频等多种方式。大言语模型训练经常使用的数据集规模迸发式增长。从2018年GPT-1数据粗放为4.6GB,2020年GPT-3数据集到达了753GB,而ChatGPT的数据集为超万亿单词的人类言语数据集(约45TB)。OpenAI并没有地下训练ChatGPT的相关数据集起源和详细消息,这也构成了一道有形的技术壁垒。经常出现的数据集如图1所示,关键由海外开源组织、高校、互联网巨头、政府机构等把握。

截至2023年7月底,国际10亿参数以上的各类大模型,已达113个,模型的裁减速度比数据集快3倍。谷歌钻研发现,数据集大小至少与模型大小一样关键,数据集和模型大小应该大概1:1以到达给定数量的训练计算下的最佳功能。因此下阶段AI的打破将得益于高品质数据,这是大模型功能优化、行业运行落地的关键,是否掌控相应的数据集,间接选择是否构建产业竞争长处[1]。

▲图1 经常出现多模态大模型训练数据集

一、典型数据集及指令剖析

现有低劣的多模态大模型如LLAVA[2]、miniGPT4[3]、pink[4]、cogvlm[5]等,具备相似的模型范式,模型结构普通包括VIT、对齐层、LLM三个局部。训练流程总体可分为两个步骤:

MLLM数据总体可分为三种:

上方重点剖析cogvlm中经常使用到的多模态数据集。

1.pretrain阶段

1) image caption数据

关键经常使用LAION-2B和COYO-700M数据集,为了提高模型的准确率,作者区分删除损坏的URL、NSFW图像、带有喧闹字幕的图像、带有政治成见的图像以及长宽比大于6或小于1/6的图像,最后构成大概1.5B规模的数据集用于模型预训练。

2)带有坐标的image caption数据

▲图2 Kosmos-2数据集标注示例图

2.finetune阶段

区分驳回了VQA、visual grounding等数据集对模型启动微调。详细见表1所示。 ▲表1 finetune阶段经常使用数据集 可以看出,大模型网络结构范式已基本构成,然而像带位置消息的grounding数据集标注方法还是各有特征,经过设计不同的标注战略和方法能有效优化模型在下游义务上的泛化才干。 在大模型中,“幻觉”是多模态指大模型的输入与图片实践内容不相符的现象。发生幻觉的关键要素是由于LLMs适度依赖言语先验,发生的单词更或者与指令文本分歧,而不思考图像自身的内容。LLMs,如MiniGPT4和LLaVA,经常使用分解指令数据启动训练,这些数据通常很长,并且触及图像中不存在的对象、优惠或相关。 此外,LLMs更偏差于回答yes,关键是由于LLMs的微调数据高度不平衡,负样本数据占比太低,有时刻甚至只蕴含正向指令,这也造成LLMs不能准确追随人类的指令,因此在训练多模态大模型时,须要做到三点:保障丰盛的义务类型;开明终局的指令和答案,防止模板局限;正负指令样本平衡。

二、多模态大模型通常

1模型架构

自研多模态大模型基于LLAVA架构如图3所示,图片经视觉编码器,再经过特征对齐层输入维度与大言语模型婚配的词元向量,兼并揭示词生成的词元向量兼并输入大言语模型,大言语模型会输入相应的回答。

▲图3 模型架构图

详细组件构成如表2所示。为了使大言语模型能够看到更丰盛的图像细节,视觉编码器的输入分辨率越大越好,然而视觉编码器的训练老本极大,须要经常使用256片以上的A100GPU训练,无足够的计算资源,驳回openai颁布的CLIP-VIT-L-336视觉编码器,这也是开源的目前分辨率最大的CLIP,前期可以探求经常使用window-attention在微调阶段增大分辨率。特征对齐层驳回复线性层,前期可以参与为2~3层线性层参与拟合才干。在多模态大模型中,言语模型越大,模型了解才干越强,在某些多模态测评中13B的大言语模型比7B强20%,目前大言语模型驳回facebook颁布的LLAMA2-7B,前期可以驳回13B的言语模型。 ▲表2 自研大模型结构

2.数据建模

训练集中数据总规模约为1313.2k,数据构成如表3所示。由于多模态大模型数据标注老本较高,现有数据中大局部为开源数据,极少局部为自有标注数据。

数据以对话为主,能够训练模型的图像了解才干,模型领有基于单张图片和人类对话的才干。目前开源数据都是英文的,自有场景标注数据中英文版本都有,训练中采取全英文训练。前期可以参与带位置的图像对话数据,来训练模型的目的定位才干,有相关钻研提到这也能缩小幻视疑问。前期还可以参与视频文本对话数据,来训练模型跨图像对话才干、视频了解才干。

▲表3 训练数据集

自有场景数据prompt数据构建打算如表4所示,以越门运营为例,数据包括提问、选项、回答。

▲表4 数据构建展现

提问要将神眼场景的含意阐释分明,越门运营蕴含“饭店把餐桌放在门外”以及“商店把货物放在门外”。

选项设置很关键。在定义各个选项时,尽量使各个选项的含意和字面差异大,否则会发生理由正确然而选项选错的状况;多模态大模型是因果言语模型,模型做选项时偏差于选用离选项最近的选项,所以假设要缩小假阳性,要把阴性答案放在最后一个选项;选项要尽量便捷,要让模型容易了解。

回答理由尽量便捷间接,假设模型给的理由给太多,由于因果言语模型以及位置编码的影响,模型自己说的token影响力会盖过实在的图像token,从而造成乱选。

回答选项参考LLAVA经常使用“.\n###\nANSWER:”作为不凡标志符号,便于智能化提取。

3.模型训练

目前模型微调驳回三阶段训练,如表5所示。在第1阶段经常使用图像文本对训练,可以对齐视觉编码器大言语模型模型的特征空间;第二阶段经常使用图像选用题、图像本文对话训练模型的图像了解和对话才干;第三阶段经常使用自有场景选用题数据,可以优化模型在特定场景上的准确率。

▲表5 训练打算

4.模型效果

▲表6 测试结果

表6中det为目的检测方法,seg为目的宰割方法,llm为多模态大模型。多模态大模型展现出了极强的少样天性力,用较少的训练数据到达了较高的目的。在越门运营中用较少的训练数据,成功了比检测方法强的准确率和召回率,或者是受分辨率的影响,在图像宰割义务(路线积水)上距离传统宰割方法还有必定差距。

三、总结与展望

本文关键对大模型数据集启动了引见,对数据多样性和指令多样性提出了一些见地。便捷引见了团队在大模型上的一些成绩。后续团队将继续关注多模态大模型的开展,继续优化自有大模型。

参考文献

[1]大模型数据集现状与启发.

[2]Visual Instruction Tuning.

[3]MiniGPT-4: Enhancing Vision-language Understanding with Advanced Large Language Models.

[4]Pink: Unveiling the Power of Referential Comprehension for Multi-modal LLMs.

[5]CogVLM: a state-of-the-art-level open visual language model.

[6]Kosmos-2: Grounding Multimodal Large Language Models to the World.

本文转载自​​,作者:

您可能还会对下面的文章感兴趣: