多模态大模型的成功原理 以及技术难点
“多模态大模型的终点就是“人”,人就是最完美的多模态模型”
多模态大模型是允许多种模态数据的深度学习模型,与之对应的是单模态模型;但由于单模态模型存在很多毛病,因此多模态大模型应运而生。
人就是最完美的多模态模型,而大模型的开展方向也是让它越来越像“人”。
多模态大模型的思想与原理
多模态的思想是结合不同模态(文字,图片,声响等)的数据启动联结学习,从而提高模型的认知才干。
其重要表如今以下三个方面:
消息互补性:不同模态的数据携带不同的消息,联结学习能够补足繁多模态的毛病
关联性:多模态数据之间存在外在咨询,学习这些咨询有助于优化模型的体现
通用性:经过学习多模态数据的通用示意,可以优化模型在多个义务上的泛化才干
多模态模型的外围原理
示意学习
经过专门的编码器,将不同模态的数据转换成一致的特色示意
单模态的示意学习担任将消息示意为计算机可以处置的数值向量或许进一步笼统为更上层的特色向量,而多模态示意学习是指经过应用多种模态之间的互补性,剔除模态间的冗余性,从而学习到更好的特色示意。
多模态示意学习有两慷慨向:联结示意和协同示意
联结示意是将多个模态的消息一同映射到一个一致的多模态向量空间
协同示意担任将多模态中的每个模态区分映射到各自的示意空间,但映射后的向量之间满足必定的相关性解放(如线性相关)
跨模态映射
跨模态映射是须要成功模态之间的映射,如图像到文本的生成或许文本到图像的生成;当然还有其它很多种状况,如语音分解,机器翻译等。
模态间的转换重要有两个难点,一个是open-ended,即未知完结位;例如在实时翻译中,话还未说完的状况下, 必定实时的对句子启动翻译;另一个是subjective,即客观评判性,是指很多模态转换疑问的成果没有一个客观的评判规范。
对齐与融合
将不同模态的数据对齐,确保它们的语义分歧性,并经过各种融合方法将数据整合在一同。
多模态的对齐担任对来自同一个实例的不同模态消息的子分支/元素寻觅对应相关;对齐可以是期间维度的也可以是空间维度的,比如图片的语义宰割。
多模态的融合是将各模态的特色示意启动融合,经常出现的方法包含拼接,加权求和,留意力机制以及经过共享Transformer层启动联结编码
融合
多模态融合有四种不同的状况,区分是特色级融合,决策级融合,混合级融合和模型级融合。
特色级融合:也称为早起融合,是多模态识别系统最罕用的战略。它示意在特色提取后把提取特色衔接成单个高纬特色向量的方法,其重要用来剔除冗余消息。
决策级融合:也称为前期融合,是在取得基于每个模态的决策后,经过运行多个预测标签的代数组合规定,对这些决策口头集成步骤。
混合级融合:它是早起融合和前期融合两种模式的结合,经过早期融合和单个模态预测的输入相结合。混合级融合只管处置了特色级与决策级融合的局限性,但实质上并没有处置疑问。
模型级融合:该方法旨在取得三种模态的联结特色示意,它的成功重要取决于经常使用的融合模型。模型级融合是更深档次的融合方法,为分类和回归义务发生更优化的联结判断特色示意。
技术成功
多模态大模型的技术成功重要有以下步骤:
数据预处置:将不同模态(文本,图片,视频)的数据启动预处置,例如图像的像素归一化,文本的分词处置。
形态编码器:经常使用专门的神经网络模型处置不同模态的数据,例如经常使用CNN或Vision Transformer处置图像,用Transformer处置文本。相似于大模型常识库的文本解析模块,把文档解析成向量保留到向量数据中,也须要经常使用文档处置模型。
融合机制:将各模态的特色示意启动融合,原理就是下面的模型融,有多种模式。
训练环节:经常使用多模态数据启动联结训练,经常出现的损失函数包含分类损失,回归损失和对比学习损失等。
模型架构:比如openAI的CLIP模型经过同时处置图像和文本,学习它们之间的语义相关。
总结
多模态大模型是目前大模型厂商重要的钻研方向,其成功环节艰巨且复杂;只管具有很多长处,但雷同也具有很多的疑问。比如对计算资源的需求要远大于单模型的需求,其次多模态数据的对齐与标注雷同是一个难题,最后就是跨模态的了解与生成,依然是一个钻研热点。
原文链接: