多模态大模型最全综述导读
多模态大模型最新钻研综述便捷版。
不知道最近微软出的多模态大模型最全综述Multimodal Foundation Models: From Specialists to General-Purpose Assistants大家有没有看~
蕴含5大主题一共119页,内容又干又多,目前网上找到的中文解读干货内容都比拟全比拟长,很容易迷失其中,不时难以看完。
本期来给大家做一个这篇论文相对便捷的导读;假设大家有想要着重了解局部或感兴味的内容可以先针对性地看。
上方是一个快捷目录。
1. 章节散布
2. 详细内容解读
章节散布
论文从目前曾经完善的和还处于最前沿的两类多模态大模型钻研方向登程,片面总结了五个详细钻研主题:
这里瓦力画了一个比拟便捷的图,大抵总结一下各个主题的内容,大家可以参考。
详细内容解读
详细的模型、算法大家都可以针对性地自己了解,这里先给大家总结一些比拟关键的点:
1. 言语或视觉多模态的开发路途
上述四个类别中,第一类是义务特定模型,前面三类属于基础模型。
上方以言语为例,聊聊AI的演进趋向:
2. 多模态中经典的5个疑问
论文中回答了经典的5个疑问,也论述了多模态基础模型旨在处置的三个代表性疑问:视觉了解义务、视觉生成义务和具备言语了解和生成的通用界面。
Q1:如何学习视觉示意?
Q2:如何做视觉生成?
Q3:如何不基于大言语模型训练一个通用视觉模型?
Q4:如何训练多模态大言语模型
Q5:如何为大言语模型链接一个多模态专家?
上方是论文中各章节及经典的模型介绍,其中橙色的局部,也就是视觉了解主题局部回答了Q1;绿色的局部,视觉生成主题局部回答了Q2;蓝色的局部,回答了Q3~Q5。
上方我从文章摘取一些内容便捷回答来上述5个疑问,假设大家须要详细了解的话可以从上图中对应章节去研读:
Q1:如何学习视觉示意?
下图比拟明晰的展现了现有的四种方法:
此外,论文中还列出了上述方法的代表模型。
Q2:如何做视觉生成?
现有方法的代表模型。
1) 具备代表性的文本到图像生成模型
2)经典的分散模型架构
3)未来钻研趋向:一致调优,成功人工对齐
详细又可以分为这三个方向:
Q3:如何不基于大言语模型训练一个通用视觉模型?
现有方法的代表模型。
1)从敞开集到开明集
经过引入对比言语-图像预训练方法来训练开明集模型,处置了传统敞开集模型的局限性。如图 4.2 (a) 所示,CLIP 不是学习从输入到标签的映射,而是经常使用数亿个图像-文本对学习对齐的视觉语义空间。
2)从不凡义务到通用
可分为I/O Unification 和Functionality Unification,也就是I/O一致和配置一致。
3)从静态到可揭示
这里的钻研重要是一些增强静态视觉模型的才干,目标是为了允许:(i) 多模态揭示;(ii) 高低文揭示。
Q4:如何训练多模态大言语模型?
这里文中举了两个例子:
1)LMM 经常使用图像-文本成对实例启动训练
大少数 LMM 都是在少量图像-文本对上训练的,其中每个训练样本都是一对。
2)经常使用交织图像文本序列实例训练的 LMM。
论文中以Flamingo为例, Flamingo 经常使用仅来自 Web 的互补大规模多模态数据的混合启动训练,而不经常使用任何用于机器学习目标的注释数据。训练成功后,Flamingo可以经过便捷的few-shot learning 间接顺应视觉义务,而无需任何额外的义务特定调整。
Q5:如何为大言语模型链接一个多模态专家?
这里以MM-ReAct为例,其系统范式由 Chat GPT 组成了多模态工具,用于多模态推理和举措。经过经常使用各种多模态工具增强纯言语的 ChatGPT,MM-REACT 允许多模态的输入和输入,包括文本、图像和视频。
再上方是MM-REAC涌现的多模态推理和举措配置。
那么论文的便捷导读就是这样了,假设大家感觉论文过长文本看不出来还可以看论文中1.4节附上的视频,B站和youtube都有;只管是英文的,但结合PPT全体看上去是比拟容易了解的。
参考文献:
[2309.10020] Multimodal Foundation Models: From Specialists to General-Purpose Assistants (arxiv.org)