多模态与伪多模态大模型

“透过现象看实质,才是最应该做的选用”

对大模型了解的人应该知道,大模型是由于openAI的GPT模型爆火的,当然大模型的开展也是经过多年的开展才有了当天的境地。

在之前的文章中也引见过,大模型的全程是大规模预训练言语模型的简称,也就是说大模型刚开局是在言语处置畛域大放异彩的。

因此,可以说大模型是深度学习,也就是神经网络模型与人造言语处置相联合而发生的一种技术。

而随着大模型在人造言语处置畛域的迸发,一些技术人员开局把大模型运行到图片处置,视频处置等畛域,起初缓缓就降生了处置各种模态数据的模型。

到当天,多模态成为了干流。

多模态大模型

什么是多模态?

模态值得是数据类型,比如文本,图片,视频等;而多模态就是指能够同时处置文本,图片,视频等多种模态数据的模型。

便捷来说,多模态大模型就像一团体一样,他既会写字认字,也会绘画参观画,他即能经过拍视频的模式表白自己;也能看懂他人视频所表白的思维。

而多模态大模型就是这样,它既能看懂他人的文字,也能看懂他人的视频,也可以把他人的视频用言语表白进去,这就是多模态大模型。

这种成功模式,须要处置很多技术难点,比如说文本和视频或图片内容等多种模态数据之间的融合,模态之间的数据差异疑问,数据对齐与分歧性疑问等。

这种成功多模态大模型的模式,叫做真多模态大模型。

但成功多模态只要这种模式吗?

其实,还有另一种成功多模态的模式或许说方法;那就是在多个处置不同模态数据的大模型之上,构建一个虚构的“多模态大模型”,我叫他伪多模态大模型。

便捷来说就是实在的多模态大模型就相当于一个无所不能的人,天文天文,物理化学,前知五百年后晓五百世;而伪多模态大模型,就相当于给阿斗配一个顶级智囊团,只管阿斗什么都疑问,但他可以问啊。

就比如说,用户输入一段文字,这时前置模块就可以识别出这是文本模块,那么它就可以问其它的大模型,你们谁能处置文本,而后文本模型就会说我我我。

而假设用户输入一段视频,那么前置模块就可以找一个视频处置的大模型,最后再经事先置的转化模块,把输入数据转化为用户须要的格局。

这就是伪多模态,很多初创企业干的就是这种产品,他们经过集成多种类型的模型,来成功对多种模态数据的处置。

当然,这种伪多模态模型只管在外人看来都差不多,但咱们要知道它们经常使用的是齐全不同的技术;并且,伪多模态大模型只管能够处置一些便捷义务,但在复杂义务中或许就没有真正的多模态模型体现得好了。

很多物品假设不能透过表象看实质,就会造成很大的认知偏向;比如说,咱们都认为语音处置的大模型,它是间接处置语音格局的数据,理想上是会有一个前置层,先把语音文件转化为文本格局,而后再让大模型处置。

等大模型处置完之后,再把文本格局的数据转换为语音数据输入,前者技术叫ASR,后者叫TTS。

原文链接:​ ​​ ​

您可能还会对下面的文章感兴趣: