多模态与伪多模态大模型

2024-11-15

“透过现象看实质，才是最应该做的选用”

对大模型了解的人应该知道，大模型是由于openAI的GPT模型爆火的，当然大模型的开展也是经过多年的开展才有了当天的境地。

在之前的文章中也引见过，大模型的全程是大规模预训练言语模型的简称，也就是说大模型刚开局是在言语处置畛域大放异彩的。

因此，可以说大模型是深度学习，也就是神经网络模型与人造言语处置相联合而发生的一种技术。

而随着大模型在人造言语处置畛域的迸发，一些技术人员开局把大模型运行到图片处置，视频处置等畛域，起初缓缓就降生了处置各种模态数据的模型。

到当天，多模态成为了干流。

什么是多模态？

模态值得是数据类型，比如文本，图片，视频等；而多模态就是指能够同时处置文本，图片，视频等多种模态数据的模型。

便捷来说，多模态大模型就像一团体一样，他既会写字认字，也会绘画参观画，他即能经过拍视频的模式表白自己；也能看懂他人视频所表白的思维。

而多模态大模型就是这样，它既能看懂他人的文字，也能看懂他人的视频，也可以把他人的视频用言语表白进去，这就是多模态大模型。

这种成功模式，须要处置很多技术难点，比如说文本和视频或图片内容等多种模态数据之间的融合，模态之间的数据差异疑问，数据对齐与分歧性疑问等。

这种成功多模态大模型的模式，叫做真多模态大模型。

但成功多模态只要这种模式吗？

其实，还有另一种成功多模态的模式或许说方法；那就是在多个处置不同模态数据的大模型之上，构建一个虚构的“多模态大模型”，我叫他伪多模态大模型。

便捷来说就是实在的多模态大模型就相当于一个无所不能的人，天文天文，物理化学，前知五百年后晓五百世；而伪多模态大模型，就相当于给阿斗配一个顶级智囊团，只管阿斗什么都疑问，但他可以问啊。

就比如说，用户输入一段文字，这时前置模块就可以识别出这是文本模块，那么它就可以问其它的大模型，你们谁能处置文本，而后文本模型就会说我我我。

而假设用户输入一段视频，那么前置模块就可以找一个视频处置的大模型，最后再经事先置的转化模块，把输入数据转化为用户须要的格局。

这就是伪多模态，很多初创企业干的就是这种产品，他们经过集成多种类型的模型，来成功对多种模态数据的处置。

当然，这种伪多模态模型只管在外人看来都差不多，但咱们要知道它们经常使用的是齐全不同的技术；并且，伪多模态大模型只管能够处置一些便捷义务，但在复杂义务中或许就没有真正的多模态模型体现得好了。

很多物品假设不能透过表象看实质，就会造成很大的认知偏向；比如说，咱们都认为语音处置的大模型，它是间接处置语音格局的数据，理想上是会有一个前置层，先把语音文件转化为文本格局，而后再让大模型处置。

等大模型处置完之后，再把文本格局的数据转换为语音数据输入，前者技术叫ASR，后者叫TTS。

原文链接：

<<多模态视觉