什么是多模态大模型

2024-11-14

“多模态大模型外围要点只要两个，交叉性和互补性；多模态大模型的目标就是在保障互补性的前提下，去除交叉性”

而什么是多模态模型呢？网上普通谈到多模态模型，就是具备多种数据形式的模型，比似乎时能够解决文字，图片，视频等多种模态数据的模型。

其实从实质过去说，多模态模型和生成式模型都是一种表征模型，毕竟多模态也是生成式模型的一种，只不过多模态的数据格局更复杂。

再来回忆一下什么是生成式模型，生成式模型是基于一种机器学习/神经网络模型，构建的一种可以对训练数据启动表征学习，经过模型参数记载表征结果，这个就是大模型的训练/学习的环节；而依据表征结果，模型可以依据用户输入生成新的样本数据；这就是模型的两个外围要点，了解与生成。

多模态是建设在生成式模型基础之上的，一种愈加复杂的模型范式，由于其允许多种模态的数据，所以叫做多模态。

那多模态的外围技术难点是什么呢？

从技术的角度来说，多模态的技术原理与生成式模型的技术没有实质的区别，都是数据表征的一种方式；但区别是，多模态要同时表征多种格局的数据，这个难度就不是便捷的1加1等于2的疑问，其难度系数呈指数式回升。

而其外围技术点，也是其外围难点就是多模态融合；所谓的多模态融合就是指两个以上模态数据构成的多种不同种类的组合。

比如文本的体现方式重要是字符，而图像的体现方式是像素；而这是齐全不同的两种体现方式，更不用说愈加复杂的视频等其它模态的数据。

由于不同模态数据之间的体现方式不一样，其表白方式也不一样；所以不同模态数据之间就存在很多交叉点；这就像咱们看待一些后人的作品，能在字中看出画，在画中看出字。

而这些数据交叉点就是数据的冗余性，不同数据之间存在着少量的冗余数据；但从另一个角度来说，文字与图片又是互补的，比如说有些人会在画上题诗，也有人以诗作画，而这又是诗与画的互补。

而互补之后的诗和画，要比单纯的诗和画体现方式更好，更活泼，更笼统；也就是说多模态的表征，要比单模态表征愈加的低劣；而且不同模态数据之间或许还存在愈加丰盛的消息交互方式，而假设能够正当的解决这些消息交互，那么就可以愈加丰盛的特色消息。

因此，多模态概括来说就是，消息的交叉(冗余)和互补，这也是多模态的一个清楚特点。

然而，多模态只管比单模态表征方式更丰盛，更低劣；但怎样让不同模态的数据融合在一同，但又不会丢失其自身的个性；也就是说，怎样保障不同模态数据的互补性的前提下，又能去除不同数据之间的冗余消息。

而这就是多模态的几个外围技术点：

总之，多模态大模型是一种愈加弱小的生成式模型，当然其技术成功难度也更大。但多模态也或许是人类成功通用人工自动的一种方式。

原文链接：