浅析多模态机器学习

2024-11-14

GPT-4的颁布给ChatGPT带来了又一次性飞跃，ChatGPT不只允许文字输入，还能看得懂图片、甚至是漫画、梗图，以GPT-4为代表的多模态大模型十分弱小。多模态大模型就是指模型可以处置多种结构/类型的数据，例如GPT-4，它既可以处置你输入的文本，也可以处置你上传的图片。

那么，多模态究竟象征着什么呢？

1. 什么是多模态？

人类有五种基本感官:触觉、视觉、听觉、嗅觉和味觉。与每一种觉得相关的觉得器官向大脑发送消息，协助咱们了解和感知咱们周围的环球。但是，理想上，除了这五种基本的感官之外，还有其余的人类感官是你生存中必无法少的。这些不为人知的觉得包括空间看法敌对衡等。经过这些感官的交互，也就是多模态，以下是最经常出现的几种模态：

GPT-4专一于言语和视觉作为一些基本的模态。所谓融合，是指未来自两个或多个模态的消息兼并以口头预测义务。有两种类型的融合：- 早期融合：模态将在训练早期就衔接起来。- 早期融合：我须要在每个模态早期启动一些处置，而后再将它们组合起来。

看一些理想环球的例子，了解什么是MMML运行：

2. 单模态分类模型及一些基本概念

从单模态的分类模型开局，剖析视觉、文本和声响模态的基本处置方法，还试图廓清了数据集、最近街坊、神经网络基础、推理和模型参数等相关术语和概念。

2.1 单模态的分类模型

从一种模态的分类模型开局，例如视觉分类，给定一张图片，它是不是一只狗呢？

这是三个二维矩阵叠加在一同构成的黑白图像，如何处置这个图像分类疑问呢？由于大少数神经网络或分类器只接受二维矩阵，为了制造这个输入向量，须要将这个三维向量合成并将它们叠加在一同，就像上方的图像所示的那样。而后，才干能够经过多分类输入来失掉指标的对象分类。

关于单模态模型，首先有一个输入，可以是如上所述的3D矩阵，而后将其传递到曾经训练好的模型中，失掉一个分类（单类或多类）或回归输入。

关于单词、句子或段落这样的模态而言，有两种类型：书面（文本）和声响（转录）。举个例子，假定从一段文本中提取了一个单词，想要了解这是侧面还是负面的心情。该怎样做呢？

为了便捷起见，可以经常使用one-hot向量，这是一个十分长的向量，其长度是字典的长度。这个字典是咱们的模型从训练集中创立的，计算出它所发现的一切去重后的单词。关于每一个单词，在向量中有一个索引条目。须要留意的是，某些十分低频的词语，或许不在字典中。

用这个one-hot向量将作为最大熵模型的输入向量，进而启动心情分类，命名实体分类（名字 vs 中央 vs 实体），或许词性标注（动词，名词，描画词）等。假构想要更细粒度地按单词运转模型，就可以这样做。

但是，假构想要处置更少量的文本，比如一句话或一段话，该怎样办呢？

可以将输入向质变成一个词袋向量，但它依然是一种one-shot编码，如今对指标文档中的每个单词启动编码，假设一个维度上有这个单词就是1，否则就是0。而后可以运转雷同的义务，就像上方做的心情分类一样。

最后，在看看声响模态。假定正在倾听一个音频，基本上，音频是一个十分长的一维向量，可以经常使用此向量并运转分类疑问以转录语音。在通常中，人们用时期窗口在音频信号中切片，并开局处置该数据集以创立Spectogram。在这个音频中，审核失掉了多少低频与高频成分，以千赫为记载在Spectogram中。而后，咱们将这个Spectogram转换为模型的输入向量。

除了仅仅启动转录外，还可以经常使用这些模型来失掉情感分类或语音品质。

2.2 相关术语

数据集是带有标签的样本汇合，包括：

2.3 神经网络基础

依据激活函数的不同，一个神经元可以被称为一个线性分类器。神经网络中每个局部的组成和性能如下：

1）定义一个神经元的得分函数，指标是预测该类别标签的得分。例如，关于图像分类疑问“这是一只狗、猫、鸟还是猪？”，可以将为鸭子、猫、鸟和猪各设置一个神经元。具备线性激活函数的神经元如下图所示：

接上去，在这里学习权重和偏置值。

而后，思考多层前馈神经网络。

这个多层网络由一个输入层，几个暗藏层，以及一个或许蕴含激活函数的输入层组成。每个前面的暗藏层的输入作为前面层的输入。

最后，我还有两个概念须要廓清：

3. 多模态机器学习的外围疑问

多模态是一种新的人工智能范式，其中各种模态（文本、语音、视频、图像）与多种智能处置算法结合，以成功更高的性能。

业界有多种成功多模态的方式，经过多模态机器学习，宿愿确保该空间中的相似性对应着相应概念的相似性，经过存在的其余模态，给出缺失的模态内容。多模态运行目前包括各种义务，如消息检索、映射和融合。

在多模态机器学习中，大概有五个外围疑问——示意、翻译、对齐、融合和协同窗习。

3.1 多模态的数据表白

多模态数据的最大应战是以一种方式总结来自多个模态（或视图）的消息，以便综合经常使用互补消息，同时过滤掉冗余的模态局部。由于数据的异质性，一些应战人造而然地出现，包括不同类型的噪声、模态（或视图）的对齐以及处置缺失数据的技术。目前，关键有两种的方法来成功多模态表白：联结表白和协调表白。

协调表白

多模态数据必定在十分弱的（它们的空间不堆叠）或十分强的（最终成为联结示意）之间协调，经过结构化的协调来成功嵌入。

协调表白触及将一切方式投射到它们的空间中，但这些空间经常使用解放启动协调。这种方法对基本上十分不同并且或许不实用于联结空间的方式更有用。由于人造界中方式的多样性，协调表白在多模态示意畛域中比联结表白具备渺小长处，经常使用解放启动协调是一种弱小的方法。

联结表白

联结表白触及将一切模态投影到一个独特的空间，同时保管来自给定模态的消息。训练和推理时须要一切模态的数据，这或许会使处置缺失数据变得艰巨。另外，经过递归模型，可以在每个时期步融合模态的不同视图，最终经常使用联结示意成功手头的义务（如分类，回归等）。

关于一切模态在推断时都存在的义务，联结表白更适宜。另一方面，假设缺少其中一种模态，则协调表白更适宜。

3.2 多模态机器翻译

多模态机器翻译触及从多个模态中提敞开息，基于这样的假定，附加的模态将蕴含有用的输入数据的代替视图。在这个畛域中最关键的义务是书面语翻译、图像疏导翻译和视频疏导翻译，它们区分应用音频和视觉模态。这些义务与它们的单语对应义务——语音识别、图像字幕和视频字幕——不同之处在于须要模型生成不同言语的输入。(起源)上方咱们可以看到一个图像字幕的例子出了大错:

上述模型无法将视觉场景与语法句子启动同步了解，这关于弱小的多模态模型至关关键。多模态翻译模型有两种类型：基于示例的和生成式的。

基于示例的模型将存储一个翻译词典，如上所示，而后将其从一种言语模态映射到另一种。在推理环节中，模型将从字典中提取最凑近的婚配项，或经过推断字典提供的消息创立翻译。这些模型须要存储更多的消息，运转速度十分缓慢。

生成模型在推理时不须要参考训练数据即可发生翻译。生成模型有3个类别，区分是基于语法的、变压器模型和延续生成模型。

3.3 多模态的对齐

多模态对齐是找到两种或更多模态之间的相关和对应。

为了对齐不同的模态，模型必定测量它们之间的相似度并处置长距离依赖相关。多模态对齐触及的其余艰巨包括不足注释数据集、设计好的模态相似性度量以及存在多个正确的对齐方式。关键有两种类型的多模态对齐：- 显式对齐：其指标是找到模态之间的对应相关，并对同一事情的不同模态数据启动对齐。例如：将语音信号与转录对齐。- 隐式对齐：对齐有助于处置不同义务时的模型（例如“留意力”模型）。它是多个下游义务（如分类）的先驱。例如：机器翻译

3.4 多模态的融合

多模态融合或许是更关键的疑问和应战之一。融合是未来自两个或两个以上模态的消息结合起来处置分类或回归疑问的通常。经常使用多个模态提供更弱小的预测才干，使咱们能够捕捉互补消息。即使其中一个模态缺失，多模态融合模型仍可经常使用。

3.5 协同窗习

协同窗习是将学习或常识从一种模态转移到另一种模态的应战。关于在资源有限的模态下建设模型——如不足注释数据、喧闹的输入和无法靠的标签，从资源丰盛的模态中转移常识是相当有用的。

小结

多模态机器学习是一种新的人工智能范式，结合各种模态和智能处置算法以成功更高的性能。多模态机器学习中的外围疑问包括示意、翻译、对齐、融合和协同窗习。其中，多模态数据的表白是最大的应战之一，须要经常使用联结表白和协调表白等方法。多模态机器翻译触及从多个模态中提敞开息，基于这样的假定，附加的模态将蕴含有用的输入数据的代替视图。多模态对齐是找到两种或更多模态之间的相关和对应，多模态融合或许是更关键的疑问和应战之一，协同窗习是将学习或常识从一种模态转移到另一种模态的应战。

【参考资料】

多模态大脑机器学习

<<从算法原理看介绍战略

AutoML畛域开源开发利器AutoGloon之实战演练>>