一文彻底搞懂多模态

2024-11-14

MultiModal

在人工智能的始终开展中，多模态学习逐渐锋芒毕露，成为了一个关键的钻研方向。它不再局限于繁多类型的数据解决，而是将图像、文本、音频等多种消息源联合起来，为机器提供了愈加丰盛和多元的了解视角。

接上去 分四部分：传统机器学习 、深度学习 、提升算法、运行畛域， 一同来总结下多模型的基础常识。

MultiModal

一、传统机器学习

什么是传统机器学习（Machine Learning）？ 传统机器学习触及 模型评价与选用、线性模型运行、分类与回归 等多种技术，旨在经过 训练数据集学习并构建模型 ，以成功 对未知数据的准确预测或分类

机器学习

什么是模型评价（Evaluate）与选用？在传统机器学习中，模型评价是选用最佳模型的关键步骤。这理论触及将数据集分为训练集、测试集和验证集，经常使用训练集来训练模型，而后经常使用测试集来评价模型的功能。

经常出现的评价目的包含 准确率、准确率、召回率、F1分数 等。模型选用则是基于这些评价目的来筛选出最优的模型。

模型评价

什么是线性模型（Linear Model）？ 线性模型是最便捷的机器学习模型之一，它假定 目的变量与特色之间存在线性相关 。线性回归和逻辑回归是线性模型的典型代表。 线性回归用于预测延续值，而逻辑回归则用于二分类疑问

线性模型

什么是分类（Classification）？ 分类是机器学习中的一个关键畛域，它旨在将 输入数据调配到预约义的类别中 。除了逻辑回归外， 决策树、随机森林、允许向量机（SVM）和K近邻（KNN） 等算法也是分类义务中罕用的方法。

分类

什么是回归（Regression）？ 与分类不同，回归义务的目的是 预测一个延续值 。除了线性回归外， 多项式回归、岭回归和套索回归 等也是解决回归疑问的罕用技术。

回归

二、深度学习

什么是深度学习（Deep Learning） ？ 深度学习经过 构建多层神经网络 智能学习数据特色 ，成功预测、分类等义务，宽泛运行于图像、语音、文本等畛域。

它涵盖了多种网络结构，如 卷积神经网络（CNN）用于图像和视频解决 循环神经网络（RNN）及其改良版如LSTM、GRU等用于序列数据解决 ，以及 Transformer等基于自留意力机制的模型在人造言语解决（NLP）畛域 的宽泛运行。

深度学习

什么是卷积神经网络（CNN）？ CNN是深度学习中最罕用于 解决图像和视频数据 的网络结构。它经过 卷积层智能提取图像中的部分特色 ，并经过 池化层缩小数据的空间维度 ，最终 经过全衔接层启动分类或回归

卷积神经网络

什么是循环神经网络（RNN）？RNN特意适宜于解决序列数据，如文本、语音和期间序列 。它能够捕捉序列中的常年依赖相关，但因为梯度隐没或梯度爆炸疑问，训练传统RNN或者很艰巨。

什么是Transformer？Transformer是一种基于自留意力机制的模型 ，它彻底扭转了人造言语解决（NLP）畛域。Transformer经过 多头留意力机制并行解决输入序列的一切位置，从而防止了RNN的序列依赖性，大大提高了解决速度和成果 。Transformer及其变体（如BERT、GPT系列）已成为NLP义务的干流模型。

Transformer

三、提升算法

什么是提升算法（Optimization Algorithm）？提升算法是用于寻觅最小化或最大化某个目的函数（如损失函数）的参数值的方法。在深度学习中，这理论触及到调整神经网络的权重和偏置，触及到梯度降低和反向流传。

梯度降低是罕用提升算法，经过计算目的函数对参数的梯度，并反向降级参数以迫近最优解。反向流传是训练神经网络时高效计算梯度的方法，与梯度降低联合，有效调整网络参数。

什么是梯度降低（Gradient Descent）？梯度降低是最罕用的提升算法之一，用于最小化目的函数（即损失函数）。它经过计算目的函数对于模型参数的梯度，并沿着梯度的反方向降级参数来逐渐迫近最优解。

梯度降低

什么是反向流传（Backpropagation）？反向流传是训练神经网络时罕用的梯度计算方法。它应用链式规律从输入层开局逐层计算梯度，并降级每一层的参数。反向流传与梯度降低联合经常使用，可以高效地训练神经网络。

反向流传

四、运行畛域

多模态运行畛域有哪些？多模态学习涵盖了计算机视觉（CV）、人造言语解决（NLP）和语音识别等多个运行畛域。什么是计算机视觉（Computer Vision, CV）？CV是多模态学习的一个关键运行畛域，它触及对图像和视频内容的了解和剖析。CNN在CV义务中体现杰出，被宽泛运行于图像分类、目的检测、图像宰割、人脸识别等义务中。

计算机视觉

什么是人造言语解决（Natural Language Processing，NLP）？NLP是另一个关键的运行畛域，它触及对文本数据的了解和生成。Transformer及其变体在NLP义务中取得了渺小成功，被宽泛运行于文本分类、情感剖析、机器翻译、问答系统等义务中。

人造言语解决

什么是语音识别（Speech Recognition）？语音识别是另一个融合了多种模态（如音频和文本）的运行畛域。它旨在将人类语音转换为文本示意，并进一步用于NLP义务。

语音识别

原文链接：

<<MLLMs等畛域的模型兼并运行与时机通常方法 LLMs

Agent上班流记忆>>

一文彻底搞懂多模态

一、传统机器学习

二、深度学习

三、提升算法

四、运行畛域

您可能还会对下面的文章感兴趣：

随便看看