超强！深度学习中必知的 79 个关键概念

2024-11-15

当天给大家分享你必定知道的 79个深度学习术语。

1.人工神经网络（ANN）

人工神经网络是一种模拟人脑神经元结构和性能的计算模型，用于处置复杂的计算和形式识别义务。

它由多个神经元（节点）组成，这些神经元经过衔接权重相互衔接，可以经过调整这些权重来学习和顺应不同的义务。

2.激活函数

激活函数是神经网络中的一个函数，用于引入非线性，使得神经网络可以示意复杂的形式和相关。

经常出现的激活函数包含ReLU（批改线性单元）、Sigmoid（S型函数）和Tanh（双曲正切函数）。

3.反向流传

反向流传是一种用于训练神经网络的算法，经过计算损失函数的梯度并降级网络中的权重，使得模型的预测结果愈加准确。

反向流传通经常常使用梯度降低法来优化权重。

卷积神经网络是一种专门用于处置图像数据的神经网络结构，经过经常使用卷积层、池化层和全衔接层来提取和学习图像的特色。

它在图像分类、目的检测和图像宰割等义务中体现杰出。

深度学习是一种基于多层神经网络的机器学习方法，经过构建和训练深度模型来智能学习数据的复杂特色和形式。

深度学习在图像处置、人造言语处置和语音识别等畛域取得了清楚的成绩。

一个epoch指的是神经网络在训练环节中遍历整个训练数据集一次性。

多个epoch可以提高模型的准确性和稳固性，但过多的epoch或者造成过拟合。

特色提取是从原始数据中提取有用特色的环节，这些特色可以协助模型更好地理解和预测数据的形式。

特色提取可以是手工设计的，也可以是经过深度学习模型智能学习的。

梯度降低是一种优化算法，用于最小化损失函数。

经过计算损失函数相关于模型参数的梯度，并沿着梯度的反方向降级参数，使得损失函数逐渐减小。

损失函数用于权衡模型预测值与实在值之间的差异。

经常出现的损失函数包含均方误差（MSE）、交叉熵损失（cross-entropy loss）等。

循环神经网络是一种处置序列数据的神经网络结构，它经过在网络中引入循环衔接，使得模型能够记住之前的输入消息，并用于后续的预测和决策。

迁徙学习是一种将一个义务中学到的常识运行到另一个相关义务中的方法。

经过迁徙学习，可以应用预训练模型的权重和特色，缩小新义务的训练期间和数据需求。

权重是神经网络中衔接各个神经元的参数，用于调理输入信号的强度。

经过训练环节，权重会始终调整，以使得模型的预测结果愈加准确。

偏置是神经网络中的一个附加参数，它与权重一同用于调整模型的输入。

偏置可以协助模型在没有输入信号的状况下也能发生输入，从而提高模型的灵敏性和准确性。

过拟合是指模型在训练数据上体现良好，但在测试数据上体现不佳的状况。

过拟合通常是由于模型过于复杂，捕捉到了训练数据中的噪声和细节，造成其泛化才干降低。

欠拟合是指模型在训练数据和测试数据上都体现不佳的状况。

这通常是由于模型过于便捷，不可捕捉数据中的关键形式和相关。

正则化是一种防止过拟合的方法，经过在损失函数中参与处罚项，限度模型的复杂度，使得模型能够更好地泛化到未见过的数据。

经常出现的正则化方法包含L1正则化和L2正则化。

Dropout 是一种正则化技术，经过在训练环节中随机摈弃一部分神经元及其衔接，使得模型更具鲁棒性，防止过拟合。

批量规范化是一种减速神经网络训练并提高稳固性的方法，经过在每一层对输入数据启动规范化，使得数据的均值为 0，方差为1，从而缩小内层协变量偏移。

智能编码器是一种用于无监视学习的神经网络，经过将输入数据编码为低维示意（编码器）并从低维示意重建原始数据（解码器），智能编码器可以用于数据降维、特色提取和意外检测。

生成反抗网络是一种用于生成新数据的模型，由生成器和判别器两个部分组成。

生成器生成伪造数据，判别器判别数据的虚实，两者相互竞争，最终生成器可以生成真切的数据。

留意力机制是一种提高模型处置长序列数据才干的方法，经过为每个输入元素调配不同的权重，使得模型能够更关器关键的消息，宽泛运行于人造言语处置和图像处置义务。

嵌入层是一种将高维团圆数据（如单词）映射到低维延续向量空间的技术，用于捕捉数据之间的语义相关，罕用于人造言语处置义务中的词向量示意。

多层感知器是一种基本的神经网络结构，由输入层、暗藏层和输入层组成。

每层的神经元经过权重衔接，MLP可以用于分类和回归义务。

规范化是将数据按比例缩放到特定范围的方法，经常出现的规范化方法包含最小-最大规范化和z-score规范化。

规范化有助于减速模型的训练并提高模型的性能。

池化层是一种用于缩小特色图尺寸的层，经过取临近区域的最大值或平均值，缩小参数数量和计算量，同时保管关键特色，罕用于卷积神经网络中。

序列到序列模型是一种用于处置序列数据的模型结构，经过编码器将输入序列编码为固定长度的向量，再经过解码器将向量解码为输入序列，宽泛运行于机器翻译和文本生成等义务。

张量是深度学习中用于示意数据的多维数组。

张量可以是标量、向量、矩阵或更高维度的数据结构，是构建和训练神经网络的基本数据单元。

主干网络（Backbone）是深度学习中用于特色提取的关键网络结构。它通常是一个预训练的神经网络模型，用于从输入数据中提取上档次的特色示意。这些特色而后被用作下游义务（如分类、检测、宰割等）的输入。

微调是指在预训练模型的基础上，对特定义务进后退一步训练和调整，使模型更顺应新的义务。

微调可以缩小训练期间和数据需求，提高模型的性能。

超参数是模型训练前设置的参数，不会在训练环节中降级。

经常出现的超参数包含学习率、批次大小、网络层数等。

超参数的选用对模型的性能有关键影响。

学习率是梯度降低法中的一个关键参数，选择了每次降级权重的步长大小。

学习率过大会造成训练不稳固，学习率过小会造成训练速度慢。

Softmax 函数是一种归一化函数，将输入的实数向量转换为概率散布，使得输入的一切元素之和为1，罕用于多分类义务的输入层。

长短期记忆是一种改良的循环神经网络结构，经过引入记忆单元和门机制，处置了规范RNN的梯度隐没和梯度爆炸疑问，能够更好地捕捉序列数据中的长依赖相关。

梯度隐没疑问是指在深度神经网络中，随着反向流传环节中梯度逐层传递，梯度值会变得十分小，造成前几层的权重简直不可降级，影响模型的训练效果。

梯度爆炸疑问是指在深度神经网络中，随着反向流传环节中梯度逐层传递，梯度值会变得十分大，造成权重降级适度，影响模型的稳固性。

数据增强是一种经过对原始数据启动随机变换（如旋转、翻转、裁剪等）来生成更多训练数据的方法，以提高模型的泛化才干和鲁棒性。

批次大小是指在一次性迭代中用于训练模型的数据样本数量。

较大的批次大小可以减速训练环节，但须要更多的内存；较小的批次大小则更具噪声，或者造成训练不稳固。

优化器是用于降级神经网络权重的算法，依据损失函数的梯度计算权重的降级值。

经常出现的优化器包含SGD（随机梯度降低）、Adam、RMSprop等。

F1-score 是用于权衡分类模型性能的目的，是精准率和召回率的和谐平均值。

F1-score 的值介于0和1之间，值越大示意模型性能越好。

精准率是指在一切被预测为正类的样本中，实践为正类的样本所占的比例。

它权衡了模型预测结果的准确性。

41.召回

召回率是指在一实际践为正类的样本中，被正确预测为正类的样本所占的比例。

它权衡了模型对正类样本的识别才干。

ROC曲线（接纳者操作特色曲线）是一种用于评估分类模型性能的图形，经过绘制真阳性率和假阳性率之间的相关来展现模型在不同阈值下的体现。

AUC是ROC曲线下的面积，用于权衡分类模型的全体性能。AUC值介于0和1之间，值越大示意模型性能越好。

提早中止是一种正则化技术，经过在验证集上监控模型的性能，假设性能不再优化或开局降低，提早中止训练，以防止过拟合。

特色缩放是将特色数据按比例缩放到特定范围的方法，经常出现的特色缩放方法包含规范化和归一化。

特色缩放有助于减速模型的训练并提高模型的性能。

生成模型是指经过学习数据的散布来生成新数据的模型。

经常出现的生成模型包含GAN、变分自编码器（VAE）等。

判别模型是指经过学习数据的决策边界来启动分类或回归的模型。

经常出现的判别模型包含逻辑回归、允许向量机（SVM）等。

数据不平衡是指训练数据中不同类别样本数量差异较大的状况，或者造成模型倾向少数类样本，影响分类性能。

降维是将高维数据转换为低维数据的环节，以缩小数据的维度，降低计算复杂度，同时保管数据的关键特色。

经常出现的降维方法包含PCA、t-SNE等。

主成分剖析是一种线性降维方法，经过寻觅数据中方差最大的方向，将数据投影到低维空间，以保管数据的关键特色。

非线性激活函数是神经网络中的一种函数，用于引入非线性，使得神经网络能够示意复杂的形式和相关。

经常出现的非线性激活函数包含ReLU、Sigmoid、Tanh等。

批量训练是指在训练环节中将数据分红多个小批次，每次经常使用一个批次的数据来降级模型的参数。

这种方法可以减速训练环节并提高模型的稳固性。

随机梯度降低是一种优化算法，经过对每个样本或小批次样本计算梯度并降级模型参数，以最小化损失函数。

SGD 在大规模数据训练中体现良好。

留意层是一种用于提高模型处置长序列数据才干的层，经过为每个输入元素调配不同的权重，使得模型能够更关器关键的消息，宽泛运行于人造言语处置和图像处置义务。

跳过衔接是指在深度神经网络中经过参与跨层衔接，使得输入信号可以间接传递到前面的层，缓解梯度隐没疑问，提高模型的训练效果。

ResNet是典型的运行跳过衔接的模型。

自监视学习是一种经过生成和应用数据中的外在结构和相关启动训练的方法，不须要少量的标注数据，罕用于图像、文本和音频等畛域。

交叉熵损失是一种用于分类义务的损失函数，经过权衡模型预测的概率散布与实在散布之间的差异，来指点模型参数的降级。

序列建模是指经过模型来捕捉和预测序列数据中的形式和相关，罕用于期间序列剖析、人造言语处置和音频信号处置等义务。

常识蒸馏是一种经过将大模型（老师模型）的常识传递给小模型（在校生模型）的方法，使得小模型能够在坚持较高性能的同时缩小参数数量和计算量。

60. 神经格调迁徙

神经格调迁徙是一种经过深度学习模型将一种图像的格调运行到另一种图像上的技术，罕用于图像生成和艺术创作。

标签平滑是一种正则化技术，经过在训练环节中将实在标签散布启动平滑，使得模型的预测愈加鲁棒，缩小过拟合的危险。

T-SNE 是一种用于数据可视化的降维方法，经过将高维数据嵌入到低维空间中，保管数据点之间的相对距离和结构，以便于观察和剖析。

梯度剪切是一种防止梯度爆炸的方法，经过将超越阈值的梯度启动剪裁，使得梯度坚持在正当范围内，提高模型的训练稳固性。

元学习是一种学习如何学习的技术，经过在多个义务上启动训练，使得模型能够更快地顺应新义务和新数据，提高学习效率和泛化才干。

量化是将神经网络中的权重和激活值从浮点数示意转换为低精度示意（如整数），以缩小模型的计算量和存储需求，提高模型的运转效率。

自留意力是一种用于捕捉序列数据中各元素之间依赖相关的机制，经过计算序列中各元素对其余元素的留意力权重，使得模型能够更好地理解和处置长序列数据。

Transformer 模型是一种基于自留意力机制的神经网络结构，宽泛运行于人造言语处置义务，如机器翻译、文本生成等。

Transformer 模型经过并行计算和全局依赖相关捕捉，清楚提高了模型的性能和训练效率。

BERT（Bidirectional Encoder Representations from Transformers）是一种基于Transformer的预训练言语模型，经过双向编码器捕捉句子中的高低文消息，宽泛运行于各种人造言语处置义务。

词嵌入是一种将词语示意为延续向量的方法，经过捕捉词语之间的语义相关，使得词语能够在低维向量空间中启动计算和比拟。

经常出现的词嵌入方法包含Word2Vec、GloVe等。

位置编码是一种在 Transformer 模型中用于示意序列中每个元素位置的消息，使得模型能够捕捉序列数据中的顺序相关，罕用的形式包含正弦和余弦函数编码。

图神经网络是一种用于处置图结构数据的神经网络，经过对图中节点和边的消息启动传递和聚合，使得模型能够捕捉图结构中的相关和形式，运行于社交网络剖析、介绍系统等义务。

强化学习是一种经过与环境互动来学习最优战略的机器学习方法，经过鼓励和处罚信号指点智能体的行为选用，运行于游戏、机器人控制等畛域。

模型修剪是一种缩小神经网络中冗余衔接和参数的方法，经过删除不关键的衔接，使得模型愈加紧凑、高效，同时坚持或提高模型的性能。

偏向-方差权衡是指模型在拟合训练数据和泛化到未见数据之间的平衡。

偏向示意模型对训练数据的拟合才干，方差示意模型对训练数据变动的敏感度。

适合的权衡可以提高模型的泛化才干。

多形式学习是指同时处置多种类型的数据（如图像、文本、音频等）并学习它们之间的关联相关，使得模型能够更片面地理解和处置复杂义务。

意外检测是指识别和检测数据中意外或意外形式的义务，宽泛运行于缺点检测、欺诈检测和安保监控等畛域。

卷积是一种用于提取数据部分特色的操作，经过在输入数据上运行卷积核（滤波器），生成特色图，使得模型能够捕捉数据中的形式和结构，罕用于图像处置义务。

池化是一种用于缩小特色图尺寸的操作，经过取临近区域的最大值或平均值，缩小参数数量和计算量，同时保管关键特色，罕用于卷积神经网络中。

扩张卷积是一种改良的卷积操作，经过在卷积核之间拔出空泛，使得卷积核能够笼罩更大的感触野，从而提取更多的高低文消息，罕用于图像宰割义务。

深度学习神经元网络

<<人工智能和元宇宙为下一波翻新做预备

深度学习在期间序列预测的总结和未来方向剖析>>