机器学习中必会的最强总结个关键术语！！ 15

2024-11-15

1.算法

算法是一系列明白的步骤或规定，用于处置特定疑问或成功特定义务。

在机器学习中，算法用于从数据中学习形式，并做出预测或决策。

示例：线性回归、决策树、支持向量机（SVM）、神经网络等都是经常出现的机器学习算法。例如，线性回归依据历史数据预测延续值（如房价）。

2.模型

模型是经过机器学习算法从数据中学习到的数学示意。它能够对新数据启动预测或分类。

示例：决策树模型可以依据输入特色来选择输入类别；神经网络模型可以识别图像中的物体。

3.训练数据

训练数据是指用于训练机器学习模型的数据集。

它由输入输入对组成，可协助模型学习所需的义务。

训练数据越多样化、越有代表性，模型的性能就越好。

示例：关于预测房价的模型，训练数据或者包含屋宇特色（如大小、卧室数量）及其相应的多少钱。

4.测试数据

测试数据是一个独自的数据集，用于评价机器学习模型在未知数据上的体现。

这有助于防止适度拟合，即模型在训练数据上或者体现良好，但在新数据上却体现不佳。

示例：训练渣滓邮件过滤器后，你可以在以前从未见过的电子邮件上对其启动测试，以审核其准确性。

5.特色

特色是模型用来启动预测的数据的单个可测量属性。

在机器学习的背景下，选用正确的特色关于构建良好的模型至关关键。

示例：在预测房价时，特色或者包含卧室数量、面积和位置。

6.标签

标签是与每个训练样本关联的目的值或类别。

在监视学习中，模型经常使用这些标签来学习输入和输入之间的相关。

示例：在预测电子邮件能否为渣滓邮件的模型中，标签将是“渣滓邮件”或“非渣滓邮件”。

7.适度拟合

适度拟合是指模型对训练数据（包含噪声和意外值）的学习过于深化，造成新数据上的体现不佳。

这象征着模型与训练数据的拟合水平过高，使其通用性较差。

示例：由于适度拟合，模型在训练数据上体现完美，但在测试数据上体现不佳。

8.欠拟合

当模型过于便捷，不可捕捉数据中的形式时，就会出现欠拟合，从而造成训练和测试数据的性能不佳。

示例：经常使用线性回归来拟合一个显著非线性的相关，造成预测误差较大。

准确性是权衡分类模型正确预测的比例。计算方法是正确预测的数量除以总预测数量。

示例：假设一个模型能够正确识别 100 封电子邮件中的 90 封能否为渣滓邮件，则其准确率为 90%。

10.准确率和召回率

准确率和召回率是评价分类模型的关键目的，尤其是在不平衡的数据集中。

示例：在疾病筛查中，高准确率象征着大少数被诊断为患病的人确实患病；高召回率象征着大少数实践患病的人被成功识别。

11.学习率

学习率是一个超参数，它控制模型权重相关于损失梯度的降级水平。

较高的学习率或者会造成模型收敛过快而错过最优解，而较低的学习率则或者造成训练环节过慢。

示例：在神经网络中，学习率选择了模型在训练时期从失误中学习的速度。

一个 epoch 是指在模型训练环节中对整个训练数据集启动一次性完整的遍历。

多个 epoch 可以让模型更好地学习，由于它会在每次遍历中调整其权重。

示例：假设有1000个训练样本，1个epoch象征着模型曾经看过一切1000个样本一次性。

13.超参数

超参数是在训练之前设置的参数，用于控制学习环节和模型结构。

与模型参数不同，超参数不能经过训练间接学习到。

示例：学习率、批量大小（batch size）、神经网络的层数和每层的神经元数量等都是经常出现的超参数。

14.损失函数

损失函数用于权衡模型预测值与实在值之间的差距。

训练环节中，模型经过最小化损失函数来启动优化。

示例：均方误差（MSE）罕用于回归义务，交叉熵损正罕用于分类义务。

正则化是一种技术，用于防止模型适度拟合。

它经过在损失函数中减少处罚项，限度模型的复杂度。

示例：

机器学习算法数据集

<<索引类型详解 PostgreSQL

逾越SDXL！分散模型失宠端侧非自回归图像生成基础模型Meissonic退场>>

机器学习中必会的 最强总结 个关键术语！！ 15