大模型为什么要求训练 大模型所谓的参数是什么 大模型训练究竟干了什么

“大模型的实质是机器学习,机器学习的实质就是一种数学模型。”

咱们经常能听到这样的说法,某某大模型有多少参数,某某大模型参数量又优化了,这里所说的参数究竟是什么?

咱们知道大模型是训练进去的,那么哪些训练数据都跑哪去了,大模型训练的环节中都干了什么? 为什么大模型要求训练?

01、大模型的参数究竟是什么?

咱们知道大模型的开展从刚开局的几百个参数,到如今的上千亿个参数,比如GPT-3就有一千七百多亿个参数。

而随着参数数量的优化,大模型的配置也变得越来越弱小,特意是如今GPT-4o的出现,大模型曾经可以和人类启动反常的语音和视频交换。

但很多人都不知道这个参数究竟是个什么物品?

首先,咱们要明确一件事,不要把训练数据当作参数;训练数据是训练数据,参数是参数。

大模型是基于机器学习模型,经过少量数据训练进去的模型,所以叫做大模型。

而如今干流的大模型都是基于神经网络模型构建的模型,不论是基于卷积神经网络(CNN),还是循环神经网络(RNN),亦或许是Transformer神经网络等。

但神经网络模型只是机器学习模型中的一个分类,其它还包含允许向量机,决策树,回归模型等。

而这里说的大模型的参数,是基于神经网络模型而构建的参数。咱们知道,神经网络模型有很多层,每一层都有很多个神经元,而每一层又要求启动衔接;

这就是大模型参数的由来,比如权重与偏置,就是每个神经元都有的参数。

普通状况下,大模型的参数是在网络架构时就设定好的,参数数量普通不会出现变动;但也有例外状况,比如灵活神经网络就会对参数数量进执行态调整。

02、大模型训练的详细环节?

咱们都知道,训练大模型要求预备少量的数据,而后对模型启动训练。那么这个训练的环节究竟是干了什么,哪些训练数据的作用是什么?

其实说白了,大模型训练的实质就是调整参数。

在前面咱们说了,大模型有很多个参数,如今的大模型基本上参数都是以亿为单位;当然,参数的数量依据大模型的架构而有所不同。

训练的环节其实就是把训练数据输入到大模型中,而后模型依据这些数据对参数启动调整的环节,以求到达一个最优解。

假设把神经网络看作一个黑盒,那么咱们输入数据,经过神经网络这个黑盒处置之后,再输入咱们的数据。

如下图所示,就是一个便捷的神经网络模型图:

神经网络单层模型

相似于人体有有数个神经元组成,而从数学实践来说,更多的神经元与更复杂的神经网络架构,就能够启动愈加复杂的数据处置。

所以,就有了多层的神经网络架构,如下图所示,神经网络由多个神经层组成。如GPT-3就有96层。

多层神经网络

这就是神经网络的模型架构。

训练开局时,要求把训练数据输入到模型中,详细的输入模式这里暂不探讨,咱们只有要知道训练数据要求输入到神经网络中即可。

由于模型有多个神经层,所以训练数据从输入层进入大模型之后;要求在模型的多个神经层之间启动流转,而这个环节术语叫做正向流传。

数据从输入层,一层一层的流传到输入层,而后输入结果;但由于大模型刚开局就像一个小在校生,所以它输入的结果往往不尽人意。

所以,为了处置这个疑问,大模型的输入结果要求跟实践结果启动婚配,术语叫做计算损失差,损失差越大说明输入结果越差。

而有了损失差,说明的模型是有疑问的;所以就要求对模型启动调整,这就是所谓的反向流传。

意思就是,模型把输入的结果再次输入到模型中,而后模型依据这个结果,经常使用某种算法对模型中的参数启动调整,比如不同神经元的权重等。

而调整参数的这个物品叫做优化器。

模型训练流程

而后,模型依据这个原理,经常使用训练数据一次性一次性的输入,而后一次性一次性的对参数启动调整。最后到达一个最优解,也就是训练好的大模型。

这也是为什么大模型要经过很多轮的训练,能力到达比拟满意的成果。

当然,大模型的神经层并不是越多越好,训练数据也不是越多越好,有时刻更多的参数和训练数据训练进去的结果,或许还没有少一点的成果好。

而这也有专门的评价函数对训练结果启动评价。

以上就是大模型训练的原理。

原文链接:​ ​​ ​

您可能还会对下面的文章感兴趣: