对于大模型微调与训练的疑问大模型训练的难点在哪里

2024-11-15

“大模型训练的难点不在于大模型自身，而在于训练数据”

这两天群众号上有一个小兄弟问我对于大模型训练的疑问，而后他想自己训练一个小模型，但又不知道该怎样操作；所以，当天就再来讨论一下大模型的训练疑问，大模型训练的难点究竟在哪里？

对大局部学习大模型技术的人来说，大模型训练和微调或许都是一个无法绕过的疑问，也是很多人弄不明确的疑问，总以为因为没有足够的算力，团体无法启动模型训练。

但理想上有这种想法的人是进入了一个误区，要素是对大模型不够了解，以为大模型的难点就在于训练。

大家都知道目前市面上的模型关键都是预训练模型或许一些基座模型；除了哪些真正有技术和资金，能够真的自己去设计模型，而后成功模型的组织或企业来说，大局部所谓的自己的模型都是基于一些开源模型启动的二次训练或微调。

大模型技术自身确实有很多难点，比如说算法，架构，并行计算的模式，幻觉疑问，才干无余等等多种疑问；但对驳回开源模型，经常使用从新训练的模式获取一个具备特定模型的企业来说，大模型自身对他们来说并没有特意大的难度，假设说有难度那么惟一的难度就是基于模型做的二次开发，使得其配置更完善与弱小。

而假设只是把开源模型从新训练一下，那么大模型自身的复杂度对他们来说都不是疑问；要素就在于这些开源模型在开源的时刻曾经把模型的基础架构和一些算法启动了成功；对训练者来说曾经不要求再启动算法的开发。

因此，对这些训练者来说，从新训练一个大模型就相似于把他人曾经制造好的工具，用自己的数据从新再跑一遍，而后怎样跑，开源者曾经给了一个具体的步骤；就是开源模型的外围技术以及训练的步骤。这些文档在开源模型外面都曾经有了，不会的间接拿上来看就行了，假设看疑问就多看几遍，多尝试几遍。

下面说了这么多，关键就是想说明确一件事，对基于开源模型启动训练的人来说，大模型自身曾经做的很好了，你曾经不要求再对大模型启动调整，就可以间接启动训练；或许假设你才干很强，当然也可以依据自己的需求对大模型的整个架构或算法启动重写。

ok ，如今咱们说一下大模型训练的真正难点在什么中央？这个前提是抛开大模型的架构设计和算法成功，只是单纯的对大模型启动训练，不触及二次开发等状况。

对训练者来说，大模型训练的难点不在于算力，也不在于大模型的复杂度，而在于训练数据的搜集与处置。

大模型训练的流程如今基本上曾经很具体了，网络上能找到各种大模型训练和微调的文章以及案例；但训练和微调的环节你知道了，算力也可以去买算力服务，但训练的数据哪里来？

经常使用开源模型做训练来成功一个新的业务，最难的一点就是搜集和整顿训练数据；比如说，你想做一个渣滓分类的模型，那么你就要求搜集少量的和渣滓无关的数据，比如干渣滓有哪些，湿渣滓又有哪些，什么是可回收的，什么是无法回收的。

假设只是训练一个小模型疑问还不是很大，少者几十到几百，多则几千到几千万，甚至上亿的训练数据；传说openAI训练GPT4曾经把全环球能找到的数据所有搜集了上来，用于模型的训练；这些数据的搜集，处置，加载，存储都是一个个疑问。

这玩意就相似于造原子弹，原子弹的图纸都是地下的，技术也是地下的；但制造原子弹的原料哪里来？

原子弹的原料都是各国严厉管控的，假构想自己制造原料，就一个高速离神思有几个国度能做的进去？

所以，大模型的训练的难度就像造原子弹一样，技术和原理都有了；但就是找不到制造的原料，而数据就是大模型训练的原料。

当然，如今有很多提供各种数据的企业服务，甚至一些灰色地带地下叫卖一些数据；但疑问是这些数据或许并不能齐全合乎你的需求，因此想打造一个好的模型，模型的设计或选用只管很关键；但训练数据的搜集和整顿也很关键。

原文链接：

对于大模型微调与训练的疑问 大模型训练的难点在哪里