13B和65B等面前的要素是什么大模型参数量都是7B

2024-11-15

不知道大家有没有留意到如今大模型百花齐放，然而模型参数大小却十分分歧，基本都是7B，13B，65B等。那么，为什么被设计成这么大呢？

网络上有很多解释，笔者联合自己的了解，分享其中或者的要素。

最间接的就是历史传承，由于最后OpenAI在就是这么干的，而后，Meta自创了OpenAI的做法，推出了llama的7B，13B，33B，65B四个尺寸。由于llama在开源畛域的位置，其余模型厂商都基本遵守了这样的商定，构成了当下的局面。

适配推理设施。特意是关于一些参数量小的模型是为了适配不同级别的GPU显存，经常出现的显寸大小从4G到80G不等，咱们知道显存占用的公式：

模型空间大小=参数量*参数精度

这使得能够很繁难地在单卡上部署推理，降落经常使用的门槛。以chatGLM2-6B为例，它有62亿参数，权重参数文件驳回BF16精度存储，实践显存占用大略为12.5GB，一个英伟达T4显卡（16GB）就能跑起来。

模型结构上的设计。从模型结构上看，大模型都是驳回的transfomer模型的decoder-only结构（未遮蔽局部）。其参数量遭到暗藏层维度，层数，留意力头数等影响，而这些参数取值既参考GPT-3，也是联合。上方是llama和gpt系列模型的参数量统计：

实践参数量P	暗藏层维度d_model	层数N	留意力头数h	预算参数量
6590300160
12730761216
32045531136
64572358656

功能、老本与训练期间的综合平衡。依据一文探秘LLM运行开发(12)-模型部署与推理(大模型相关参数计算及功能剖析)，模型训练期间可以预算：6TP/(n*X*u)，其中X是计算显卡的峰值FLOPS，n为卡的数量，u为应用率。以LLaMA-65B为例，在2048张80GB显存的A100上，在1.4TB tokens的数据上训练了65B参数量的模型。80GB显存A100的峰值功能为624TFLOPS，设GPU应用率为0.3，则所须要的训练期间为：

本文转载自，作者：

AIGC 盘古人工自动文心一言 Agent 模型多模态开源大模型 GPT 紫东太初 ChatGPT 通义千问日日新言犀 4

<<2 3 性能超Llama 可商用！开源大模型Falcon

Cooperate！一文读懂大模型协作战略 Ensemble Merge>>

13B和65B等面前的要素是什么 大模型参数量都是7B

您可能还会对下面的文章感兴趣：

随便看看

13B和65B等面前的要素是什么大模型参数量都是7B