字节跳动开源大模型训练框架veGiantModel 性能最高优化6.9倍

2024-11-15

近日，字节跳动运行机器学习团队开源了一款名为 veGiantModel 的大模型训练框架，该训练框架关键运行于人造言语处置畛域的大模型训练，最高可将大模型训练的性能优化6.9倍，大幅降落训练系统的压力。目前，字节跳动旗下的企业级技术服务平台火山引擎已在其机器学习平台上原生允许了 veGiantModel，该平台正在公测中。

人造言语处置是人工智能研讨的一个关键畛域，旨在协助计算机了解、解释和运用人类言语。近些年，人造言语处置在运行方面取得了较为清楚的打破，关键是归功于 Bert、GPT、GPT-3 等预训练言语模型的遍及。可以说，预训练言语模型曾经成为人工智能畛域的基础设备。因为大模型的算法表现愈加出众，预训练言语模型在近几年出现出迅速向大模型开展的趋向。但是，模型体积的极速增长也对现有的训练系统带来了不小的应战，关键表现为显存压力、计算压力和通讯压力。

针对现有训练系统在大模型训练场景下的上述应战，字节跳动运行机器学习团队提出了大模型训练框架 veGiantModel。

veGiantModel的中文称号叫做火山引擎大模型训练框架，是基于开源深度学习框架 PyTorch 、并在 Megatron 和 DeepSpeed 两大开源干流训练框架的基础之上构建的高性能大模型训练框架。

veGiantModel 可同时允许数据并行、算子切分、流水线并行 3 种散布式并行战略，并允许智能化和定制化的并行战略；基于字节自研的高性能异步通讯库 ByteCCL，veGiantModel 的训练义务吞吐相比其余干流开源框架有 1.2 倍到 3.5倍的优化，并且提供了更友好、灵敏的流水线允许，降落了模型开发迭代所须要的人力；另外，veGiantModel 可在 GPU 上高效地允许数十亿至上千亿参数量的大模型，对网络带宽要求也更低，在私有化部署时无 RDMA 强依赖。

与 Megtraon 和 DeepSpeed 的对比测试显示，veGiantModel 的性能表现最好、受网络带宽影响最小，在Tesla V100上较上述两者有1.2 倍到3.5倍的优化，在 Ampere A100上最高可优化6.9倍。

veGiantModel开源地址：

火山引擎机器学习平台公测地址：

训练框架大模型训练

<<了解危险云中数据的安保性如何

你会几种写出九种方法判别字符串能否为空>>

字节跳动开源大模型训练框架veGiantModel 性能最高优化6.9倍

您可能还会对下面的文章感兴趣：

随便看看