直播首秀 AI大模型的存储之道

2024-11-14

AIGC 在 2023年爆火，各类大模型层出不穷，参数动辄到达千亿数量级。这些面前，数据的类型和方式也走向复杂多样。例如大模型会驳回到咱们实在物理环球中的文字、视觉、音频、3D、雷达、多谱等复杂多样的不同模态信号和数据，数据则又存在结构化、半结构化、非结构化等多种方式。

在大模型开展的初期：GPU很贵，相比之下存储的老本疏忽不计，可以间接选性能最好最贵的存储方案。典型的高性能文件系统有GPFS、Lustre、Weka，以及其余高性能NAS 等。这些系统通常依赖全闪存（NVMe）和高性能网络提供极致性能。

然而随着算力、数据与团队投入都增大的时刻，又发现新的疑问：在预训练阶段，会发生更多试验结果和两边数据，加上各种模型的checkpoint 和日志数据，预训练环节总数据量估量将到达10PB 到100PB。正式训练环节，虽然企业可以将所有数据存储于高性能存储系统中，然而，高性能文件系统的性能都与容量是关联的。假设要到达训练所需的I/O性能，须要扩展高性能文件系统容量。

大模型背景下，“存力”成为关键基础设备才干 。2023年10月，工业和消息化部等6部门联结印发了《算力基础设备高品质开展执行方案》，明白提出到2025年存储总量超越 180EB 、先进存储容量占比达30% 以上的指标。先进存储是指运行全闪存阵列、SSD等先进存储部件，驳回存算分别、高密等先进技术，单位容量数据操作才干到达万 IOPS（每秒读写次数）以上的存储模块。

下图展现了依据算法性能需求和所用配件条件选用最适合的存储技术的流程。在实践训练环节中，或者会混合驳回多种不同的存储技术。例如，在GPU集群中，经过高带宽的NVLink互联的GPU组经常使用基于层内并行的散布式显存治理技术；经过带宽较低的PCIe互联的GPU组经常使用流水线并行的方式。

大模型场景关于存力有着高吞吐、高IOPS、高带宽、低延时的极致性能要求 。尤其是大模型训练环节，其数据量大、参数规模大、训练周期长、投资规模大等特点是传统AI场景所不具有的，因此为传统AI场景而构建的基于开源技术或商业化产品的存力难以满足性能需求。那什么样的存储架构才是AI大模型时代的最佳选用呢？

首先，可以指定数据初次写入时的搁置战略，例如在数据失掉阶段，新失掉的数据须要在短期间内处置的，可以间接搁置到高性能层；而新失掉的数据在短期间内无需处置的或用来常年归档的数据，则可以间接写入容量层；其次，可以设置丰盛的数据分级流动战略，例如可以设置访问频度与期间相结合的流动战略，也可以设置容量水位触发的流动战略；再者，依据用户制订的分级战略，数据能够在高性能层和大容量层之间智能分级流动，数据分级迁徙环节对业务运行齐全透明；最后，关于曾经分级到容量层的数据，用户可以经过命令或API对指定的数据集性能预热战略，以减速方案性义务的冷启动速度。

大模型训练中的审核点Checkpoint

GPU 缺点数量随着 GPU 集群规模的增大而提高。GPU 的频繁缺点一方面会造成训练失掉的参数失落；另一方因为大模型训练中各 GPU间的数据存在依赖相关，单 GPU 的缺点会分散到整个 GPU 集群中，有 2 类关键的上班处置大模型训练缺点的疑问：参数审核点和冗余计算。

参数审核点技术以设定的频率，将训练失掉的参数消息存储到耐久化的存储介质中，以对 GPU 缺点启动容错。在 GPU缺点后，参数审核点技术应用最新且完整的参数启动复原。参数审核点技术须要大容量的耐久化存储设备以保留审核点消息。并且在复原阶段，参数审核点须要从耐久化介质中读取之前版本的参数，这造成复原开支高，应用冗余计算的方式，在多张 GPU 中重复计算相反版本的参数，以对模型训练数据容错。在这个环节中，存储要能在AI训练每个epoch的shuffle阶段，提供高效的亿级文件列表失掉才干；要能撑持住在上亿训练集文件上，经过为每个文件频繁创立新的硬链接，以成功训练集的版本治理才干。

数据总量和数据品质选择了AI大模型的高度 ，数据预备效率和数据在全流程间的流转效率将成为影响AI大模型端到端消费老本的外围要素。选用一套可以满足AI大模型极速开展的存储系统，关于优化大模型消费效率、降落大模型TCO至关关键。

大模型训练场景的基础设备，618直播间探讨。

Q1：说起AI大模型，咱们首先联想到的是GPU，算力，英伟达。有这些就够了吗？

A1：显然不是，英伟达股价一路下跌，确实会让人有个错觉，AI就是GPU，其实不是，网上有句戏言：挖金子的AI还在亏，卖铲子却赚翻了。假设把数据当成一个矿藏，GPU好比挖矿的铲子一样。大模型训练除了须要GPU算力，存力也是AI大模型的关键保证，关键基于以下几个起因。

1， 先说参数 。ChatGPT 3.5颁布的时刻1750亿参数，火星人埃隆马斯克颁布的Grok-1是3140 亿参数，源文件200G，运转起来就得700G显存。未来大模型参数千亿级别奔向万亿参数；

2， 再说数据集。 大模型已从单模态走向多模态，未来还会走向全模态；用于训练的数据集从3TB，增长到多模态40TB，未来全模态将会到达PB级数据；

3，对算力需求的增长速度大幅逾越单GPU卡算力的增长速度，大模型训练集群的规模会变得越来越大，这样才干 保证大模型的涌现才干 ；模型训练 checkpoint数据量 也从十几GB增长到几百个GB，审核点保留和复原进展与模型大小成正比，更高频度的CheckPoint给存储带来庞大写入带宽应战。

Q2：你刚才说到一个词，涌现才干这个词怎样了解？

A2： 涌现字面了解，厚积薄发。 什么是“涌现现象”？当一个复杂系统由很多庞大集体构成，这些庞大集体凑到一同，相互作用，当数量足够多时，在微观层面上展现发生象，就可以称之为“涌现现象”。在日常生活中也有一些涌现，譬如雪花，雪花的构成是水分子，水分子很小，然而少量的水分子假设在外界温度条件变动的前提下，相互作用，在微观层面就会构成一个很法令、很对称、很漂亮的雪花。

在AI大模型训练环节中，人工智能模型有时，仿佛会突然「了解」一个疑问，虽然它们只是记住了训练数据。这个突然转变的环节，有个笼统的说法叫顿悟，大模型突然从便捷地复制训练数据，转变为发现可推行的处置方案。

AI大模型领有更强的涌现才干，才会领有更精准的言语了解和推理才干。 当然，这里有一个关键的前提是，足够少数据集对大模型启动高效训练和存储调度。否则的话，就算是有爱因斯坦的大脑，不识字不读书，那也很难启动发明性的思索。

Q3：那也就说，不论你有多少GPU，但没有足够多的数据集训练和存储调度，也是不可顿悟？

A3：是的，顿悟是模型涌向才干的笼统说法，该才干无处不在，只需摸清条件，做好AI全流程的数据存储和资源调度，大模型就会顿悟，只是早晚的事。

AI全流程包含数据失掉、数据预处置、模型训练与评价、模型部署运行这四个阶段 ，每个阶段都触及海量数据的存储与访问。大模型的存储系统应该是什么样子呢？

这套存储系统须要同时具 备高性能层和大容量层 ，并对外出现一致的命名空间，具有数据全生命周期治理的才干。同时，这套存储还得可以承载AI全流程业务，允许NAS、大数据、对象、并行客户端等 多种访问传输协定 。而且呢，这套存储还得具有 数千节点的横向扩展才干 ，随着存储节点数的参与， 系统带宽和元数据访问才干可成功线性增长 。这些需求，传统的存储，无论是集中式还是散布式，都是不可有效满足大模型训练的不凡运行场景。

Q4：在大模型场景中，京东云海能否具有以上特点？

A4：京东云海是京东云的存储底座，应用 齐全自研的一致存储引擎 ，提供块文件对象并行散布式大数据等五种协定访问，一切须要高效处置的数据均在高性能存储层成功，AI全流程各阶段协同时，不再须要频繁迁徙数据。

京东云海可以大幅优化AI大数据训练数据预备效率，提高AI计算集群的GPU应用率，清楚降落算力投资老本和数据预处置老本，大大缩短AI大模型开发的周期。消费一个千亿级参数的大模型端到端TCO总体领有老本可以降落10%以上。

Q5：如此说来，京东云海确实是一款大模型训练必备产品，怎样才干称得上好呢？

A5：京东云海一套系统、一套参数具有 高性能灵活混合负载的承载才干 。这该怎样

在数据导入阶段，大小文件同时写入；在数据预处置阶段，大小文件批量读取处置后生成海量小文件；在模型训练阶段，海量小文件批量随机读取；在生成CheckPoint时，要能满足大高带宽写入；在模型部署阶段，即使大并发读取同一个模型文件，随着部署设备数量的参与，集群聚合吞吐带宽依然可以线性增长。譬如，千亿级大模型发生的模型文件有 GB 左右，向业务推送时，须要并发散发到前端数千个业务虚例上。散发环节触及数百TB数据的读取，因此须要高并发大带宽读取散发才干。

再说到一款好的产品是怎样样的？肯定是老本更低性能更优和稳固牢靠三项特色的汇合，而京东云海，就是这三者合一的最佳之选。还有很关键的一点是，交付方式十分灵敏，可以是经过纯软件授权，软配件一体机和系统集成的方式交付。

截止目前除了互联网电商场景外，在一些大的算力中心，银行证券医疗等行业已有落地案例。

原文链接：

<<哪些继任者接手 OpenAI出奔了哪些大佬有什么来头

AI 大模型在金融行业的运行场景>>

直播首秀 AI大模型的存储之道

您可能还会对下面的文章感兴趣：

随便看看