无惧大规模数据应战！解读生成式AI时代的数据存储技术

2024-11-15

进入生成式AI时代，CPU、GPU、DPU等芯片的算力成为越来越多企业用户关注的重点。确实，面对动辄万亿规模的参数，须要更弱小的算力才干满足模型训练要求。不过，存储作为数据中心中的外围IT基础设备，其性能体现也将对生成式AI带来关键的影响。接上去，笔者从生成式AI给存储带来的诸多应战谈起，具体引见一下AI时代数据存储的关键技术。

一、AI给数据存储带来的应战

笔者以为，生成式AI关键给数据存储带来了性能、容量、能耗、多少钱等方面的应战。

一是存储性能应战。在生成式AI模型的训练环节中，因为须要处置少量的数据，不只对CPU、GPU等性能提出了更高的要求，对存储系统雷同也提出了更高的要求。因此，为了提高训练效率，将数据更高效地传输给CPU与GPU，不只须要存储自身具有更高的性能，而且还须要更宽的数据传输总线，以提高数据读写性能，降落提前。

二是存储容量应战。存储宏大的数据量，对存储的空间提出了更高的要求，这就须要企业部署愈加灵敏的存储处置方案，继续满足生成式AI关于数据存储的需求。

三是能耗和空间应战。因为须要更高密度的存储处置方案，因此生成式AI还将形成数据存储功耗的提高，以及存储空间的应战，这将会给数据中心带来全体运营老本的提高。

二、满足AI需求的数据存储技术

面对AI给数据存储带来的应战，CXL、HBM、SSD等技术也在不时演进，以更高的带宽、更强的性能和更高的容量，满足AI运行下的数据存储需求。

1）CXL（高速互连技术）

CXL的全称为ComputeExpress Link，是一种高速互连技术，它以更高的带宽处置了数据传输难题，为人工默认提供了更快、更灵敏的数据传输处置方案。

一方面，CXL成功了设备到CPU之间的互联，成功了存储计算分别。另一方面，CXL准许CPU以低提前和高带宽访问衔接设备上更大的内存池，从而裁减内存，以此来参与AI/ML运行程序的内存容量和性能。

与PCIe相比，CXL在带宽方面有着更强的性能体现。其中，CXL2.0支持32GT/s的数据传输速率，CXL3.支持64GT/s的数据传输速率，这使得CXL能够更有效地满足处置大规模数据和高性能计算上班负载的需求。因为CXL能够在PCIe 或CXL形式下运转，应用CXL灵敏的处置器端口可以在CIe5.0中成功32GT/s的数据速率，在PCIe6.0 中成功高达 64GT/s的数据速率，为人工默认运行提供了愈加灵敏的配置。

除此之外，CXL准许不同设备之间共享内存资源，能够更好地提高内存应用率，降落系统老本。另外，CXL支持多种设备之间的互连，包含CPU、GPU、FPGA和存储设备等，这为构建异构计算环境提供了便利。

作为一个放开的行业规范组织，CXL旨在创立技术规范，促成数据中心减速器和其余高速改良的放开生态系统。目前 CXL 曾经发布了CXL 1.0、CXL2.0和CXL 3.0三个版本。其中，最新的CXL 3.0版本基于PCIe 6.0开发，支持比CXL 2.0更高的带宽和更低的提前，并参与了设备热插拔、电源治理和失误处置等新配置。

正是因为高带宽、低提前、内存共享、灵敏性、兼容性等方面的长处，CXL为高性能计算畛域带来了更好的选用，能够很好地满足生成式AI运行中数据读写的带宽要求。

2）HBM（高带宽存储器）

HBM，即High Bandwidth Memory，是一种具有高性能、高容量的存储芯片，被宽泛运行于高性能计算、数据中心等畛域。

HBM最后并不是以存储性能作为开发目标，而是以提高存储容量为主。经过应用3D芯片重叠技术将多个DRAM芯片重叠在一同，从而提供更大的存储容量。随着技术的开展，AI对GPU性能和配置提出了更高的要求。在此背景之下，GPU的配置越来越强，须要愈加极速地从内存中访问数据，以此来缩短运行途理的期间。特意是在生成式AI出现之后，大型言语模型 (LLM）须要重复访问数十亿甚至数万亿个参数，如此宏大且频繁地数据处置，往往须要数小时甚至数天的期间，这显然不可满足要求。于是，传输速度也成了HBM的外围参数。

与DRAM相比，HBM岂但领有容量上的长处，能够同时存储更多的数据，而且领有更高的带宽，能够大幅优化数据的读写速度。自2013年第一代HBM降生以来，随着技术的不时开展，HBM也教训了HBM2（第二代）、HBM2E（第三代）、HBM3（第四代）、HBM3E（第五代）的顺序迭代，最新的HBM3E是HBM3的裁减版本，速率到达了8Gbps。

作为HBM（高带宽存储器）的裁减版本，HBM3e驳回了垂直互连多个DRAM芯片的设计。相较于传统的DRAM产品，HBM3E在数据处置速度上清楚提高。依据SK海力士发布的数据，HBM3E最高每秒可处置1.15TB的数据，相当于在一秒钟内即可处置230多部5GB大小的全高清电影。这种高性能的数据处置才干使得HBM3E成为人工默认内存产品当中的关键规格。

只管同为HBM技术，但芯片厂商的开展门路却不相反。三星正在钻研在两边件中经常使用光子技术，光子经过链路的速度比电子编码的比特更快，而且耗电量更低。海力士正在钻研 HBM与逻辑处置器间接衔接的概念，在混合经常使用的半导体中将 GPU 芯片与 HBM 芯片一同制作。美光目前正在消费 HBM3e gen-2内存，驳回8层垂直重叠的24GB芯片。12层垂直重叠36GB芯片方案于2024年开局出样。

至于谁家的技术更先进，目前尚且不可判别。不过可以确认，随着HBM技术的不时成熟，将会为人工默认带来更强的算力撑持。

3）QLC（4bit存储单元技术）

QLC是一种四位存储单元技术，也就是说每个存储单元可以存储4个比特的数据。

从最后的SLC、MLC，再到目前的TLC、QLC，闪存颗粒技术在不时开展，存储容量也在不时优化。

目前，在3D NAND技术的打破之下，驳回QLC技术的SSD容量大幅增长。例如，Solidigm驳回192层3D NAND的技术QLCSSD曾经到达61TB，SK海力士的192层QLC闪存不只容量到达了61TB，而且读取速度到达了7000MB/s，写入速度也有3300MB/s。

只管很多用户关于QLC的性能和寿命提出了质疑，但在笔者看来，随着数据量的爆炸式参与，对存储容量的需求越来越高。而QLC作为存储密度更高的技术，显然更为适宜应答大规模数据存储的需求，岂但能够存储更多的数据量，而且还能够有效地降落存储的功耗和占地空间，为企业提供更好的TCO。最后，随着技术的不时开展，厂商也在经过新的算法来不时提高QLC的寿命，使其适宜更多的运行场景。

因此，只管QLC在性能和寿命方面不如TLC，但从目前的开展趋向来看，QLC将会成为干流。

总结：

生成式AI不只对CPU、GPU等算力提出了更高的要求，也正在减速数据存储技术的改革。不难发现，除了闪存存储技术在不时打破之外，CPU与存储、GPU与存储之间的数据传输技术也获取了极速开展。可以说，随着以闪存为代表的数据存储技术在数据中心的落地，存储曾经不再成为影响生成式AI运行的关键瓶颈。

<<架构师都在用的技巧！微服务如何成功低耦合高内聚

Webpack 取代为什么 Vite 的指导位置逐渐被>>