构建的环球最大 xAI 超级计算机 以太网减速 AI NVIDIA
2024 年 10 月 28 日—NVIDIA 发表,xAI 位于田纳西州孟菲斯市的 Colossus 超级计算机集群到达了 10 万颗 NVIDIA® Hopper GPU 的渺小规模。该集群经常使用了NVIDIASpectrum-X™ 以太网网络平台,该平台是专为多租户、超大规模的 AI 工厂提供出色性能而设计的 RDMA(RemoteDirect Memory Access)网络。
Colossus是环球上最大的 AI 超级计算机,目前正被用于训练 xAI 的 Grok 系列大言语模型,以及作为 X Premium 用户性能之一的聊天机器人(Chatbot)。xAI正在将Colossus 的规模进一步扩展一倍至20 万颗 NVIDIA Hopper GPU。
xAI和 NVIDIA 仅用了 122 天就建成了一切配套设备和这台最先进的超级计算机,从第一个机架落地到开局训练义务,只用了 19 天。而建造这种规模的系统通常须要数月乃至数年的期间。
在训练 Grok 这种超大型模型时,Colossus 成功了绝后的网络性能,在三层网络架构下,整个系统未出现任何因流量抵触而形成的运行提前参与或数据包失落的状况。仰仗 Spectrum-X 先进的拥塞控制性能,系统数据吞吐量不时坚持在 95%。
这一性能水平是传统以太网在大规模的状况下基本不可成功的,传统以太网在数千条流出现抵触时,只能提供 60% 的数据吞吐量。
NVIDIA网络初级副总裁 Gilad Shainer 示意:“AI 正变得至关关键,对性能、安保性、可扩展性和老本效益提出了更高的要求。NVIDIA Spectrum-X 以太网网络平台专为那些如 xAI 一样的翻新企业提供更快的处置、剖析和口头 AI 上班负载的速度,进而减速 AI 处置打算的开发、部署和上市。”
埃隆·马斯克在 X 上示意:“Colossus 是环球上最弱小的训练系统。xAI 团队、NVIDIA 和咱们的泛滥协作同伴及供应商干得美丽。”
xAI发言人示意:“xAI 构建了环球规模最大、性能最强的超级计算机。借助 NVIDIA Hopper GPU 和 Spectrum-X,咱们得以打破大规模 AI 模型训练的边界,打造基于以太网规范并经过超级减速和优化的 AI 工厂。”
Spectrum-X平台的外围是 Spectrum SN5600 以太网替换机,它允许高达 800Gb/s 的端口速度,驳回了 Spectrum-4 替换机 ASIC。xAI 驳回了 Spectrum-X SN5600 替换机与 NVIDIA BlueField-3® SuperNIC 的端到端处置打算,成功了史无前例的性能。
专门面向 AI 的 Spectrum-X 以太网网络具备先进的性能,可在提供高效、可扩展的带宽的同时,成功低提前和短尾提前,而这些性能之前是 InfiniBand 网络所独有的。Spectrum-X 的性能包含基于 NVIDIA DDP(Direct>