运行 NVIDIA Spectrum
法国云服务提供商 Scaleway正在基于 NVIDIA的 Hopper GPU 和 Spectrum-X以太网网络平台构建区域性 GPU集群,为用户提供 AI 按需服务业务。
Scaleway 是法国的一家领有高性能基础设备的云服务提供商,创立于 1999年,领有 80+ 云产品及服务,为环球 25,000+ 客户提供云服务,客户包含 Mistral AI、Aternos、Hugging Face、Golem.ai 等。 Scaleway 提供一站式的云服务,以开发翻新处置打算并协助用户从零开局构建和扩展 AI名目,目前 Scaleway 正在构建区域 AI 云,提供 GPU 基础设备,用于大规模的 AI 模型训练、推理及部署。
云AI 上班负载需求正以史无前例的速度增长,同时生成式AI 运行也在激增。为满足客户部署生成式AI 运行程序、训练基础 AI 大模型的需求,云服务提供商面临渺小应战,须要构建 AI 云,经常使用减速计算技术和高性能网络来允许 AI 业务。Scaleway 的外围需求包含:
●关于散布式 AI训练义务,单个义务的训练期间由最慢的计算节点的运转期间选择,这使得尾部提前至关关键。AI云须要一个高吞吐、低提前、低颤抖、易扩展的高性能网络,来确保 GPU间极速、高效的通讯,尤其是在大规模部署的场景下。
●在多个AI 义务同时运转的多租户环境中,性能隔离关于包全一个租户的AI 义务免受其余租户业务的影响是必无法少的。由此提出了对多租户多义务场景下性能隔离的需求。
● 关于复杂的 AI云环境,须要专门实用于 AI 网络的监控控制工具,提供细粒度的网络可视化性能、同时具有网络监控和缺点定位才干。
● 为成功 AI云数据中心的高效、极速部署,须要弱小的网络仿真及智能化平台。
● 随着云上用户、数据、运行的极速增长,网络安保要挟不容漠视,须要提供私有的、安保的零信赖基础设备,保证用户的业务安保。
Scaleway 驳回了 NVIDIA 的Hopper GPU 和Spectrum-X 网络平台应答以上应战。
Scaleway 将 HGX Hopper GPU 主机参与其 GPU 集群阵容中,以笼罩宽泛的计算需求,应用 GPU 的速度和效率减速 AI 散布式上班负载。
关于 Scale-OutAI 网络,Scaleway 驳回了基于 BlueField-3 SuperNIC 和 Spectrum SN5600 替换机构建的 Spectrum-X 网络平台。 NVIDIA 的 Spectrum-X 网络平台是环球首个专为 AI 构建的以太网端到端处置打算,与传统以太网相比,其生成式AI 训练的网络通讯效率提高了 1.6 倍。同时 Spectrum-X 部署将应用以下网络软件堆栈:
●NVIDIA Air 用于 AI 网络仿真,NVIDIA Air 是一个云托管的数据中心网络仿真平台,其行为相似于实在环球的消费环境。经常使用NVIDIA Air 创立数据中心的数字孪生,可以验证网络性能、网络性能以及智能化部署代码,优化数据中心的部署效率。
●NetQ 用于 AI 网络监控,经过高频遥测技术监控 AI 上班负载,NetQ 提供无关数据中心运转状况的数据和统计消息,关联性能和运转形态,并跟踪形态变动。基于遥测消息,NetQ提供灵活路由监控,RoCE 流量计数器,替换机队列直方图等性能,以识别和应答网络微突发、拥塞场景,繁难网络缺点定位。
●Cumulus Linux 用于软件驱动的数据中心网络智能化,CumulusLinux 是翻新的放开网络操作系统,允许 BGP/OSPF 路由协定,以太网虚构公用网络 EVPN,虚构路由和转发。
● DOCA SDK 和库用于增强 BlueField-3 SuperNIC 性能,DOCA SDK 提供行业规范的放开 API 和软件框架,包含针对 RDMA、网络、安保、存储、数据门路减速的 SDK,协助开发者极速创立软件定义、SuperNIC 减速的服务。
●配件:
●软件:
驳回 NVIDIA的全体处置打算后,极大地优化了 AI 计算才干,缩短了 AI 训练期间,同时减速了 AI 处置打算的开发、部署和上市期间,有效提高了投资报答率。
●Scaleway 客户可以从几个 GPU 扩展到几千个 GPU,以顺应任何 AI 用例
●Spectrum-X 提供多租户、多义务的 AI 环境所需的高性能和安保性, 借助灵活路由、拥塞控制、全局共享缓冲区等多种机制,成功了多义务的性能隔离。
●NetQ 提供对 AI 网络肥壮状况的深度可视性,具有 RoCE 流量计数器、事情和WJH(What Just Happened)警报等丰盛的仪表板,成功 AI 网络可视化、缺点扫除和验证性能。
●NVIDIA Air 和 Cumulus Linux 允许 API 原生网络环境,该环境可集成到 DevOps 工具链中,成功了第 0 天、第 1 天 和第2 天操作的无缝衔接。
NVIDIA 网络初级副总裁 Gilad Shainer 示意:“生成式 AI 等开创性技术的飞速开展,使每家企业都必定把网络翻新放在第一位,从而取得竞争长处。NVIDIASpectrum-X 是对以太网络的一次性反派,让企业能够充沛应用其AI 基础设备的弱小力气来扭转其运营形式,甚至推翻他们的行业。”
Scaleway 首席口头官 Damien Lucas 示意:“NVIDIA Spectrum-X 网络技术为咱们的 ‘ GPU 集群按需服务’ 提供了更快的网络衔接和更高效的 GPU 通讯,使咱们的客户能够减速开发和部署他们的AI 处置打算。”