仅需Llama3 1

2024-11-15

Snowflake 颁布高「企业自动」模型 Arctic，专一于企业外部运行。

刚刚，数据治理和仓库提供商 Snowflake 发表参与 LLM 混战，颁布了一款专一于企业级运行的顶级大型言语模型（LLM）——Snowflake Arctic。

作为一家云计算公司推出的 LLM，Arctic 关键具有以下两个方面的长处：

如今，你可以在 Hugging Face 上访问 Arctic 模型。Snowflake 示意：用户很快可以经过一些模型库失掉，包含 Snowflake Cortex、AWS、微软 Azure、NVIDIA API、Lamini、Perplexity、Replicate 和 Together 等。

Hugging Face：

Arctic 的高低文窗口设置为 4K，钻研团队正在研发基于留意力池（attention-sink）的滑动窗口成功，在未来几周内将允许有限序列生成，并在不久的未来裁减到 32K 留意力窗口。

高功能、低老本

Snowflake 的钻研团队从企业客户的 AI 需求和经常使用案例中看到了一个分歧的形式：企业宿愿经常使用 LLM 构建对话式 SQL 数据 copilot、代码 copilot 和 RAG 聊天机器人。

这象征着 LLM 须要在 SQL、代码、复杂指令遵照和生成详细照应方面体现杰出。Snowflake 将这些才干融分解一个称为「企业自动」的繁多目的，详细形式是对编码（HumanEval + 和 MBPP+）、SQL 生成（Spider）和指令遵照（IFEval）功能水平取平均值。

Arctic 在开源 LLM 中到达了顶级的「企业自动」水平，而且是在大概不到 200 万美元的训练计算老本（少于 3K GPU 周）的状况下做到的。这象征着 Arctic 比其余经常使用相似计算老本训练的开源模型才干更强。

更关键的是，即使与那些经常使用远高于其的计算老本训练的模型相比，Arctic 在企业自动方面也体现杰出。Arctic 的高训练效率象征着 Snowflake 的客户和整个 AI 社区可以以更经济的形式训练定制模型。

如图 1 所示，Arctic 在企业自动目的上与 LLAMA 3 8B 和 LLAMA 2 70B 不相高低，而经常使用的训练计算老本不到一半。并且，虽然仅经常使用 1/17 倍的计算老本，Arctic 在编码（HumanEval + 和 MBPP+）、SQL（Spider）和指令遵照（IFEval）等目的上可与 Llama3 70B 媲美，即 Arctic 在坚持全体功能竞争力的同时做到了这一点。

此外，Snowflake 还在学术基准上评价了 Arctic，触及环球知识、知识推理和数学才干，完整评价结果如下图所示：

训练效率

为了到达上述训练效率，Arctic 驳回一种共同的 Dense-MoE 混合 transformer 架构。它将一个 10B 的密集 transformer 模型与一个 128×3.66B 的残差 MoE MLP 结合起来，总共有 480B 参数和 17B 生动参数，经常使用 top-2 gating 来启动选用。

设计和训练 Arctic 时，钻研团队经常使用了以下三个关键的见地和翻新：

MoE 专家数量多，并采取紧缩技术

2021 年底，DeepSpeed 团队证实了 MoE 可以运行于自回归 LLM，从而清楚提高模型品质而不参与计算老本。在设计 Arctic 时，钻研团队留意到，基于这个思绪，模型品质的提高关键取决于 MoE 模型中的专家数量和总参数量，以及这些专家的组合形式数量。

基于此，Arctic 被设计为在 128 个细粒度（fine-grained）专家之间散布 480B 参数，并经常使用 top-2 gating 来选用 17B 生动参数。

架构与系统协同设计

在弱小的 AI 训练配件上训练具有少量专家的基本 MoE 架构十分低效，由于专家之间的全衔接通讯开支很高。Snowflake 发现，假设通讯可以与计算堆叠，就可以省去这种开支。

因此，Arctic 将密集 transformer 与残差 MoE 组件相结合（图 2），经过通讯计算堆叠，使训练系统能够成功良好的训练效率，暗藏了通讯开支的大局部。

聚焦企业数据的课程学习

在代码生成和 SQL 等企业级目的上体现杰出须要与通用目的一模一样的数据课程学习（Curriculum Learning）。经过数百次小规模的消融试验，该团队了解到通用技艺，如知识推理，可以在初始阶段学习；而编码、数学和 SQL 等更复杂的目的可以在训练前期有效学习。

这可以类比于人类的生存教育，从便捷到艰巨逐渐失掉才干。因此，Arctic 经常使用一个三阶段的课程学习，每个阶段的数据导致都不同，第一阶段并重于通用技艺（1T token），后两个阶段并重于企业技艺（1.5T 和 1T token）。

推理效率

推理效率也是模型高效的一个关键方面，影响到模型能否可以在低老本下启动实践部署。

Arctic 代表了 MoE 模型规模的一次性飞跃，它比任何其余开源自回归 MoE 模型都经常使用了更多的专家和总参数。因此，Snowflake 须要几个翻新思绪来确保 Arctic 能够高效推理：

a) 在批大小较小的交互推理中，例如批大小为 1，MoE 模型的推理提前受制于读取一切生动参数的期间，推理是受内存带宽限度的。在这种批大小下，Arctic（17B 生动参数）的内存读取量仅为 Code-Llama 70B 的 1/4、Mixtral 8x22B（44B 生动参数）的 2/5，从而具有更快的推理速率。

b) 当批大小清楚参与，例如每次前向传递数千个 token 时，Arctic 从内存带宽受限转变为计算受限，推理遭到每个 token 的生动参数的限度。在这方面，Arctic 的计算量是 CodeLlama 70B 和 Llama 3 70B 的 1/4。

为了成功计算受限的推理和与 Arctic 中大批生动参数相婚配的高吞吐量，须要一个较大的批大小。成功这一点须要有足够的 KV 缓存来允许，同时还须要足够的内存来存储模型的近 500B 参数。

虽然具有应战性，但 Snowflake 经过经常使用两个节点启动推理，并结合 FP8 权重、split-fuse 和延续批解决、节点内张量并行以及节点间 pipeline 并行等系统优化来成功。

钻研团队已与 NVIDIA 倒退亲密协作，针对由 TensorRT-LLM 驱动的 NVIDIA NIM 微服务启动推理优化。同时，钻研团队还与 vLLM 社区协作，外部开发团队也将在未来几周内为企业用例成功 Arctic 的高效推理。

原文链接:

<<HippoRAG如何从大脑失掉线索以改良LLM检索

vLLM 大模型部署处置方案之TorchServe>>

仅需Llama3 1

您可能还会对下面的文章感兴趣：

随便看看