经常使用小型言语模型以估算部署AI

2024-11-14

SLM 是一种更具老本效益的方法，它准许公司在安保的环境中将模型顺应其专有数据。

译自Use Small Language Models To Deploy AI on a Budget，作者 Emily Freeman。

AI 正在推翻科技行业。关于通用人工智能(AGI) 及其取代人类的才干的探讨无处不在。无论未来是在十年后还是一年后，许多团队都须要协助充沛应用 AI。

只要少数公司保养咱们所知的 LLM——GPT、Claude、Bard、LaMDA、LLaMA 等——由于训练所需的资源极端低廉。LLM在海量数据集上启动训练。

这些模型仅仅是开局。它们提供了一个令人难以置信的平台来构建更有效、更定制的处置方案：在您的特定数据上训练的小型言语模型 (SLM)。

是什么让 SLM 变小？

简而言之——参数数量。要了解 SLM 对事实环球运行的价值，您必定了解 LLM 的简短性。OpenAI 的 GPT-3 有 1750 亿个参数，而 Meta 的 Llama 3.1 有一个蕴含 4050 亿个参数的版本。但这象征着什么？

LLM 经常使用 Transformer 模型来标志和剖析数据，应用参数来消费、解释和生成人类言语。假设您浏览过任何资料，您或者会发现“标志”和“参数”可以调换经常使用，但它们是不同的。

标志是 LLM 的团圆数据单元。在上方的示例中，每个词都被 LLM 作为标志摄取。依据模型的不同，标志可以是词语、短语、字符等。标志准许 LLM 将数据合成并有效地评价它。例如，LLM 或者将“cats”一词解释为与“cat”相反，以规范化消息。

简而言之，参数是 LLM 用于评价数据的规定——权重和偏向。参数准许 LLM 更强调特定词语以建设高低文和含意。参数还将词语链接起来；在上方的示例中，“future”和“it’s”指的是同一件事。

您或者在问自己，“更多的参数更好吗？”好吧，就像科技中的一切事物一样，这取决于状况。假设您须要在墙上挂一幅画，Home Depot 中的每种工具都比锤子和钉子更好吗？

LLM 是令人难以置信的技术壮举，它们计算少量消息的才干越来越好，速度也越来越快。然而，训练和微调 LLM 所需的老本和期间关于大少数公司来说是无法取的。它们太大了。大少数企业不须要一个万能工具，而须要一个针对特定义务的特定工具。

这就是 SLM 闪耀的中央。

在您的数据上训练模型

虽然 LLM 必定经常使用少量的云资源启动训练，但训练 SLM 经常使用专有数据，并且计算效率高且老本效益高。

假定您是一家政府承包商，担任照应招标书 (RFP) 以取得合同。通常，您将有一个团队审查这些 RFP，手动搜集照应所需的关系消息，回答无关您的公司如何满足合同需求的具体疑问，并编写完整的提案，包括所需的上班角色以及这些上班的相应政府代码。

RFP 从未地下颁布，这象征着 LLM 无法在它们上启动训练，而您的公司编写的数百甚至数千份提案都是专有的。

构想一下，假设您可以在一切专有数据上训练一个 SLM，并让 SLM 代表您生成具体的提案。您能构想您的团队将节俭多少期间吗？您可以经过从基础模型（如Llama 3.1）开局，并在之前的 RFP 和相应的提案上微调 SLM 来做到这一点。您还可以经常使用Arcee.AI等工具。

无论哪种状况，为了充沛应用您的 SLM，您须要成功四个关键步骤：1/ 继续预训练，2/ 对齐，3/ 模型兼并，4/ 检索增强生成 (RAG) 以及 5/ 继续顺应。

了解训练 SLM 的步骤

构想一下，咱们的小型言语模型是 Dominique，一个高中二年级的在校生。预训练是 Dominique 在一切先前年份中学到的一切物品——数学、迷信、言语艺术、体育、艺术——一切物品。模型兼并是我将长于数学的 Dominique 与长于迷信的 Asma 配对，让他们在余下的学年里一同窗习和测试。虽然他们在某个特定主题上特意杰出，但他们将在两个主题上都十分杰出。

关于对齐和微调，指令调优（对齐的第一局部）可以被形容为 Dominique 在大二时所接受的课程。批判阶段（对齐的第二局部）是对 Dominique 作业的反应。RAG 就像给 Dominique 一场开卷考试；她可以查找关系消息来协助她取得更好的效果。最后，继续顺应会降级 Dominique 的常识，由于消息会出现变动（例如，冥王星不再是行星），所以她领有最新、最及时消息。

实施您的模型

在政府承包商的例子中，他们想要构建一个 SLM 来撰写提案。开发人员将经常使用一个较小的开源模型，例如 Llama 的较小版本之一（70B 或 8B 参数），并经常使用其先前提案、先前 RFP 和任何其余关系文本数据的专有数据对其启动训练。

而后可以经常使用开源工具将该模型兼并 - 或者是专门用于言语或其余特定畛域的更通用的模型。例如，假设他们有一个专门为军队创立提案（经常使用特定术语和词汇）的模型，以及另一个专门为建造火箭撰写提案的模型，则可以将它们兼并以撰写高度专业和准确的建造军队火箭的提案。请记住，只要当模型具备相反的架构和大小时，才干将它们兼并。

从那里，他们将宿愿对齐这个新兼并的模型，以确保它提供所需的结果。这包括提供预期结果的示例，并与模型交互以测试它能否生成所需类型的內容。

虽然像 Arcee.AI 这样的工具可以在没有 RAG 的状况下取得相反的结果，但假设您是从头开局构建，则可以经常使用 RAG 层来准许它准确地检索特定消息并生成更准确的文本或启动实时数据检索。例如，政府职位代码将是保留在 RAG 层中的绝佳数据。

最后，就像人类一样，SLM 一直在不时开展和学习。部署后，模型可以随着业务数据和需求的变动而降级。依据新数据的频率，方案每六到十二个月从新训练您的模型。

充沛应用 AI

LLM 只能带您走这么远，并且没有真正的市场差异化。毕竟，您经常使用的是与其他人相反的数据 - 从（通常是开源）数据搜集的通用消息。

SLM 是一种更具老本效益的方法，准许公司在安保的环境中将模型顺应其专有数据。更不用说 SLM 对地球更友好，由于它们经常使用的计算资源显著更少，并且在动力方面更环保。SLM 提供的照应才干和顺应才干水平是生成式 AI 技术无法比拟的。它提供了经常使用生成式 AI 来改善您的业务的最终路径。

数据 LLM SLM

<<面试官 Kafka是如何成功百万级高吞吐量的

跟我一同做借助VPC打造专属的私密Internet>>