扎克伯格收费可商用！ Llama 重磅！Meta开源次世代 2 大模型

2024-11-14

今天清晨，就在咱们还在睡梦中时，大洋此岸的Meta干了一件小事：颁布收费可商用版本Llama 2。

Llama 2 是Llama 1大模型的间断，在数据品质、训练技术、才干评价、安保训练和担任任的颁布方面有实质性的技术提高。

在钻研共享志愿历史最低，监管困境历史最高点的当今AI时代，Meta这一步无疑为大模型生态系统带来了严重停顿。

从技术报告上看，Llama 2的基础模型比GPT3更强，而微调后聊天模型则能ChatGPT匹敌。置信后续Llama 2将协助企业成功更多的定制化和降落老本的产品。

以下是扎克伯格在Facebook上颁布的关于Llama 2的“宣言”，更是将其称之为大模型的次世代的产品：

咱们正在与微软协作，推出Llama 2，这是咱们开源大言语模型的下一代产品。Llama 2将收费提供应钻研者和商业经常使用者。

Meta不时投身于开源事业，从上游的机器学习框架PyTorch，到像Segment Anything，ImageBind和Dino这样的模型，再到作为Open Compute Project局部的AI基础设备。咱们不时在推进整个行业的提高，构建更好的产品。

开源推进了翻新，由于它让更多的开发者能够经常使用新技术。同时，软件开源，象征着更多的人可以审查它，识别并修复或许的疑问，从而提高了安保性。我置信假设生态系统愈加放开，将会监禁更多的提高，这就是咱们为什么要开源Llama 2。

当天，咱们颁布了预训练和微调的模型Llama 2，参数区分为70亿，130亿和700亿。Llama 2比Llama 1预训练的数据多40%，并对其架构启动了改良。关于微调模型，咱们搜集了超百万的人类注释样本，并运行了有监视的微和谐RLHF，在安保性和品质方面是上游的。

你可以间接下载这些模型，或许经过Azure以及微软的安保和内容工具访问这些模型。咱们还提供一个优化版本，允许Windows本地运转。

我十分等候看到你们的翻新成绩！

关于Llama 2的产生和颁布，深度学习三巨头之一的Yann LeCun示意，这将扭转大模型的市场格式。

有网友很快就向Meta发送了放开，并在几个小时内取得了容许，曾经在运行了：

OpenLLM大模型排行榜对Llama 2 启动了关于“Eleuther AI Language Model Evaluation Harness” 中的4个关键基准的评价：

其中，Llama-2-70b取得了平均分、迷信识题ARC、知识推理HellaSwag等目的的第一名；文本多义务准确性MMLU目的被基于Llama-30B 的微调模型Platypus-30B超越；生成疑问答案实在性TruthfulQA (MC)目的位列第8名。

论文地址：

名目地址：

Llama 2的一些关键点aw的长处在哪？

Meta颁布了多个模型，包括7亿，13亿，34亿，70亿参数的Llama基础模型，以及等同规模的Llama变体。Meta将预训练语料库的大小参与了40%，将模型的高低文长度参与了一倍，并驳回了分组查问留意力机制（grouped-query attention）。

详细而言，有以下几个关键点：

才干：宽泛测试后，在非编码方面，确定这是第一个能到达ChatGPT水平的开源模型。

代码/数学/推理：论文中关于代码数据的讨论较少，但有一个模型在某些评价中逾越了其余模型。

多轮分歧性：驳回了新的方法，Ghost Attention (GAtt)，以改善模型的多轮对话分歧性。

鼓励模型：为防止安保性和有用性的掂量，驳回了两个鼓励模型。

RLHF环节：驳回了两阶段的RLHF方法，强调了RLHF对模型写作才干的关键影响。

安保性/损伤评价：启动了详尽的安保评价，并驳回了特定的方法以增强模型的安保性。

容许证：模型可供商业经常使用，但有必定的用户数量限度，也即日活大于7亿的产品须要独自放开商用权限。

Llama 2的技术细节

Huggingface迷信家Nathan Lambert在一篇博客也对Llama 2的技术报告启动了解析。

这个模型（Llama 2）与原始的Llama在结构上相似，关键的扭转在于数据和训练环节，以及参与了高低文长度和分组查问留意力（GQA），且在聊天配置的运行性和推理速度方面有所提高。

训练语料库来自地下资源，不蕴含Meta的产品或服务的数据。模型在2万亿个数据标志（Token）上训练，以提高性能并缩小失误，并尽力删除含有少量公家信息的数据。

论文大局部关于评价和微调，而非创立基础模型。

论文接着遵照RLHF流程，训练一个鼓励模型并经常使用强化学习（RL）启动优化。

此外，技术报告也证明了一点，鼓励模型是RLHF的关键，也是模型的关键。为了失掉一个好的鼓励模型，Meta搜集了少量偏好数据，这些数据远远超越了开源社区正在经常使用的数据。

Meta搜集二元对比数据，而非其余更复杂类型的反应。这相似于1-8的Likert量表，但更并重于质性评价如“清楚优于、优于、稍优于或差不多/不确定”。

他们经常使用多轮次偏好，模型的照应来自不同的模型训练阶段；Meta的关注点更在于有用性和安保性，而不是老实度（honesty），在每个数据供应商的数据搜集阶段经常使用不同的指令。

此外，在数据搜集环节中，团队参与了额外的安保元数据，显示每一轮模型的哪些照应是安保的。在建模阶段，他们扫除了一切“选用的照应不安保而其余照应安保”的例子，由于他们以为更安保的照应会更受人类青睐。

鼓励模型

钻研人员训练了两个鼓励模型，一个专一于有益性，另一个专一于安保性。这些模型基于言语模型构建，用线性回归层交流了原模型头部。他们一直经常使用最新的聊天模型，目的是为了缩小在RLHF训练中的散布不婚配。

一些关键的技术细节包括：

其余幽默的发现：

图表显示，鼓励模型的准确性随着期间的推移有所提高。值得留意的是，虽然OpenAssistant鼓励模型或许没有失掉高度认可，但是GPT-4作为鼓励模型的性能体现为其余模型提供了基准。

Meta在讨论微调结果时提到，鼓励模型的准确性是Llama 2-Chat性能的关键目的。这合乎人们对RLHF会充沛应用鼓励模型知识的了解。

RLHF和微调

Meta经过经常使用RLHF方法来优化模型性能，如下图所示经常使用最低劣的鼓励模型来评价各种模型，以此展现RLHF如何将生成的文本推向更高的鼓励。Meta迭代训练了5个RLHF版本，每个版本的数据散布都有所改良。

Meta指出，第三方的SFT（有监视微调）数据多样性和品质往往无余以满足对话式指令的LLM对齐需求。Meta经过挑选第三方数据集中的高品质示例，清楚提高了却果。他们也强调了注释数据的数量关于再现性的关键性。

Meta观察到，不同的注释平台和供应商或许会造成模型性能的清楚差异，因此在经常使用供应商失掉注释时，数据审核依然十分关键。他们的做法是经过对比人类注释和模型生成的样原本验证数据品质。

在数据品质确立之后，Meta开局关注强化学习（RL）局部。他们发现，即使有熟练的注释员，每团体的写作格调也会有很大的差异。一个在SFT注释上启动微调的模型会学习这种多样性，但同时也会学习到一些蹩脚的注释。他们指出，模型的性能是由技巧最好的注释者的写作才干来限度的。

Meta确实抵赖，这个环节须要少量的计算和注释资源。在整个RLHF阶段，鼓励建模数据关于模型改良至关关键。

论断是，有效的RLHF须要一个中等大小的团队。虽然一个1-3人的团队可以颁布一个好的指令模型，但履行RLHF或许须要至少6-10人。这个数字会随着期间的推移而减小，但这种类型的上班须要与外部公司签署合同和坚持严密的咨询，这总是会消耗一些期间。

此外，Meta对比了方法间的基本差异以及它们的经常使用机遇：

评价

论文以多种模式评价他们的模型。在智能化基准测试中，例如Open LLM Leaderboard（MMLU，ARC等）的首字母缩略词，Llama 2在一切规模上都比其余任何开源模型要好得多。

模型在诸如MMLU这样的不那么显眼的基准测试中也得分更高，这是由于他们的少量数据上班和RLHF的调整。但是，他们的模型在与闭源模型的比拟中并未体现杰出。

此外，论文还深化钻研了盛行的评价技术，人类注释者和LLM-as-a-judge由于其普遍性和可用性而遭到欢迎。虽然人类评价或许遭到一些限度和客观性的影响，但结果显示了Meta在开源畛域的主导位置。

他们驳回了模型作为评判的技术，并用Elo图展现了RLHF这个随期间变动的概念，这与Anthropic的AI上班相似。在性能上，他们的模型在RLHFv3之后超越了ChatGPT，这可以在图中看到PPO方法提供了必定的优化：

这篇论文启动了多项评价以展现其普通性才干，包括建设鼓励模型。鼓励模型的测试亮点：

人类/模型评价的亮点：

最后，附上Llama 2 的在线测试地址：

参考文献

扎克伯格大模型 2 Llama

<<人工智能和机器学习如何重塑交通

剖析搜查引擎提升和搜查引擎营销的相关>>

扎克伯格 收费可商用！ Llama 重磅！Meta开源 次世代 2 大模型

Llama 2的一些关键点aw的长处在哪？

Llama 2的技术细节

鼓励模型

RLHF和微调

评价

您可能还会对下面的文章感兴趣：

随便看看

扎克伯格收费可商用！ Llama 重磅！Meta开源次世代 2 大模型