开源的金融剖析工具 Llama3

2024-11-15

在人造言语处置（NLP）畛域的继续提高中，大型言语模型（LLMs）的畛域顺应模型变得越来越关键。针对特定义务优化的模型能够提供明晰、繁复和正确的消息，这是商业和最终用户都须要的用例。从医疗诊断到法律咨询，再到金融剖析，LLMs 正在逐渐扭转咱们与消息互动的模式。但是随着这些模型在特定畛域的运行越来越宽泛，畛域顺应性的应战也随之而来。特意是在金融畛域，关于准确性和牢靠性的需求尤为关键。

畛域顺应性指的是模型在特定畛域内坚持或提高其功能的才干。这一环节通常触及继续预训练（CPT），即在模型的原有常识基础上引入新畛域的数据。但是这种方法或许会造成劫难性忘记，即模型在学习新义务时忘记了原有义务的常识。这在金融畛域尤为重大，由于失误的消息或许会造成渺小的经济损失。

在这样的背景下，Llama3-70B-Instruct 模型的发生为金融畛域的数据剖析带来了渺小的变动。该模型专为解析和了解美国证券买卖委员会（SEC）的复杂数据而设计，能够为金融专业人士提供深化的投资剖析微危险控制支持。经过继续预训练和模型兼并技术，Llama3-70B-Instruct 成功地在坚持通用言语处置才干的同时，增强了对SEC数据的畛域特定了解。感兴味的小同伴可经过 hugging face 经常使用该模型（链接地址：）。

钻研团队面前的 Arcee AI是一家位于美国佛罗里达州的前沿人工自动公司。由 Shamane Siriwardhana、Mark McQuade、Thomas Gauthier 等畛域专家领衔，这个团队努力于将最新的 AI 钻研成绩转化为实践运行，他们的上班不只展现了 Llama3-70B-Instruct 在金融畛域的潜在影响，也为其余畛域的 AI 运行提供了贵重的见地和方法论。

Llama-3-SEC-Base 模型

Llama-3-SEC-Base 模型代表了一次性关键的打破，它是专门为剖析美国证券买卖委员会（SEC）数据而设计的畛域特定聊天代理。该模型基于 Meta-Llama-3-70B-Instruct 模型构建，承袭了其弱小的人造言语处置才干，并经过继续预训练（CPT）的方法，融入了少量的 SEC 数据，以优化其在金融畛域的专业性和准确性。

基础架构和训练数据 Llama-3-SEC-Base 的外围架构是建设在 Meta-Llama-3-70B-Instruct 的基础上，这是一个具备 70 亿参数的大型言语模型。在训练环节中，模型首先接受了 20 亿个令牌的 SEC 文件数据，这是其最终目的的 720 亿个令牌数据的一个两边审核点。此外，为了坚持模型对通用言语的了解，钻研团队还将 1 亿个通用数据令牌从 Together AI 的RedPajama数据集中混合出去。这种数据的混合旨在平衡畛域特定常识和通用言语了解的才干。

SEC 数据剖析的用例 Llama-3-SEC-Base 在 SEC 数据剖析中的运行宽泛，包含但不限于：

评价方法和功能目的为了验证 Llama-3-SEC-Base 的效劳，钻研团队驳回了一系列畛域特定和通用的评价目的。畛域特定的评价包含困惑度测试，以权衡模型对 SEC 数据的处感功能；以及提取式数值推理义务，经常使用 TAT-QA 和 ConvFinQA 数据集的子集启动测试。通用评价目的则包含 BIG-bench、AGIEval、GPT4all 和 TruthfulQA，这些目的评价了模型在宽泛义务上的体现。

洞察图 1：畛域特定困惑度，权衡模型在 SEC 关系数据上的功能。

洞察图 2：经常使用 TAT-QA 和 ConvFinQA 数据集的子集提取数值推理义务。

洞察图 3：通用评价目的，例如 BIG-bench、AGIEval、GPT4all 和 TruthfulQA，用于评价模型在各种义务上的体现。

评价结果显示，Llama-3-SEC-Base 在畛域特定功能上取得了清楚优化，同时在通用才干上也坚持了弱小的体现。这证实了继续预训练和模型兼并技术在提高畛域顺应性方面的有效性，同时也展现了 Llama-3-SEC-Base 成为金融畛域内无法或缺工具的后劲。

继续预训练（CPT）

在言语模型的畛域顺应预训练中，继续预训练（CPT）是一个关键的概念，它触及将新数据集从一个新畛域引入到模型中。例如，PMC-LLaMA 是一个开源的医疗特定大型言语模型，它联合了纯 CPT 和医疗特定指令调整的数据中心常识注入。ChipNeMo 探求了大型言语模型在工业芯片设计中的运行，驳回畛域顺应性 CPT 方法启动顺应。Arcee 的 CPT 上班包含经常使用畛域特定数据集裁减基础模型的训练，如 Llama-2-base 或 Mistral7B-base，这准许咱们微调模型以顺应专业畛域的纤细差异。

继续预训练（CPT）是一种先进的技术，它准许模型在原有常识的基础上，经过引入新畛域的数据来增强其在特定畛域的体现。这种方法关于优化大型言语模型（LLMs）的畛域顺应性至关关键，尤其是在处置复杂和专业化数据的场景中。

CPT 实质上是一种增量学习环节，它使得模型能够在不失落先前学习的常识的状况下，逐渐排汇新的消息。在 Llama3-70B-Instruct 模型中，CPT 被用来专门处置 SEC 数据，这是一种高度结构化且含意丰盛的金融数据。经过 CPT，Llama3-70B-Instruct 能够更好地理解和生成与 SEC 报告关系的文本，从而为金融剖析师和投资者提供更深化的洞察。

在 CPT 的实施环节中，Llama3-70B-Instruct 模型被训练以处置少量的 SEC 文件数据。这些数据包含了公司的季度和年度报告、外部买卖文件、代理申明等，总共触及了 720 亿个令牌。此外，为了坚持模型的通用性，钻研团队还引入了来自 Together AI 的 RedPajama 数据集的 10 亿个通用数据令牌。技术上，CPT 经常使用了 Megatron-Core 框架，这是一个支持大规模并行处置的训练框架。训练是在 AWS SageMaker HyperPod 集群上启动的，该集群装备了高功能的 H100 GPU，确保了训练环节的高效和可裁减性。

咱们的训练在 AWS SageMaker HyperPod 集群上启动，该集群由 4 个节点组成，每个节点都装备了 32 个 H100 GPU。在 CPT 层，咱们混合了 700 亿个 SEC 数据令牌和 Together AI 的 RedPijama 数据的 10 亿个通用样本。咱们方案在未来颁布更多的审核点。的 LM 损失和学习率曲线区分在图 1 和图 2 中展现。

图1:LM损失图2：学习率

CPT 对 Llama3-70B-Instruct 模型的功能发生了清楚的影响。首先它清楚提高了模型在 SEC 数据剖析义务上的准确性和深度。模型在畛域特定的困惑度测试中体现杰出，显示出对 SEC 数据的深化了解。另外CPT 还增强了模型在提取式数值推理义务上的才干，这在金融畛域尤为关键。但是CPT 环节中也存在着劫难性忘记的危险，即模型或许会在学习新畛域常识的同时，失落一些原有的通用言语处置才干。为了缓解这一疑问，钻研团队驳回了模型兼并技术，将经过 CPT 的模型与原始的 Meta-Llama-3-70B-Instruct 模型联合，以保管模型的通用才干。

CPT 是成功 Llama3-70B-Instruct 模型畛域顺应性的关键步骤，它不只提高了模型在特定畛域的功能，也为如何平衡畛域专业化和通用性提供了有价值的见地。

模型兼并技术

模型兼并技术是一种翻新的方法，旨在经过整合多个预训练模型的常识来增强繁多模型的才干。这种技术关于处置继续预训练（CPT）环节中或许发生的劫难性忘记疑问至关关键，尤其是在畛域顺应性方面。

模型兼并的外围原理是将不同模型的权重和特色联合起来，构成一个新的、更弱小的模型。在 Llama3-70B-Instruct 的状况中，这象征着将专门针对 SEC 数据剖析启动预训练的模型与通用的 Meta-Llama-3-70B-Instruct 模型相联合。这样做的目的是保管原始模型的通用言语处置才干，同时参与对 SEC 数据的专业了解。

TIES（Tensor Integration and Entanglement Synthesis）是一种盛行的模型兼并方法，它经过在不同模型之间共享和从新调配权重来上班。TIES 的长处在于它能够有效地保管两个模型的常识，同时缩小了由于模型容量限度而或许失落的消息。但是这种方法也有其局限性，例如在兼并环节中或许会引入一些不关系的噪声，或许在某些特定义务上的功能或许不如独自的专业模型。

模型兼并关于提高 Llama3-70B-Instruct 模型的畛域顺应性起到了关键作用。经过兼并，模型不只在 SEC 数据剖析义务上体现杰出，而且在通用评价目的上也坚持了稳固的功能。这标明模型兼并可以有效地缓解 CPT 环节中的劫难性忘记疑问，使模型能够在学习新畛域常识的同时保管原有的通用言语处置才干。

模型兼并技术为 Llama3-70B-Instruct 模型的畛域顺应性提供了一种有效的处置方案。它不只增强了模型在特定畛域的功能，还确保了模型在宽泛的义务上坚持了高水平的通用性。这一技术的成功运行为未来在其余畛域内实施相似技术提供了贵重的阅历和启发。

评价和结果

关于大型言语模型（LLMs）的评价是一个复杂且多维的环节，尤其是当模型被设计来处置特定畛域的数据时。Llama3-70B-Instruct 模型的评价涵盖了畛域特定和通用基准，以确保其在各个方面的功能都合乎高规范。

为了确保咱们模型的持重性，咱们在畛域特定和通用基准上启动了彻底的评价。畛域特定评价关于评价模型在其目的畛域内的功能至关关键。但是，通用评价雷同关键，以确保模型没有忘记其原始才干。在每次评价中，咱们比拟了以下模型：

1.Llama-70B-Instruct：Meta 颁布的原始指点模型。

2.Llama-70B-CPT：继续预训练后的 Llama-70B-Instruct 模型，审核点在处置 200 亿个令牌后保管。

3.Llama-70B-CPT-Merge：经常使用 TIES 方法将 Llama-70B-CPT 模型与原始 Llama-70B-Instruct 模型兼并。

畛域特定困惑度关于评价模型在其目的畛域内的功能至关关键，确保有效顺应畛域数据。跟踪困惑度的变动有助于评价继续预训练和畛域特定改良的影响。

CPT 降低了与 SEC 数据关系的困惑度，标明模型对这一特定畛域的了解和顺应性有所提高。将 CPT 模型与 Llama3-Instruct 版本兼并后，困惑度略有参与，或许是由于从新引入了一些失落的聊蠢才干。虽然兼并后困惑度略有参与，但最终模型的困惑度仍低于原始模型，标明有效的畛域顺应同时保管了聊蠢才干。这标明模型兼并并没有侵害在继续预训练环节中取得的注入畛域常识。

关于畛域特定评价，咱们测试了模型在提取式数值推理义务上的功能，即 TAT-QA 和 ConvFinQA 的子集，这些义务虽然与 SEC 数据不齐全关系，但依然与评价畛域特定功能关系。

关于 ConvFinQA，CPT 后功能清楚提高，并在与指点模型兼并后进一步提高。关于 TAT-QA，只要在兼并后才观察到清楚改良，这或许是由于它在混合表格和文本内容方面的专业化，而这在 SEC 数据中的示意较少。关于财务分类义务，模型将文本分类为前提或申明，CPT 后咱们看到了十分清楚的准确性改良，凑近完美分数，并标明模型有效地从 SEC 数据的无监视训练中学习新义务。兼并后准确性有所降低，但依然远高于指点基线。

Llama3-70B-Instruct 模型在畛域特定的评价中体现杰出，特意是在处置 SEC 数据剖析义务时。模型在困惑度测试中得分低，标明其对金融数据的了解深化。在提取式数值推理义务上，模型雷同展现了弱小的功能，这些义务包含 TAT-QA 和 ConvFinQA 数据集的子集，它们虽然不齐全关系于 SEC 数据，但对评价模型在金融畛域的体现至关关键。

在通用基准上，Llama3-70B-Instruct 经过 CPT 和模型兼并后，依然坚持了良好的功能。虽然在某些通用评价目的上发生了细微的功能降低，但这关键是由于模型在学习新畛域常识时，必定在保管原有常识和顺应新常识之间找到平衡。

CPT 清楚提高了模型在 SEC 数据剖析方面的专业性，但也带来了劫难性忘记的危险。经过模型兼并技术，特意是 TIES 方法，钻研团队成功地将 CPT 模型与原始 Meta-Llama-3-70B-Instruct 模型联合，这不只缓解了劫难性忘记的疑问，还增强了模型在特定畛域的功能。

洞察图 6：在一切通用数据集上，CPT 与少量 SEC 畛域特定令牌（20B）一同经常使用，降低了困惑度，标明预测才干获取了提高。

即使在经过宽泛的畛域特定训练之后，模型依然坚持对通用畛域的相熟性，这一点从图表中显示的通用文本的稳固困惑度目的中可以看出。这标明 CPT 并没有降低模型的通用常识，虽然它或许会缩小某些才干。正如洞察图 1 所示，咱们倡导未来的上班可以经过更好的SFT顺应来协助复原模型的指令追随才干，应用保管的常识。

Llama3-70B-Instruct 在多个义务上的体现证实了其作为一个畛域特定 AI 聊天代理的有效性。但是仍有改良空间，特意是在提高模型对 SEC 数据的了解深度和广度方面。未来的上班可以集中在优化 CPT 环节，以及探求更先进的模型兼并技术，以进一步提高模型的畛域顺应性和缩小对通用功能的影响。

总体而言，Llama3-70B-Instruct 模型的综合评价结果令人鼓舞，它不只在畛域特定义务上体现杰出，而且在通用义务上也坚持了牢靠的功能。这些成绩为未来在其余畛域内实施相似技术提供了贵重的阅历和启发，展现了 AI 在畛域顺应性方面的渺小后劲和运行前景。

探讨

在深化探求 Llama3-70B-Instruct 模型的畛域顺应性和继续预训练（CPT）的应战时，咱们必定意识到，虽然 CPT 在提高模型对特定畛域数据的了解方面取得了清楚成绩，但它也带来了劫难性忘记的危险。这种忘记现象或许造成模型在排汇新常识的同时丧失原有的通用言语处置才干。因此，如何在增强模型的畛域专业性与坚持其通用性之间找到平衡，成为了一个关键的钻研课题。

模型兼并技术，尤其是 TIES 方法，为这一应战提供了一个有效的处置方案。经过将经过 CPT 的模型与原始的 Meta-Llama-3-70B-Instruct 模型联合，不只保管了模型的通用才干，还增强了其在 SEC 数据剖析畛域的专业性。这种方法的成功运行标明，模型兼并可以作为一种弱小的工具，用于在不就义通用性的前提下优化模型的畛域顺应性。

未来的上班方向应该集中在进一步优化对齐方法和数据处置层。对齐方法，如监视式微调（SFT）、间接偏好优化（DPO）和人类反应的强化学习（RLHF），可以协助模型更准确地理解和执行特定畛域的义务。同时，改良数据处置层，特意是在数据过滤和选用方面的方法，将有助于模型更有效地处置大规模的畛域特定数据集，同时缩小劫难性忘记的危险。

Llama3-70B-Instruct 模型的畛域顺应性和继续预训练的应战突显了在 AI 畛域中始终谋求平衡的关键性。模型兼并技术的成功通常为未来的钻研提供了贵重的阅历，而对齐方法和数据处置层的继续改良将进一步推进畛域特定 AI 聊天代理的开展。（END）

参考资料

1.

2.

本文转载自，作者：

<<最强开源大模型易主号称超越Llama Grok Mixtral 2

清楚优化3类问答义务成果 ERAGent Agent 集成5个先进组件与技术的增强型RAG>>

开源的金融剖析工具 Llama3

参考资料

您可能还会对下面的文章感兴趣：

随便看看