打破数据壁垒 MetaGPT推出全新上班数据迷信家或将被取代应战机器学习建模流程

2024-11-15

目前，由大型言语模型（LLM）驱动的智能体曾经证实了它们在处置复杂义务方面的清楚后劲。此外，经过赋予 LLM 代码执行才干来优化其疑问处置才干正逐渐成为一种趋向，这一点曾经经过 Code-Interpreter[1]、Open Interpreter[2]、TaskWeaver[3]等上班失掉了通常验证。

但是，在数据迷信畛域，面对数据的实时变动、义务间依赖相关复杂、流程优化的专业性，以及执行结果反应的逻辑分歧性识别等应战，现有 LLM-based 智能体的性能仍有待优化。

MetaGPT 团队联结北京工业大学、复旦大学、华东师范大学、河海大学、加拿大蒙特利尔大学、KAUST、圣母大学、厦门大学、香港中文大学（深圳）、香港大学、耶鲁大学、中国迷信院深圳先进技术钻研院、中国人民大学等多所顶尖高校和钻研机构，独特推出了>

这是一种全新的处置方案，旨在经过增强智能体的义务布局，工具集成以及推理才干，直面数据迷信识题的应战。

Data Interpreter 提出了三个主要技术：

1）灵活布局与档次图结构 基于分层的图结构启动义务和代码布局，有效治理义务间的复杂依赖，灵敏应答数据迷信义务的实时数据变动；

2）工具集成与退化 经过在代码生成环节中智能集成代码片段作为工具，灵活嵌入了数据迷信畛域所需的畛域常识；

3）基于验证与阅历驱动的推理 智能在反应中增强逻辑分歧性检测，经过基于置信度的验证优化执行代码的逻辑正当性，并借助阅历库增强推理才干。在各种数据迷信和事实环球义务上的评价标明，与开源基线相比，Data Interpreter 在机器学习义务中体现出色，准确率从 0.86 优化至 0.95。此外，在 MATH 数据集上提高了 26%，在开明式义务中成功了清楚的 112%优化。

▲ 在机器学习义务和事实环球的开明式义务中与各种开源框架启动比拟，Data Interpreter 在多种义务上取得 sota

2.1 DYNAMIC PLANNING WITH HIERARCHICAL STRUCTURE

在数据迷信畛域，实时数据的灵活变动和义务间复杂的变量依赖相关对大型言语模型（LLM）提出了严重应战。为了有效应答这些应战，Data Interpreter 提出了一种翻新处置方案： 灵活布局与档次图结构（DYNAMIC PLANNING WITH HIERARCHICAL STRUCTURE） 。

这种方法自创了智能化机器学习中的档次布局技术，经过档次结构将复杂的数据迷信识题分解为易于治理的小义务，并进一步将这些义务转化为详细的代码执执行作，从而成功粗疏的布局与执行。

▲分层结构：（a）一个有组织的义务和举措图，展现了上层级机器学习名目的上班流程，包括成功名目目的所需的义务依赖和举措序列。（b）义务的有向无环图（DAG），以机器操作形态预测疑问为例。义务图展现了拆解的方案义务，而举措图（也称为执行图）则依据方案的义务图执行各个节点。每个节点的执行代码由 LLM 转换。

这种灵活布局方法赋予了>

▲数据解释器的灵活方案治理：（a）经过人工编辑启动方案细化。左侧图像显示了在图上经过人工编辑的义务，右侧图像则展现了细化后的方案，包括降级后的义务 3.1'、3.2' 以及新增的义务 3.3。（b）对失败义务的方案启动细化。在义务执行后，假设义务 3.3 失败，细化后的方案将整合已有的成功义务，用降级后的义务 3.3' 交流原义务 3.3，并引入新义务 4.1、4.2、4.3 和 5。

2.2 TOOL UTILIZATION AND GENERATION

在数据迷信义务中，义务的多样性与专业性要求基于 LLM 框架具有宽泛的工具调用才干。现有的工具调用方式往往局限于 API 的方式，不可满足义务多样性带来的灵活需求。Data Interpreter 提出了 工具集成与生成 的方法。

经过工具介绍与组织，能够依据义务形容，启动义务分类，从而有效选用适合的工具集。在执行阶段，Data Interpreter 依据工具参数形容、工具方法形容文档的结构化消息，灵活嵌入和调整工具参数，以顺应义务的详细需求。

此外，Data Interpreter 还能够经过自我退化，从执行阅历中形象收工具的外围性能，构成通用的代码片段，集成到工具函数库之中。这些工具函数可以在未来的义务中重复经常使用，从而缩小了调试频率，提高了执行效率。

▲数据解释器中的工具经常使用流程：工具介绍最后依据义务分类来选用工具。而后依据义务需求组合多个工具经常使用。

2.3 ENHANCING REASONING WITH VERIFICATION AND EXPERIENCE

处置数据迷信识题须要谨严的数据与逻辑验证环节，现有的钻研在处置这一类疑问的环节中，往往依赖于代码执行后的失误检测或意外捕捉，这一方式往往会曲解代码执行正确即义务成功，不可发现逻辑失误，难以优化义务虚现的有效性。

Data Interpreter 经过结合基于置信度的智能验证（Automated Confidece-based Verification）战略，清楚优化了其在数据迷信识题处置中的推理才干。ACV 战略要求>

在须要更谨严数值反应的场景中，如经常使用 LLM 启动数学推理，Data Interpreter 可以参与屡次独立验证，并经过屡次结果的置信度排序来进一步优化效果。

另一方面，Data Interpreter 应用阅历池存储和反思义务执行环节中的阅历和经验，能够从过去的成功和失败中学习代码常识，从而在面对新义务时做出更准确的决策。这种结合实时验证和阅历学习的方法，清楚增强了解释器的推理才干，优化了义务的处置品质。

▲以MATH内的一个义务说明基于置信度智能验证流程：虚线框内是智能验证的环节，虚线框下方依据验证对多个候选答案启动排序

在试验局部，Data Interpreter 在多个数据迷信和事实环球义务上启动了评价。与开源基线相比，它在机器学习义务中的体现出色，准确率从 0.86 优化至 0.95。在 MATH 数据集上，性能优化了 26%，在开明式义务中更是成功了 112% 的清楚优化。这一效果不只为数据迷信畛域带来了新的里程碑，也为 LLM在实践运行中的后劲提供了有力的证实。

MATH benchmark[4]涵盖了从低等代数到微积分等宽泛的数学畛域。这个基准测试不只测试了模型对数学常识的把握水平，还调查了它们在处置复杂数学识题时的推理才干。

为了评价>

如上图所示，以 Accuracy 作为这个义务的评价目的，Data Interpreter 在 4 个类别上均取得了最好的效果。特意是在 N.Theory 中，带有 Automated Confidence-based Verification（ACV）战略的>

3.2 ML-Benchmark

在机器学习的环球里，精准和效率是权衡一个模型成功与否的主要。为了测试>

这些义务不只笼罩了葡萄酒识别（WR）、Wisconsin 乳腺癌（BCW）、Titanic 生活预测等经典疑问，还包括了房价预测（House Prices）、Santander 客户买卖预测（SCTP）、识别与年龄相关的状况（ICR）以及 Santander 价值预测应战赛（SVPC）等更具应战性的名目。

在与其余开源框架的竞赛中，Data Interpreter 展现了其出色的性能。经过综合义务成功率（CR）、归一化性能得分（NPS）和综合得分（CS）这三个主要目的，Data Interpreter 在七项义务上的平均得分高达 0.95，远超 AutoGen 的 0.86，优化了 10.3%。特意是在 ICR 和 SVPC 这两个数据集上，Data Interpreter 的体现尤为出色，区分比 AutoGen 提高了 24.7% 和 21.2%。

更令人印象深入的是，Data Interpreter 是惟逐一个在 Titanic、House Prices、SCTP 和 ICR 义务上得分均超越 0.9 的框架，这标记着它在机器学习义务中不只能够成功外围步骤，还能在执行环节中继续优化义务效果。

3.3 Open-ended tasks

在人工智能的环球里，真正的应战往往来自于那些开明式的义务，它们不只有求模型具有宽泛的常识，还要求它们能够灵敏应答事实环球的复杂性。

为了测试>

在这个试验中，Data Interpreter与 AutoGen 和Open Interpreter这两个基准模型启动了对比。每个框架对每个义务启动了三次试验，以平均成功率作为评价规范。

结果显示，Data Interpreter 在开明式义务上的平均成功率为 0.97，与 AutoGen 相比大幅提高了 112%。关于去除图像背景（IBR）义务，一切三个框架都取得了 1.0 的完整分数。

在 OCR 相关义务中，Data Interpreter 的平均成功率为 0.85，比 AutoGen 和 Open Interpreter 区分高出26.8%和70.0%。 在须要多个步骤并应用多模态工具/才干的义务中 ，例如网页模拟（WPI）、图像到 HTML 代码生成（I2C）和文本转图像（T2I），Data Interpreter 是惟一能够执行一切步骤的方法。

而在电子邮件智能回复（ER）义务中，AutoGen 和 Open Interpreter 由于不可登录并失掉邮箱形态，造成成功率较低，而>

3.3 Ablation

为了进一步讨论相关方法的有效性，咱们启动了消融试验。

3.3.1 外围模块

为评价各模块性能，咱们在 ML-Benchmark 上，经常使用了三种性能启动测试：

1）初始设置： 基础 ReAct 框架，蕴含便捷的义务了解揭示词以及允许代码执行流程；

2）参与了 Dynamic plan ，包括分层布局和每一步骤的灵活治理，便于实时调整；

3）在 2）的基础上参与了工具集成才干 。如表 3 所示，Dynamic Plan 灵活布局清楚提高了 0.48 分。它经过预备数据集并实时跟踪数据变动有助于取得更优性能，特意是成功率方面效果清楚。此外，工具的经常使用带来了额外 9.84% 的改良，综合得分到达了 0.94 分。

3.3.2 不同尺寸的LLMs

Data Interpreter 在包括 GPT-4-Turbo、GPT-3.5-Turbo 以及不同尺寸的 LLMs 上启动了试验。

在机器学习的义务中，更大尺寸的 LLM，例如 Qwen-72B-Chat[5]和 Mixtral-8x7B[6]展现出与 GPT-3.5-Turbo 相当的体现，而较小的模型则性能降低较多。

如下图所示，结合 Yi-34B-Chat[7]、Qwen-14B-Chat[5]和 Llama2-13B-Chat[8]，甚至 DeepSeek-7B-Chat[9]，Data Interpreter可以有效地处置数据加载及剖析等义务。但是，这些模型在执行须要较高编码才干的义务时面临仍遭到自身才干限度，通常造成流程不可成功。

在 open-ended task 中，Mixtral-8x7B 在 3 项义务上的成功率较高，但在网络搜查和爬虫（WSC）义务中体现不佳，难以准确地将完整结果输入到 CSV 文件。与机器学习义务 ML-Benchmark 相似，规模较小的模型仍由于编码才干受限而遇到执行失败疑问

▲在ML-BenchMark 上经常使用不同尺寸 LLM的评价。（左图：成功率，右图：综合得分）

3.3.3 阅历池大小

另外，咱们还针对阅历池的大小启动了消融试验。按存储义务级别的阅历数量，区分设置阅历池大小为 0，80 和 200，咱们对比>

随着阅历池从 1 参与至 200，平均的 debug 次数从 1.48 降低到了 0.32，执行老本从0.80美元降低到了0.24美元，这说明阅历的累计关于从人造言语形容义务到代码生成能够有清楚的协助。

目前，大型言语模型（LLM）驱动的智能体曾经在处置静态和便捷义务上展现了令人注目的才干。但是，当面对须要多步骤处置的复杂应战时，它们的体现往往不尽人意，比如机器学习义务。为了打破这一瓶颈，Data Interpreter 应运而生，它不只在机器学习义务上取得了清楚提高，更在数学推理和开明式义务中到达了行业上游水平。

得益于以下三种技术的融合：灵活布局与档次图结构、工具集成与生成、基于置信度验证与阅历驱动的推理增强。Data Interpreter 在数学推理义务，机器学习义务和复杂的开明性义务上到达了水平。

相对其余开源基线，Data Interpreter 在 MATH 数学推理义务中准确率优化了，在 ML-Benchmark 机器学习义务中将得分从 0.86 优化至 0.95 ，在开明式义务 Open-ended tasks 中更是成功了的惊人优化。

这些结果不只标记着基于 LLM 的智能体在数据迷信畛域的严重优化，也预示着 AI 技术在处置更复杂、更灵活的义务时将愈加随心所欲，为人类社会带来更多智能化的处置方案。

原文链接：

<<文言EAGLE2 技术解锁大模型的打草稿

咱们一同聊聊基于时空特色提取的高翻新预测模型>>

打破数据壁垒 MetaGPT推出全新上班 数据迷信家或将被取代 应战机器学习建模流程

您可能还会对下面的文章感兴趣：

随便看看

打破数据壁垒 MetaGPT推出全新上班数据迷信家或将被取代应战机器学习建模流程