Google Scholar和DeepMind奖学金允许名目 Research 多智能体系统中的协作弹性

2024-11-15

韧性，即系统在面对破坏性事情时的接受、顺应和复原才干，是一个跨学科的关键概念。在生态学中，韧性指的是生态系统在遭到搅扰后复原到原始形态的才干；在工程学中，韧性触及系统在缺点或攻打后复原配置的才干；在心思学中，韧性则形容了集体或群体在面对压力和逆境时的应答和复原才干。经济学、社会迷信、网络迷信等畛域也都对韧性启动了宽泛钻研。

在人工智能（AI）畛域，特意是协作人工智能（Cooperative AI）中，韧性的关键性日益凸显。协作AI系统通常在复杂和灵活的环境中运转，须要与人类或其余机器启动交互。这些系统必定能够顺应环境变动，处置异常事情，并在面对破坏性事情时坚持高效照应。因此了解和增强协作AI系统的韧性，关于确保这些系统在实践运行中的牢靠性和有效性至关关键。

9 月 24 日，Sam Altman稀有地宣布了一篇长文，预言超级人工智能（ASI）将在「几千天内」来到。他坚信，深度学习曾经取得了清楚停顿，能够真歪了解和学习任何数据的散布形式。人类正处在奇点的边缘，行将迈入ASI的新时代。在这篇名为「智能时代」的博客中，Altman暗示，ASI的成功或者比咱们构想的更近。为了确保ASI系统的稳固性和高效性，这些系统雷同须要具有多方面的韧性。

虽然韧性在多个畛域失掉了宽泛钻研，但在协作人工智能中的定义和量化方法尚不明白。9 月 20 日arXiv宣布的技术论文《Cooperative Resilience in Artificial Intelligence Multiagent Systems》目的是填补这一空白，提出“协作韧性”的明白定义，并开发一种定量测量方法。经过在强化学习（RL）和大言语模型（LLM）增强的自主代理环境中启动试验，钻研团队验证了所提出的方法，并展现了其在剖析系统如何预备、抵制、复原、维持福祉和在面对破坏时转变方面的有效性。

本钻研由来自不同机构的钻研人员组成，他们在协作AI和多智能体系统的韧性钻研方面启动了深化的协作。钻研团队成员有来自哥伦比亚的安第斯大学的Manuela Chacon-Chamorro、Luis Felipe Giraldo、Nicanor Quijano、Vicente Vargas-Panesso、César González、Juan Sebastián Pinzón、Rubén Manrrique、Yesid Fonseca 和 Daniel Gómez-Barrera；来自Bancolombia的剖析与人工智能出色核心的Manuel Ríos；来自哥伦比亚的伊瓦格大学的Mónica Perdomo-Pérez。

该钻研失掉了Google经过Google Research Scholar名目和UniAndes-DeepMind奖学金2023的允许。这些资助为钻研团队提供了必要的资源敌对台，使他们能够在协作AI韧性钻研畛域取得关键停顿。经过他们的钻研，团队不只宿愿一致协作AI畛域的术语，还旨在经过跨学科的钻研致力，深化了解复杂系统中的涌现韧性，为未来的钻研和运行提供松软的基础。

协作韧性的定义

韧性概念的多学科视角

韧性作为一个跨学科的概念，在不同畛域有着各自的定义和关键要素。在生态学中，韧性通常与系统的排汇、转变和照应才干关系，强调系统在遭到搅扰后复原到原始形态的才干。关键要素包括系统的抵制力和稳固性，以及在遭到搅扰时的复原才干。在工程学中，韧性触及系统在缺点、失误或攻打后复原配置的才干，通常与抵制、复原和顺应等行为关系。在心思学中，韧性形容了集体或群体在面对压力、要挟和生活事情时的应答和复原才干，涵盖从团体到家庭和社区的不同档次。在经济学中，韧性与抵制、增长和顺应等行为关系，破坏性事情则包括危险、危机和变动。在灵活系统中，韧性触及系统对外部起因、初始条件变动或参数变动的照应才干。在网络迷信中，韧性实体可以是照应搅扰的交互代理集群，破坏性事情包括缺点、失误、要挟或环境变动。

图1：不同畛域和背景下的弹性关键字图，处置了指点性疑问。

这些定义和关键要素展现了韧性概念在多个学科中的宽泛运行和关键性。经过总结这些定义，咱们可以更好地理解韧性在不同畛域中的体现方式和关键行为。

协作韧性的详细定义

在协作人工智能（Cooperative AI）中，韧性雷同是一个关键概念。协作AI系统通常在复杂和灵活的环境中运转，须要与人类或其余机器启动交互。这些系统必定能够顺应环境变动，处置异常事情，并在面对破坏性事情时坚持高效照应。因此，了解和增强协作AI系统的韧性，关于确保这些系统在实践运行中的牢靠性和有效性至关关键。

钻研团队提出了“协作韧性”的定义：协作韧性是指一个系统（包括人类、机器或两者的群体执行）在面对要挟其独特福祉的破坏性事情时，能够预感、预备、抵制、复原和转变的才干。

这必定义蕴含了五个关键行为：

预感：系统能够预测潜在的破坏性事情。

预备：系统在破坏性事情出现前采取措施启动预备。

抵制：系统在破坏性事情出现时能够抵制其影响。

复原：系统在破坏性事情后能够复原到反常形态。

转变：系统在破坏性事情后能够启动调整和改良，以应答未来的应战。

此外，定义还强调了破坏性事情的随机性和无法预测性，这些事情或者是外部、外部或攻打性事情，对系统的反常运转条件造成要挟。经过包括这些行为和事情，协作韧性不只被视为系统的固有才干，还被视为一个由一系列基本阶段组成的环节。这种环节导向的视角有助于更片面地理解和评价协作AI系统在面对破坏性事情时的体现和顺应才干。

协作韧性的测量方法

在定义了协作韧性之后，钻研团队提出了一种系统的方法来量化这一律念。该方法分为四个阶段，每个阶段都旨在捕捉系统在面对破坏性事情时的不同方面的体现和顺应才干。

图2：说明权衡协作弹性的拟议方法的示用意。

阶段一：性能和参考曲线

在第一阶段，钻研团队定义并测量了与群体福祉关系的变量。这些变量包括资源可用性、资源调配的对等性和资源的可继续性等。详细来说，在一个多智能体系统中，这些变量或者触及每个代理能够失掉的资源数量、资源在代理之间的调配状况以及资源的再生才干。

为了评价这些变量，钻研团队建设了性能曲线和参考曲线。性能曲线表示系统在反常运转条件下的体现，而参考曲线则表示系统在破坏性事情出现时的体现。经过比拟这两条曲线，可以评价系统在面对破坏性事情时的体现。

例如，在一个资源消耗的环境中，性能曲线或者表示每个代理在没有破坏性事情时能够失掉的资源数量，而参考曲线则表示在破坏性事情出现时每个代理能够失掉的资源数量。经过这种方式，可以直观地看到破坏性事情对系统的影响。

阶段二：计算总结目的

在第二阶段，钻研团队在定义的期间窗口内计算韧性目的。详细来说，他们将整个观察期分为较小的期间窗口，并在每个期间窗口内剖析系统在破坏性事情前后的体现。

韧性目的经过比拟性能曲线和参考曲线来计算。详细的计算方法包括识别系统在破坏性事情后的退步速度和幅度（缺点特色），以及系统在破坏性事情后的复原速度和稳固性（复原特色）。这些特色的计算公式如下：

其中，( Fjl) 表示缺点特色，( Gjl ) 表示复原特色，( ti ) 是事情出现期间，( tf ) 是系统性能降到最低点的期间，( tr ) 是系统复原到稳固形态的期间。

经过这些计算，可以失掉每个变量在每个破坏性事情中的总结目的 ( Jjl )：

这些总结目的反映了系统在破坏性事情前后的体现，并为后续的期间聚合提供了基础。

阶段三：期间窗口汇总

在第三阶段，钻研团队对韧性目的启动期间聚合，以反映系统在延续破坏性事情中的顺应和学习才干。详细来说，他们对每个变量的韧性目的启动期间聚合，处罚韧性的降低，鼓励在破坏序列中的改良。

这种聚合方法不只思考了系统在单个破坏性事情中的体现，还思考了系统在延续破坏性事情中的体现。经过这种方式，可以评价系统在面对屡次破坏性事情时的顺应才干和学习才干。

例如，假设一个系统在第一次性破坏性事情后体现不佳，但在随后的破坏性事情中体现有所改善，那么这种改良将反映在聚合后的韧性目的中。雷同，假设系统在延续破坏性事情中体现逐渐好转，那么这种好转也将反映在聚合后的韧性目的中。

阶段四：变量汇总

在最后一个阶段，钻研团队经常使用和谐平均数将一切变量的总结目的汇总为一个繁多目的。和谐平均数是一种罕用的汇总方法，特意实用于须要处罚低值的状况。

经过经常使用和谐平均数，可以确保某些变量的低性能不会被其余变量的高性能所掩盖，从而提供一个更片面的系统韧性评价。例如，假设一个系统在资源可用性方面体现良好，但在资源调配对等性方面体现不佳，那么和谐平均数将反映出系统在全体上的无余。

最终，钻研团队失掉了一个繁多的韧性测量值 ( J )，代表代理、破坏性事情和福祉变量的韧性汇总。这一测量值为评价和比拟不同系统在面对破坏性事情时的体现提供了一个有力的工具。

案例钻研

试验设计

为了验证协作韧性的方法，钻研团队选用了Melting Pot 2.0作为试验工具。Melting Pot 2.0是一个专门用于钻研多智能体AI系统的工具，能够模拟复杂的多智能体交互环境。详细的试验场景选用了“Commons Harvest Open”，这是一个多智能体系统中经常出现的社会困境场景。

在“Commons Harvest Open”场景中，多个代理生活在一个有限的空间内，空间中有苹果树。每个代理的目的是尽或者多地采摘苹果。苹果会依据残余苹果的数量以必定的概率再生，假设一切苹果被采摘完，树木将隐没。这种场景模拟了一个典型的社会困境：假设一切代理都适度采摘苹果，资源将干枯，造成整个群体的福祉受损。

图3:LLM架构中推理环节流的示用意，造成每个代理的执行阶段。

第一类破坏性事情：苹果隐没

在第一类破坏性事情中，钻研团队模拟了苹果突然隐没的状况，以测试系统在资源干枯状况下的韧性。详细的试验参数包括破坏性事情出现的概率 ( p_s ) 和影响水平 ( v_s )。为了笼罩不同的场景，试验设置了九种不同的组合，区分对应不同的破坏性事情出现概率和影响水平。

图4：性能和参考曲线：蓝线表示五次发作的平均性能曲线，而橙线表示平均参考曲线。阴影区域对应于规范偏向。白色虚线表示破坏性事情的出现。顶行（a、b、c、d）显示了经常使用RL训练的代理的结果，而底行（e、f、g、h）显示了基于LLM的模型的结果。（a）以及（e）描画了试验E9中人均活苹果。（b）（f）显示了试验E2中人均存活的树木。（c）以及（g）示出了试验E5中的基尼对等指数。最后，（d）和（h）给出了试验E7中的群体饥饿水平。

试验结果显示，破坏性事情清楚影响了系统的四个关键目的：每人存活的苹果数、每人存活的树木数、累积基尼对等指数和群体饥饿指数。在RL和LLM两种决策系统中，破坏性事情对系统的影响有所不同。

在RL系统中，代理经过强化学习算法（PPO）启动训练，能够在必定水平上优化资源的经常使用和调配。但是，当破坏性事情出现时，系统的体现依然遭到清楚影响，特意是在资源干枯的状况下，代理的体现会迅速好转。

在LLM系统中，代理经过大言语模型启动决策，行为并未依据资源可用性启动优化。这造成在破坏性事情出现时，代理会迅速采摘一切苹果，造成树木隐没，系统体现清楚降低。

图5：协作弹性图：该热图说明了扭转破坏性事情数量（1、2或3）和搅扰幅度（vs）对系统弹性的影响。该地图经常使用较深的颜色表示较低的弹性值。图（a）显示了RL方法的结果，而（b）显示了LLM的结果。

第二类破坏性事情：无法继续的机器人

在第二类破坏性事情中，钻研团队引入了无法继续的机器人，这些机器人在模拟中体现出不正当的资源消耗行为。详细的试验设计包括在LLM中第10轮和在RL中第100期间步引入机器人，并设置了三种不同的交互继续期间，以评价机器人对系统韧性的影响。

图6：协作弹性图：该热图说明了不同机器人交互继续期间对系统弹性的影响。较暗的颜色表示较低的弹性值。图（a）显示了RL方法的结果，而（b）显示了LLM增强代理的结果。

试验结果显示，随着机器人交互期间的参与，系统的韧性值降低。这是预期的，由于机器人不正当地消耗资源，直接和直接地影响了系统的关键目的。在RL系统中，代理在破坏性事情后继续其资源消耗战略，机器人退出后资源消耗形式不变。而在LLM系统中，代理在机器人退出后调整其战略，体现出更强的社会顺应性行为。

图7：人均活苹果数。蓝线是性能曲线5次发作的平均值，橙线是参考曲线的平均值。阴影区域表示规范偏向。白色虚线表示破坏性事情的出现。（a） RL中的E3和LLM中的E2。

经过比拟RL和LLM两种决策系统的体现，钻研团队发现LLM系统在面对无法继续行为时体现出更高的韧性。这标明LLM系统在复原和顺应才干方面具有长处，能够更好地应答外部破坏性事情。经过这些试验，钻研团队验证了协作韧性的方法，并展现了其在剖析系统如何预备、抵制、复原、维持福祉和在面对破坏时转变方面的有效性。

结果探讨

复杂灵活的影响

在钻研人工智能多智能体系统中的协作韧性时，破坏性事情的频率和强度对系统的影响是一个关键起因。经过试验可以看出，不同的破坏性事情频率和强度对系统的协作韧性有着清楚的影响。

破坏性事情的频率直接影响系统的顺应才干和复原速度，在试验中，随着破坏性事情的频率参与，系统的韧性值普遍降低。这是由于频繁的破坏性事情使系统难以有足够的期间启动复原和调整，从而造成全体性能的降低。例如，在苹果隐没的试验中，当破坏性事情频繁出现时，系统中的代理无法有效地治理资源，造成资源干枯和系统性能的清楚降低。

其次，破坏性事情的强度也对系统的韧性有着关键影响。试验结果显示，较高强度的破坏性事情通常会造成系统的韧性值降低。但是，值得留意的是，在某些状况下，系统在阅历高强度破坏性事情后体现出更高的韧性。这种现象标明，系统在面对高强度破坏性事情时，或者会经过调整战略和行为来提高其顺应才干和复原速度。例如，在无法继续的机器人试验中，虽然机器人对资源的消耗强度较高，但系统经过调整代理的行为战略，体现出了必定的顺应性和复原才干。

这些结果标明，破坏性事情的频率和强度对系统的协作韧性有着复杂的影响。系统在面对不同频率和强度的破坏性事情时，体现出不同的顺应和复原才干。这种复杂灵活的影响须要进一步的钻研和剖析，以更好地理解系统在不同条件下的体现和韧性。

方法的有效性

钻研团队提出的方法在捕捉系统应答破坏环节中的韧性方面体现出了清楚的有效性。经过定义和量化协作韧性，钻研团队能够片面评价系统在面对破坏性事情时的体现和顺应才干。

首先，钻研团队的方法经过建设性能和参考曲线，能够直观地展现系统在破坏性事情前后的体现。性能曲线和参考曲线的比拟，提供了系统在反常运转条件下和破坏性事情出现时的详细体现。这种方法不只能够捕捉系统在单个破坏性事情中的体现，还能够评价系统在延续破坏性事情中的顺应和学习才干。

其次，钻研团队的方法经过计算总结目的，能够量化系统在破坏性事情中的韧性。总结目的包括缺点特色和复原特色，能够片面反映系统在破坏性事情后的退步速度和复原速度。这种量化方法为评价系统的韧性提供了一个有力的工具，使钻研团队能够准确评价系统在不同条件下的体现。

此外，钻研团队的方法经过期间窗口汇总和变量汇总，能够片面捕捉系统在延续破坏性事情中的顺应和学习才干。期间窗口汇总方法不只思考了系统在单个破坏性事情中的体现，还思考了系统在延续破坏性事情中的体现。变量汇总方法经过经常使用和谐平均数，确保某些变量的低性能不会被其余变量的高性能所掩盖，从而提供一个更片面的系统韧性评价。

论断与未来上班

钻研团队经过对人工智能多智能体系统中的协作韧性启动了深化钻研，提出了一个系统的方法来定义和量化这一律念。

钻研团队提出了“协作韧性”的明白定义。协作韧性是指一个系统（包括人类、机器或两者的群体执行）在面对要挟其独特福祉的破坏性事情时，能够预感、预备、抵制、复原和转变的才干。这必定义不只一致了协作AI畛域的术语，还为了解和评价协作AI系统在面对破坏性事情时的体现提供了一个通常框架。

钻研团队开发了一种定量测量协作韧性的方法。该方法分为四个阶段：性能和参考曲线的建设、总结目的的计算、期间窗口内的韧性目的汇总以及变量汇总。经过这些阶段的方法，钻研团队能够片面捕捉系统在面对破坏性事情时的体现和顺应才干。这种方法不只能够评价系统在单个破坏性事情中的体现，还能够评价系统在延续破坏性事情中的顺应和学习才干。

此外，钻研团队经过试验验证了所提出的方法。在Melting Pot 2.0的“Commons Harvest Open”场景中，钻研团队启动了两组试验：一组触及苹果隐没的破坏性事情，另一组触及引入无法继续机器人的破坏性事情。试验结果显示，破坏性事情的频率和强度对系统的协作韧性有着清楚的影响。经过比拟强化学习（RL）和大言语模型（LLM）两种决策系统的体现，钻研团队发现LLM系统在面对无法继续行为时体现出更高的韧性。

总的来说，钻研团队的钻研不只为协作AI系统的韧性钻研提供了关键的通常和通常基础，还为未来的钻研和运行提供了贵重的阅历和见地。

虽然钻研团队在协作韧性钻研方面取得了关键停顿，但仍有许多值得进一步探求的方向。

裁减试验框架以涵盖更宽泛的场景和破坏性事情。钻研团队的试验关键集中在“Commons Harvest Open”场景中，未来的钻研可以探求其余类型的多智能体系统和不同的破坏性事情。例如，可以钻研在交通治理、动力调配和灾祸照应等畛域中的协作韧性。

探求人机交互中的协作韧性。钻研团队的钻研关键集中在机器之间的协作韧性，未来的钻研可以将人类归入系统，钻研人机交互中的协作韧性。这将有助于了解人类和机器在面对破坏性事情时的协同体现，并为设计更具韧性的混合系统提供指点。

深化探求促进韧性涌现的起因。经过逆疑问方法，如逆向游戏和逆向强化学习，可以提醒驱动韧性行为的潜在动机。这将有助于复制和增强AI系统中的韧性个性。例如，可以钻研在不同环境和条件下，哪些战略和行为能够提高系统的韧性。

最后，跨学科协作将是未来钻研的关键方向。韧性作为一个多方面的概念，在生态学、心思学、网络迷信等畛域都有宽泛的钻研。经过与这些畛域的钻研者协作，可以丰盛咱们对韧性的了解，并促进更具韧性的协作AI系统的开展。

总之，未来的钻研应继续探求和裁减协作韧性的定义和量化方法，涵盖更宽泛的运行场景和破坏性事情，并经过跨学科协作，推进协作AI系统的韧性钻研向前开展。这将为设计和成功更具韧性和顺应才干的AI系统提供松软的基础。（END）

参考资料：

1.https://arxiv.org/pdf/2409.13187

本文转载自，作者：

<<又一AI公司将虚构人推到新高度除了唱歌 AI还能替你演出

微软开源GraphRAG 极大加弱小模型问答推理摘要>>