自动体协作退化论从心智实践到逆向留意力

2024-11-15

让自动体在始终变动的环境中灵活顺应、并有效协作是一个渺小的应战，特意是当自动体须要与生疏的自动体互动时，传统训练方法往往体现不佳。这种状况下，引入逆向留意力自动体（Inverse Attention Agents）成为了一种翻新且有效的处置方案。

逆向留意力自动体的外围在于自创“心智实践”（Theory of Mind, ToM），经过留意力机制来推断其余自动体的指标和行为，并据此调整自己的执行。这种方法不只能够优化自动体在协作义务中的体现，还能在竞争和混合环境中体现出色。这一翻新性的战略为多自动体系统的自发协作提供了新的思绪，清楚改善了自动体在面对未见过的自动体时的顺应才干。

提出逆向留意力自动体实践的是来自加州大学洛杉矶分校的团队，他们钻研目的在于设计和验证一种能够在多变环境中灵活顺应的新型自动体训练方法——逆向留意力自动体。经过在多种环境中启动试验，钻研团队展现了这种方法在优化自动体协作功能方面的清楚效果。逆向留意力自动体的翻新点在于其对留意力权重的推断和降级机制，这一机制使得自动体能够基于对其余自动体留意力形态的推断，调整自身的执行，从而成功更为灵敏和高效的协作。他们的论文《Inverse Attention Agent for Multi-Agent System》 10 月 30日宣布于arXiv。

这个钻研团队由来自加州大学洛杉矶分校（UCLA）的五位学者组成，区分来自计算机迷信系、统计与数据迷信系以及流传学系。团队成员包括：Qian Long、Ruoyan Li、

Minglu Zhao、Tao Gao、Demetri Terzopoulos。他们联合了计算机迷信、数据迷信和流传学的专业常识，独特探求多自动体系统中的逆向留意力自动体，为该畛域的钻研提供了新的视角和方法。

关系上班

在多自动体系统（MAS）的开展历程中，钻研者们始终探求如何提高自动体在复杂环境中的协作和顺应才干。心智实践（Theory of Mind, ToM）作为人类了解他人心思形态的才干，其概念引入MAS，为成功自动体之间的高效协作提供了新的门路。ToM钻研的一个外围指标是让自动体能够推测和了解其余自动体的外部形态，从而制订更为有效的协作战略。在这一畛域，留意力机制的引入为改良自动体的决策和协作才干提供了关键工具。

心智实践最早由心思学家提出，旨在解释人类如何了解和预测他人的心思形态。它包括对决计、愿望、用意等心思形态的推断才干。在多自动体系统中，ToM被用来设计能够模拟人类推理和决策环节的自动体，以成功更人造的协作。早期的ToM钻研关键驳回贝叶斯方法，经过观测其余自动体的行为来推断其心思形态。这种方法提供了一个系统化的推理框架，但由于计算复杂度高，在大规模多自动体系统中运行存在必定艰巨。

近年来，随着神经网络和深度学习的兴起，钻研者们开局探求将ToM间接整合到神经网络架构中的或者性。经过数据驱动的方法，自动体可以在互动中学习和示意其余自动体的心思形态。特意是自留意力机制的开展，为自动体的形态推断和行为调整提供了新的手腕。自留意力机制准许自动体依据观察到的消息调配不同的权重，从而在决策环节中突出最关键的消息。这种方法不只提高了推理的准确性，还增强了自动体在灵活环境中的顺应才干。

在此基础上，逆向留意力自动体（Inverse Attention Agents）应运而生。该方法经过逆向推断其余自动体的留意力形态，并依据这些推断结果调整自身的行为。逆向留意力自动体的翻新在于其能够推测其余自动体的指标和行为，并实时调整自己的执行战略，从而在各种复杂环境中体现出色。

即席团队协作（Ad-Hoc Teaming）是多自动体系统中一个具有应战性的钻研课题。即席协作要求自动体能够在没有预先协和谐战略分歧性的状况下，与生疏队友启动高效协作。这种情境在事实环球中十分经常出现，例如劫难接济、无人机编队以及多自动体机器人系统中。但是，成功即席协作须要自动体具有极速顺应和协调的才干，这对传统的训练方法提出了渺小应战。

现有的即席团队协作方法关键集中在以下几个方面。

基于类型的推理：将队友示意为假定的行为类型，经过推断队友属于哪种类型来选用适合的执行战略。这种方法在必定水平上处置了生疏队友之间的协作疑问，但其推理环节复杂，且依赖于预先设定的类型分类。

基于神经网络的推理：经过神经网络从观察数据中学习队友的行为类型。这种方法具有较好的泛化才干，但其训练环节须要少量数据支持，且在应答灵活变动时或者体现不稳固。

共享代理框架：依赖于组级心思形态的协调，在自动体之间建设对义务和指标的独特了解。这种方法可以有效缩小推理的复杂性，但其灵敏性和顺应性较差，难以应答多样化和灵活变动的环境。

逆向留意力自动体的产生，为处置即席团队协作中的应战提供了新的思绪。经过逆向推断和调整留意力权重，逆向留意力自动体能够更好地理解队友的指标和行为，并依据推断结果实时调整自己的执行战略。这种方法不只提高了自动体的协作才干，还增强了其在灵活环境中的顺应性。

马尔可夫博弈及梯度场示意

在讨论逆向留意力自动体的详细方法之前，首先须要了解一些基础概念，即多自动体马尔可夫决策环节（MDP）和梯度场（GF）示意。

图1：训练反向留意力代理的管道：第一阶段触及运行自我留意力机制，其中代理为其观察值调配留意力权重，并依据这些权重采取执行。在第二阶段，自动体经常使用逆留意力网络对同类型的其余自动体启动留意力推理。经过将自己置于这些自动体的位置，它推断出它们的留意力权重，从而了解它们的指标和行为。在最后阶段，反向留意力代理经常使用从上一步推断出的消息将其原始留意力权重{w1，w2，…，wn}降级为{w^1，w^2，……，w^n}，从而造成其最终举措的变动。

多自动体马尔可夫决策环节（MDP）是一种框架，用于建模多个自动体在环境中的交互环节。MDP通常由以下几个因素组成：

在多自动体强化学习（MARL）的背景下，自动体经过与环境和其余自动体的互动，始终学习优化其战略πi，以便在复杂环境中成功最佳的常年收益。

梯度场（GF）示意是一种在多自动体系统中用于增强自动体环境感知和决策才干的初级示意方法。相比于间接经常使用环境的原始观察，GF能够提供更上档次的消息，协助自动体更好地理解环境并做出更理智的决策。

详细来说，GF经过学习环境中数据的对数密度梯度场，即得分函数，来构建更具代表性的环境示意。这一环节应用去噪得分婚配（DSM）生成模型，经过多个不同噪声级别的数据来训练得分网络，使其能够近似环境中数据的实在得分函数。GF示意可以看作自动体在特定环境中的指标，与相对坐标等原始观察相比，GF能够更间接地示意与自动体指标分歧的未来趋向，从而提高自动体的决策效率和准确性。

了解了MDP和GF的基础常识后，咱们可以更深化地讨论逆向留意力自动体的方法。逆向留意力自动体经过引入自留意力机制和逆向留意力推理网络，成功对其余自动体的留意力形态的推断和自身行为的调整。

首先，自动体经过自留意力机制为观察到的消息赋予不同的权重，从而在决策环节中突出最关键的消息。在训练环节中，自动体会搜集这些权重数据，构成训练数据集。而后经常使用这些数据训练逆向留意力推理网络，使其能够依据观察到的其余自动体的行为和指标，推断其留意力权重。

一旦逆向留意力网络成功训练，自动体就可以将其运行于实时环境中，经过推断其余自动体的留意力形态，调整自己的执行战略。这种方法不只提高了自动体的协作才干，还增强了其在灵活环境中的顺应性。

为了验证逆向留意力自动体的有效性，钻研团队在多个复杂环境中启动了试验。试验结果标明，逆向留意力自动体在多种义务中体现优越，包括协作、竞争以及混合义务。经过与传统方法的比拟，逆向留意力自动体在顺应性和协作效率方面体现出清楚的长处。

特意是在即席团队协作的场景中，逆向留意力自动体能够极速顺应新队友和新环境，成功高效协作。这一结果标明，经过逆向推断和调整留意力形态，自动体能够更好地理解和照应其余自动体的行为，从而在多自动体系统中取得更佳体现。

疑问定义

在多自动体系统（MAS）中，各个自动体在环境中自主执行，协调协作以成功独特指标。为了在复杂且灵活的环境中有效运作，自动体须要制订去中心化的战略，这象征着每个自动体都能独立决策，而不依赖于中央控制系统。钻研团队提出了一种翻新的逆向留意力自动体（Inverse Attention Agents），旨在优化自动体在这些条件下的协作才干。

在齐全可观察的多自动体环境中，每个自动体可以失掉关于其余自动体的一切消息，包括其执行和形态。这种全知全能的环境设定为钻研逆向留意力自动体提供了理想条件。在这样的环境中，自动体经过对其余自动体行为的观察，推断其外在形态，从而优化自己的决策环节。但是这也带来了新的应战，须要自动体具有高度的灵敏性和顺应才干。

去中心化战略指标

去中心化战略的指标是让每个自动体独立地学习和执行决策，以成功全体系统的最优功能。在多自动体系统中，这一指标尤其关键，由于各个自动体经常须要在没有预先协和谐一致指令的状况下启动协作。为了成功这一指标，自动体须要在以下几个方面启动优化：

指标成功所需的条件和应战

为了成功去中心化战略指标，逆向留意力自动体须要满足以下三个条件。

在成功这些条件的环节中，逆向留意力自动面子临以下几个关键应战：

消息处置的复杂性：在齐全可观察的环境中，自动体须要处置少量的消息，包括其余自动体的形态和执行。这要求自动体具有高效的消息处置和存储才干。

形态推断的准确性：自动体须要能够准确推断其余自动体的外在形态，这关于成功高效协作至关关键。但是，推断环节往往触及复杂的计算和不确定性，或者造成推断结果的偏向。

战略调整的实时性：自动体须要能够依据环境变动和推断结果，实时调整其战略。这要求自动体具有极速照应和顺应才干，以应答灵活变动的环境。

经过引入逆向留意力机制，钻研团队提出的方法在必定水平上克制了上述应战。逆向留意力自动体经过对其余自动体行为的逆向推断，调整自身的留意力权重，从而优化决策环节。这种方法不只提高了自动体的协作才干，还增强了其在灵活环境中的顺应性。

逆向留意力自动体的方法论

为了成功上述指标，钻研团队驳回了以下步骤来构建逆向留意力自动体。

经过自我留意机制，自动体能够为其观察到的消息调配不同的权重，从而在决策环节中突出最关键的消息。这个阶段还为训练逆向留意力网络预备了必要的数据。

在搜集了足够的数据对之后，经常使用这些数据训练逆向留意力推理网络。该网络能够基于其余自动体的指标和执行，推断其留意力权重。

经常使用训练好的逆向留意力网络，自动体能够实时推断其余自动体的留意力形态，并依据推断结果调整自己的战略。

这种方法不只成功了自动体间的高效协作，还清楚优化了自动体在面对未知环境和未见过的自动体时的顺应才干。试验结果标明，逆向留意力自动体在多种义务中体现优越，无论是协作义务、竞争义务还是混合义务，都体现出了弱小的顺应性和高效性。

方法引见

在多自动体系统（MAS）中，各个自动体如何在灵活复杂的环境中启动有效协作，是一个关键的钻研课题。钻研团队提出了一种翻新的逆向留意力自动体（Inverse Attention Agents），经过引入自我留意机制和留意力推理网络，优化自动体的决策环节

自我留意机制的运行与数据预备

逆向留意力自动体首先应用自我留意机制来处置观察到的消息。自我留意机制准许自动体依据环境中的不同指标调配留意力权重，从而在决策环节中突出最关键的消息。这一机制的引入，使得自动体能够更灵敏地应答环境变动，并在处置少量消息时坚持高效。

图2：逆向留意力代理的网络架构。关于代理i，Wi是观察嵌入函数，它接纳观察并输入初始留意力权重。IWi是一个逆向留意力网络，它接纳其余自动体的举措和观察，并输入推断出的留意力权重。UWi思考了自初始权重和从他人推断的权重，并降级了ai的留意力权重。hi函数依据降级的权重输入最终举措。

在详细运行中，自动体经过一个自我留意网络（Self-Attention Network）来处置其观测到的形态消息。该网络将观测到的形态启动嵌入（embedding），并经过留意力机制计算出各个指标的权重。而后，自动体依据这些权重来选择其下一步的执行。

在训练环节中，自动体会始终搜集其留意力权重和对应的观察数据对（wi, oi），并将这些数据存储在一个训练数据集中（Dataset D）。这些数据为后续训练留意力推理网络提供了必要的基础。

留意力推理网络的训练和逆向留意力自动体的构建

有了自我留意机制搜集的数据，下一步是训练留意力推理网络（Attention Inference Network）。该网络的指标是依据观察到的其余自动体的行为，推断其留意力形态。

详细而言，留意力推理网络经过以下步骤启动训练：

逆向留意力自动体经过逆向留意力推理网络，将其余自动体的留意力形态和自身形态联合起来，构成新的留意力权重。这些降级后的留意力权重，使自动体能够更好地顺应环境变动，并在协作和竞争中做出更优决策。

逆向留意力自动体的全体架构与战略

逆向留意力自动体的全体架构由多个网络模块组成，每个模块在训练和决策环节中施展特定的作用。

首先，自动体经过自我留意网络来处置其观测到的环境消息，计算并调配留意力权重。这些留意力权重用于选择自动体的初始执行战略。在训练环节中，自动体会始终搜集这些权重和观察数据，构成训练数据集。

接上去，自动体应用这些数据，训练逆向留意力推理网络。该网络基于其余自动体的观察和行为，推断其留意力形态。推理网络的输入与自动体的原始留意力权重联合，构成新的留意力权重。

最后，自动体经过一个权重降级模型（Weight Updating Model），将推断的留意力权重和自身的原始权重联合，并经过一个全衔接网络降级其最终留意力权重。基于这些降级后的权重，自动体能够在不同环境中实时调整其战略，做出更优的决策。

逆向留意力自动体的战略成功环节如下：

初始阶段：运行自我留意机制，对观测到的环境消息启动处置，并为各个指标调配初始留意力权重。

推理阶段：经常使用逆向留意力推理网络，基于其余自动体的行为和指标，推断其留意力形态。

降级阶段：将推断的留意力权重与自身的原始权重联合，经过权重降级模型，优化最终的留意力权重。

试验与结果

为了验证逆向留意力自动体的有效性，钻研团队在多个复杂环境中启动了试验。这些环境包括齐全协作游戏、齐全竞争游戏以及混合游戏，每种环境都具有不同的应战和个性。试验结果标明，逆向留意力自动体在这些环境中体现出色，无论是在协作、竞争还是混合义务中，都清楚优于传统方法。

特意是在即席团队协作场景中，逆向留意力自动体能够极速顺应新队友和新环境，成功高效协作。这一结果证实，经过逆向推断和调整留意力形态，自动体能够更好地理解和照应其余自动体的行为，从而在多自动体系统中取得更佳体现。

试验环境与基线方法的选用

图3：流传、对手和草原游戏的环境可视化。

本钻研在多个试验环境中验证了逆向留意力自动体的功能，这些环境包括：

为了启动比拟，钻研团队选用了几种基线方法：

一切基线方法均经过相反量的训练，确保在评价时期不会接触到其余方法的自动体，以保障偏心性。

量化结果剖析与讨论

在量化剖析中，钻研团队对一切试验环境中的自动体启动了训练和评价。在Spread游戏中，各个方法的体现如表1所示：

MAPPO、IPPO、MAA2C在协作义务中的体现相对较差。

Self-Att 和 Inverse-Att 的体现清楚优于其余方法，尤其是 Inverse-Att 在多个环境中展现了出色的协作和竞争才干。

这一结果标明，逆向留意力自动体在多种义务中都能坚持稳固且优越的体现，不只实用于协作义务，也能在竞争和混合义务中展现出色的顺应性。

不同规模下的逆向留意力自动体功能测试

为了进一步验证逆向留意力自动体的可裁减性，钻研团队在不同规模的自动体环境中启动了测试。详细而言，在Spread、Adversary和Grassland游戏中，评价了2、3、4个自动体的状况。

结果显示，逆向留意力自动体在一切测试规模下均体现出色，特意是在协作关系的游戏中。这一发现证实了逆向留意力自动体不只能顺应多样化的环境，还能有效裁减到更大规模的多自动体系统中。

与人类介入者的协作试验结果

为了评价逆向留意力自动体在实践协作场景中的顺应性，钻研团队启动了人类试验。在Spread、Grassland和Adversary游戏中，五名介入者与自动体协作成功义务。试验结果标明，Self-Att 和 Inverse-Att自动体在少数环境中体现优于人类介入者，尤其是在顺应性和稳固性方面。

图4：咱们评价了在{流传：3，反抗：3−3和草原：3-3}的尺度下，反向留意力网络在流传、对手和草原环境中的五个角色的预测准确性。在每个条形图中，从左到右，咱们显示了从介入人数最多的指标到介入人数起码的指标的预测精度。结果标明，逆网络可以准确地预测其余自动体的留意力，特意是对前两个感兴味的留意力。

这标明，逆向留意力自动体不只在模拟环境中体现出色，也能在实践协作场景中与人类有效互动，展现出弱小的顺应才干和协作后劲。

多个逆向留意力自动体的影响剖析

钻研团队还讨论了多个逆向留意力自动体同时存在时的影响。经过逐渐交流MAPPO自动体为逆向留意力自动体，试验发现，随着逆向留意力自动体数量的参与，团队总鼓励出现非线性递增形式。

这一发现强调了逆向留意力自动体在多自动体系统中的协作长处，证实了其能够与其余自动体高效协作，从而在复杂义务中取得更佳的体现。

逆向留意力网络的预测精度

为了验证逆向留意力网络的预测精度，钻研团队搜集了少量的权重观察数据对，作为留意力的基准。经过将这些数据输入逆向留意力网络，并比拟预测结果与基准的差异，发现逆向留意力网络能够准确预测其余自动体的留意力形态，特意是在最关键的两个留意力指标上，预测精度凑近100%。

这一结果证实了逆向留意力网络在推断其余自动体留意力形态方面的高效性和准确性，为自动体的实时决策提供了牢靠支持。

未来上班

只管钻研团队的钻研曾经取得了清楚成绩，但未来仍有许多值得探求的方向。首先，目前的逆向留意力自动体关键针对同类型自动体的推理，未来可以进一步钻研不同类型自动体之间的心智实践建模，以优化自动体在多样化环境中的顺应性和协作才干。此外，钻研团队还方案开发一种能够处置恣意数量推断留意力权重的UW网络模型，从而增强自动体在复杂义务中的灵敏性。

逆向留意力自动体的宽泛影响关键体如今其在多自动体强化学习（MARL）中的运行后劲。经过推断和调整留意力形态，逆向留意力自动体能够在灵活环境中成功更为高效的协作和决策。这一翻新方法有望在多个实践运行场景中施展作用，如机器人集体协作、自动交通治理、无人机编队等。

在自动社会的开展中，自主系统的自动化和协作才干至关关键。逆向留意力自动体经过引入心智实践和留意力机制，为自主系统的自动化提供了新的门路。随着这一畛域钻研的始终深化，未来有望看到更多自动体在实践运行中展现出弱小的协作和顺应才干，从而推进技术提高和社会开展。（END）

参考资料：

本文转载自，作者：

<<一文详解多模态智能体外围组件 LMAs 最新停顿

上大提出TinyVLA 高效视觉让具身自动更快更强！华东师大&amp>>

自动体协作退化论 从心智实践到逆向留意力