深度解析：大语言模型多智能体(LLM Multi-Agents)的研究现状与未来方向

我们整理分享来自新加坡国立大学的最新论文：基于大型语言模型的多智能体综述- 进展与挑战, Large Language Model based Multi-Agents: A Survey of Progress and Challenges，文末有论文连接。大型语言模型（LLMs）在广泛的任务中取得了显著的成功。由于LLMs令人印象深刻的规划和推理能力，它们被用作自治智能体自动完成许多任务。

爱编程的小辞

3075人浏览 · 2024-05-11 20:47:52

爱编程的小辞 · 2024-05-11 20:47:52 发布

我们整理分享来自新加坡国立大学的最新论文：基于大型语言模型的多智能体综述- 进展与挑战, Large Language Model based Multi-Agents: A Survey of Progress and Challenges，文末有论文连接。

大型语言模型（LLMs）在广泛的任务中取得了显著的成功。由于LLMs令人印象深刻的规划和推理能力，它们被用作自治智能体自动完成许多任务。最近，基于使用一个LLM作为单个规划或决策智能体的发展，基于LLM的多智能体系统在复杂问题解决和世界模拟方面取得了可观的进展。为了向社区提供这一动态领域的概述，我们提出了这项综述，以便对基于LLM的多智能体系统的基本方面以及挑战进行深入讨论。目标是让读者对以下问题有实质性的见解：**LLM基础的多智能体模拟哪些领域和环境？这些智能体是如何配置的，它们如何通信？哪些机制促进了智能体能力的增长？**对于那些有兴趣深入研究这一领域的人们，我们还总结了常用的数据集或基准测试，以便他们方便地获取。

1 引言

大型语言模型（LLMs）最近展示了在达到与人类相当水平的推理和规划能力方面的显著潜力。这种能力正好符合人类对自治智能体的期望，这些智能体能够感知周围环境，做出决策，并做出响应[Xi等人，2023；Wooldridge和Jennings，1995；Russell和Norvig，2009；Guo等人，2023；Liang等人，2023]。因此，基于LLM的智能体已经被研究并迅速发展，以理解和生成类似人类的指令，促进在广泛的情境中的复杂交互和决策[Yao等人，2023；Shinn等人，2023；Li等人，2023d]。及时的综述论文系统地总结了基于LLM的智能体的进展，如[Xi等人，2023；Wang等人，2023b]所见到的。

基于单个基于LLM的智能体的启发能力，提出了基于LLM的多智能体，以利用多个智能体的集体智能和专门的配置和技能。与使用单个LLM驱动的智能体的系统相比，多智能体系统通过：

1）将LLMs专业化为具有不同能力的各个不同的智能体，以及；

2）使这些多样化的智能体之间进行互动，以有效地模拟复杂的现实世界环境，提供了先进的能力。

在这种背景下，多个自治智能体协作参与规划、讨论和决策，反映了人类群体工作在解决问题任务中的合作性质。这种方法利用了LLMs的沟通能力，利用它们生成文本进行沟通并响应文本输入的能力。此外，它还利用了LLMs在各个领域的广泛知识和它们在特定任务上专业化的潜在能力。最近的研究已经展示了利用基于LLM的多智能体解决各种任务的有希望的结果，例如软件开发[Hong等人，2023；Qian等人，2023]，多机器人系统[Mandi等人，2023；Zhang等人，2023c]，社会模拟[Park等人，2023；Park等人，2022]，政策模拟[Xiao等人，2023；Hua等人，2023]和游戏模拟[Xu等人，2023c；Wang等人，2023c]。由于这一领域的跨学科研究性质，它吸引了多样化的研究人员，不仅限于AI专家，还包括来自社会科学、心理学和政策研究等领域的人员。

研究论文的数量正在迅速增加，如图1所示（受到[Gao等人，2023b]设计的启发），从而扩大了基于LLM的多智能体研究的影响。尽管如此，早期的努力是独立进行的，导致缺乏一个系统的回顾来总结它们，建立这一领域的全面蓝图，并审视未来的研究挑战。这强调了我们工作的重要性，并成为我们提出这项调查论文的动机，专注于基于LLM的多智能体系统的研究。我们期望我们的调查能够对LLMs的研究和开发以及使用LLMs的更广泛的跨学科研究做出重大贡献。读者将获得基于LLM的多智能体（LLM-MA）系统的全面概述，掌握建立基于LLMs的多智能体系统所涉及的基本概念，并掌握这一动态领域的最新研究趋势和应用。我们认识到这一领域正处于早期阶段，并且随着新鲜的方法和应用的快速发展。我们希望我们的调查能够激发这一领域的进一步探索和创新，以及广泛的研究学科的应用。为了帮助来自不同背景的个人理解LLM-MA技术，并补充现有调查，解决未解决的问题，我们以以下方式组织了我们的调查论文。在第2节中介绍了背景知识之后，我们解决了一个关键问题：LLM-MA系统如何与协作问题解决环境相一致？为了回答这个问题，我们在第3节中提出了一个全面的框架，用于定位、区分和连接LLM-MA系统的各个方面。我们通过讨论以下问题深入探讨了这个问题：

1）智能体-环境接口，详细说明了智能体如何与任务环境互动；

2）智能体配置，解释了智能体是如何通过LLM以特定方式进行特征化的；3）智能体通信，检查了智能体如何交换消息和协作；

4）智能体能力获取，探讨了智能体如何发展其有效解决问题的能力。从另一个角度审查关于LLM-MA的研究，是它们的应用。

在第4节中，我们将当前应用分为两个主要流派：用于问题解决的多智能体和用于世界模拟的多智能体。为了指导个人识别适当的工具和资源，我们在第5节中介绍了用于研究LLM-MA的开源实现框架，以及可用的数据集和基准测试。基于之前的总结，我们在第6节中开启了对未来研究挑战和机会的讨论。结论在第7节中总结。

2 背景

2.1 基于LLM的单智能体系统

我们首先通过概述基于LLM的单智能体系统的能力来介绍背景，接着是[Weng，2023]中提出的讨论。

决策思维：这个术语表示LLM基础智能体的能力，通过提示引导，将复杂任务分解为较小的子目标[Khot等人，2023]，对每个部分进行系统性的思考（有时探索多条路径）[Yao等人，2023]，并从过去的经验中学习[Shinn等人，2023]，以更好地在复杂任务上做出决策。这种能力增强了单个基于LLM的智能体的自主性，并加强了其在问题解决中的有效性。

工具使用： 基于LLM的智能体的工具使用能力允许它们利用外部工具和资源完成任务，增强了它们的功能性能力，并在多样化和动态的环境中更有效地运作[Li等人，2023d；Ruan等人，2023；Gao等人，2023b]。

记忆： 这种能力指的是LLM基础智能体进行上下文学习的能力[Dong等人，2023a]，作为短期记忆或外部向量数据库[Lewis等人，2021]作为长期记忆，以在长时间内保存和检索信息[Wang等人，2023b]。这种能力使单个基于LLM的智能体能够保持上下文的连贯性，并从交互中增强学习。

2.2 单智能体与多智能体系统

由LLM驱动的单智能体系统展示了鼓舞人心的认知能力[Sumers等人，2023]。这些系统的构建集中在制定其内部机制和与外部环境的互动上。相反，LLM-MA系统强调多样化的智能体配置、智能体间的互动和集体决策过程。从这个角度来看，通过多个自治智能体的协作，每个智能体都配备了独特的策略和行为，并相互沟通，可以解决更动态和复杂的任务。

3 解析LLM-MA系统：接口、配置、通信和能力

在本节中，我们将深入探讨LLM-MA系统的复杂性，其中多个自治智能体参与协作活动，类似于人类群体在解决问题场景中的动态。我们解决的一个关键问题是这些LLM-MA系统如何与其操作环境和它们设计达成的集体目标保持一致。为了阐明这一点，我们在图2中展示了这些系统的一般架构。我们的分析剖析了这些系统的运作框架，重点关注四个关键方面：智能体-环境接口、智能体配置、智能体通信和智能体能力获取。

3.1 智能体-环境接口

操作环境定义了LLM-MA系统部署和互动的具体上下文或设置。例如，这些环境可以像软件开发[Hong等人，2023]、游戏[Mao等人，2023]以及金融市场[Li等人，2023g]甚至社会行为建模[Park等人，2023]等各种领域。基于LLM的智能体在环境中感知并行动，而环境反过来影响它们的行为和决策。例如，在狼人游戏模拟中，沙盒环境设定了游戏的框架，包括从白天到夜晚的过渡、讨论阶段、投票机制和奖励规则。智能体，如狼人和预言家，执行特定行动，如杀人或检查角色。在这些行动之后，智能体从环境中接收反馈，告知它们游戏的当前状态。这种信息指导智能体随时间调整它们的策略，响应不断演变的游戏玩法和其他智能体的互动。智能体-环境接口指的是智能体与环境互动和感知的方式。正是通过这个接口，智能体理解它们的周围环境，做出决策，并从它们的行动结果中学习。我们将LLM-MA系统中当前的接口分类为三种类型：沙盒、物理和无，详细见表1。沙盒是由人类构建的模拟或虚拟环境，智能体可以在其中更自由地互动，并尝试各种行动和策略。这种接口广泛应用于软件开发（代码解释器作为模拟环境）[Hong等人，2023]、游戏（使用游戏规则作为模拟环境）[Mao等人，2023]等。物理是指智能体与物理实体互动的真实世界环境，并遵守现实世界的物理和约束。在物理空间中，智能体通常需要采取可以产生直接物理结果的行动。例如，在扫地、做三明治、打包杂货和整理橱柜等任务中，机器人智能体需要迭代执行行动，观察物理环境，并不断改进它们的行动[Mandi等人，2023]。最后，无指的是没有特定外部环境的情况，智能体不与任何环境互动。例如，许多应用[Du等人，2023；Xiong等人，2023；Chan等人，2023]利用多个智能体辩论一个问题以达成共识。这些应用主要关注智能体之间的通信，不依赖于外部环境。

表1：LLM-MA研究总结。我们根据它们的动机、研究领域和目标对当前工作进行分类，并从智能体-环境接口、智能体配置、智能体通信和智能体能力获取的不同方面详细说明每项工作。“-”表示某个特定元素在这项工作中没有特别提及。

3.2 智能体配置

在LLM-MA系统中，智能体通过它们的特质、行动和技能来定义，这些都是为了满足特定目标而定制的。在不同的系统中，智能体承担不同的角色，每个角色都有全面描述，包括特征、能力、行为和限制。例如，在游戏中的环境里，智能体可能被配置为具有不同角色和技能的玩家，每个角色都以不同的方式为游戏目标做出贡献。在软件开发中，智能体可能担任产品经理和工程师的角色，每个角色都有指导开发过程的责任和专业知识。同样地，在辩论平台上，智能体可能被指定为支持者、反对者或评委，每个角色都有独特的功能和策略，以有效履行其角色。这些配置对于定义智能体之间的互动和在各自环境中的有效性至关重要。表1列出了近期LLM-MA作品中的智能体配置。关于智能体配置方法，我们将它们分为三种类型：预定义、模型生成和数据驱动。在预定义的情况下，智能体配置是由系统设计者明确定义的。模型生成方法通过模型（例如大型语言模型）创建智能体配置。数据驱动方法则基于预先存在的数据集构建智能体配置。

3.3 智能体通信

LLM-MA系统中智能体之间的通信是支持集体智能的关键基础设施。我们从三个角度剖析智能体通信：1）通信范式：智能体之间互动的风格和方法；2）通信结构：多智能体系统内通信网络的组织和架构；以及3）智能体之间交换的通信内容。

通信范式： 当前的LLM-MA系统主要采用三种通信范式：合作、辩论和竞争。合作智能体共同努力实现共享的目标或目标，通常交换信息以增强集体解决方案。辩论范式在智能体进行争论性互动时使用，提出并捍卫自己的观点或解决方案，并批评他人的。这种范式适合达成共识或更精炼的解决方案。竞争智能体则努力实现可能与其他智能体的目标相冲突的自己的目标。

通信结构： 图3展示了LLM-MA系统中的四种典型通信结构。分层通信是分层结构的，每个层级的智能体都有不同的角色，主要在自己的层级内或与相邻层级互动。[Liu等人，2023]引入了一个名为动态LLM-智能体网络（DyLAN）的框架，它将智能体组织在一个多层前馈网络中。这种设置促进了动态互动，包含了诸如推理时智能体选择和早停机制等功能，共同提高了智能体之间合作的效率。去中心化通信在点对点网络上运行，智能体直接相互通信，这种结构在世界模拟应用中常见。 集中式通信涉及一个中央智能体或一组中央智能体协调系统的通信，其他智能体主要通过这个中心节点进行互动。 共享消息池由MetaGPT[Hong等人，2023]提出，以提高通信效率。这种通信结构维护了一个共享的消息池，智能体在其中发布消息，并根据它们的配置订阅相关消息，从而提高了通信效率。

通信内容：在LLM-MA系统中，通信内容通常以文本形式存在。具体内容差异很大，取决于特定的应用。例如，在软件开发中，智能体可能会就代码段相互通信。在像狼人这样的游戏模拟中，智能体可能会讨论他们的分析、怀疑或策略。

3.4 智能体能力获取

智能体能力获取是LLM-MA中的一个重要过程，使智能体能够动态学习和进化。在这种情况下，有两个基本概念：智能体应该从哪些类型的反馈中学习以增强其能力，以及智能体为有效解决复杂问题而调整自身的策略。

**反馈：反馈是智能体关于其行动结果收到的关键信息，帮助智能体了解其行动的潜在影响，并适应复杂和动态的问题。**在大多数研究中，向智能体提供的反馈格式是文本。根据智能体接收此类反馈的来源，它可以被分类为四种类型。

1）来自环境的反馈，例如来自现实世界环境或虚拟环境[Wang等人，2023b]。这在大多数LLM-MA问题解决场景中都很普遍，包括软件开发（智能体从代码解释器那里获得反馈）和具身多智能体系统（机器人从现实世界或模拟环境中获得反馈）。

2）来自智能体互动的反馈意味着反馈来自其他智能体的判断或来自智能体之间的通信。这在像科学辩论这样的问题解决场景中很常见，智能体通过通信学习批判性地评估和完善结论。在世界模拟场景（如游戏模拟）中，智能体根据其他智能体之间的先前互动学习完善策略。

3）来自人类的反馈直接来自人类，对于使多智能体系统与人类价值观和偏好保持一致至关重要。这种反馈在大多数“人在循环中”的应用中被广泛使用[Wang等人，2021]。

4）没有反馈。在某些情况下，智能体没有收到反馈。这通常发生在专注于分析模拟结果而不是智能体规划能力的模拟工作中。在这种情况下，例如传播模拟，重点是结果分析，因此反馈不是系统的一部分。

智能体对复杂问题的调整：为了增强其能力，LLM-MA系统中的智能体可以通过三种主要解决方案进行调整。

1）记忆。大多数LLM-MA系统利用记忆模块来调整智能体的行为。智能体将来自先前互动和反馈的信息存储在它们的记忆中。在执行行动时，它们可以检索相关的、有价值的记忆，特别是那些包含过去类似目标的成功行动的记忆，正如[Wang等人，2023b]所强调的。这个过程有助于提高它们当前的行动。

2）自我进化。智能体不仅仅依赖历史记录来决定后续行动，如在基于记忆的解决方案中所见，智能体可以通过修改自己（例如改变初始目标和规划策略）并根据反馈或通信日志对自己进行训练来动态自我进化。[Nascimento等人，2023]提出了一个自我控制循环过程，允许多智能体系统中的每个智能体自我管理和自我适应动态环境，从而提高多个智能体的合作效率。[Zhang等人，2023b]引入了ProAgent，它预测队友的决策并根据智能体之间的通信日志动态调整每个智能体的策略，促进相互理解和提高协作规划能力。[Wang等人，2023a]讨论了一种通过通信学习（LTC）的范式，使用多智能体的通信日志生成数据集来训练或微调LLM。LTC使智能体能够通过与环境和其他智能体的互动持续适应和改进，打破了上下文学习或监督微调的限制，这些限制没有充分利用与环境和外部工具互动时收到的反馈进行持续训练。自我进化使智能体能够在其配置或目标上进行自主调整，而不仅仅是从历史互动中学习。

**3）动态生成。在某些场景中，系统可以在其运行期间即时生成新的智能体[Chen等人，2023a；Chen等人，2023c]。这种能力使系统能够有效地扩展和适应，因为它可以引入专门设计来解决当前需求和挑战的智能体。**随着LLM-MA系统扩展和智能体数量的增加，管理各种类型的智能体的复杂性已经成为一个关键问题。智能体协同作用作为一项关键挑战开始受到关注[Moura，2023；Dibia，2023]。我们将在第6.4节中进一步讨论这个话题。

4 应用

LLM-MA系统已被用于广泛的应用领域。我们在表1中总结了两种应用类型：问题解决和世界模拟。我们在下面详细阐述了这些应用。请注意，这是一个快速发展的研究领域，新的应用几乎每天都在出现。我们维护一个开源仓库来报告最新的工作。

4.1 LLM-MA用于问题解决

使用LLM-MA进行问题解决的主要动机是利用具有专业专长的智能体的集体能力。这些智能体作为个体，协作解决复杂问题，例如软件开发、具身智能体、科学实验和科学辩论。接下来将介绍这些应用示例。

4.1.1 软件开发

考虑到软件开发是一个复杂的任务，需要像产品经理、程序员和测试员这样的各种角色的协作，LLM-MA系统通常被设置为模仿这些不同的角色并协作解决复杂挑战。遵循软件开发的瀑布流或标准化操作程序（SOPs）的工作流程，智能体之间的通信结构通常是分层的。智能体通常与代码解释器、其他智能体或人类互动，以迭代地改进生成的代码。[Li等人，2023b]首先提出了一个简单的角色扮演智能体框架，它利用两个角色之间的相互作用来实现基于一句用户指令的自主编程。它为通信智能体的“认知”过程提供了见解。[Dong等人，2023b]使LLMs作为软件开发子任务的“专家”，自主协作生成代码。此外，[Qian等人，2023]提出了一个端到端的软件开发框架，利用多个智能体进行软件开发，而不包含先进的人类团队工作经验。[Hong等人，2023]首先将人类工作流程的见解纳入更受控制和验证的性能。它将SOPs编码到提示中以增强结构化协调。[Huang等人，2023a]更深入地研究了基于多智能体的编程，解决了平衡代码片段生成与有效的测试用例生成、执行和优化的问题。

4.1.2 具身智能体

大多数具身智能体应用本质上利用多个机器人共同完成复杂的现实世界规划和操作任务，如具有异构机器人能力的仓库管理。因此，LLM-MA可用于模拟具有不同能力的机器人，并相互协作解决现实世界的物理任务。[Dasgupta等人，2023]首先探索了使用LLM作为嵌入式智能体的动作规划器的潜力。[Mandi等人，2023]引入了RoCo，这是一种新颖的多机器人协作方法，使用LLM进行高级通信和低级路径规划。每个机器人臂都配备了一个LLM，与逆运动学和碰撞检查合作。实验结果证明了RoCo在协作任务中的适应性和成功。[Zhang等人，2023c]提出了CoELA，一种合作具身语言智能体，在LLM-MA环境中管理讨论和任务规划。这个具有挑战性的设置以去中心化控制、复杂的部分观察、昂贵的通信和多目标长视野任务为特征。[Chen等人，2023d]研究了涉及大量机器人的场景中的通信挑战，因为为每个机器人分配一个LLM将是昂贵和不切实际的，由于上下文的长度。该研究比较了四种通信框架，集中式、去中心化和两种混合模型，以评估它们在协调复杂多智能体任务中的有效性。[Yu等人，2023]提出了CoNavGPT，用于多机器人协作视觉目标导航，将LLM集成作为全局规划器，为每个机器人分配前沿目标。[Chen等人，2023b]提出了一个基于LLM的共识寻求框架，可作为多机器人聚合任务的协作规划器。

4.1.3 科学实验

与多个智能体扮演不同专家角色并合作解决软件开发和具身智能体问题类似，多个智能体也可用于组建科学团队进行科学实验。与以往应用的一个主要区别在于人类监督的关键作用，因为科学实验的高昂成本和LLM智能体的幻觉问题。人类专家处于这些智能体的中心，处理智能体的信息并给智能体提供反馈。[Zheng等人，2023]利用多个基于LLM的智能体，每个专注于科学实验的特定任务，包括策略规划、文献搜索、编码、机器人操作和实验器具设计。所有这些智能体与人类互动，共同协作优化复杂材料的合成过程。

4.1.4 科学辩论

LLM-MA可以设置为科学辩论场景，其中智能体相互辩论以增强集体推理能力，处理诸如大规模多任务语言理解（MMLU）[Hendrycks等人，2020]、数学问题[Cobbe等人，2021]和StrategyQA[Geva等人，2021]等任务。主要思想是每个智能体最初提供自己对问题的分析，然后进行联合辩论过程。通过多轮辩论，智能体达成单一的共识答案。[Du等人，2023]利用多智能体辩论过程在六种不同的推理和事实准确性任务上，并证明LLM-MA辩论可以提高事实性。[Xiong等人，2023]专注于常识推理任务，并制定了一个三阶段的辩论，以符合现实世界场景，包括公平辩论、不匹配辩论和圆桌辩论。该论文还分析了不同LLM之间的内部一致性，并声称辩论可以提高内部一致性。[Tang等人，2023]也利用多个基于LLM的智能体作为不同领域专家进行协作讨论，以就医学报告达成共识，用于医学诊断。

4.2 LLM-MA用于世界模拟

LLM-MA的另一个主要应用场景是世界模拟。这一领域的研究正在迅速增长，涵盖了社会科学、游戏、心理学、经济学、政策制定等多个领域。在世界模拟中使用LLM-MA的关键在于它们出色的角色扮演能力，这对于真实地描绘模拟世界中的各种角色和观点至关重要。世界模拟项目的環境通常是为了反映被模拟的特定场景而设计的，智能体设计有各种配置文件以匹配这个上下文。与侧重于智能体合作的问题解决系统不同，世界模拟系统涉及多样化的智能体管理和通信方法，反映了现实世界互动的复杂性和多样性。接下来，我们将探索在不同领域进行的模拟。

4.2.1 社会模拟

在社会模拟中，LLM-MA模型被用来模拟社会行为，旨在探索潜在的社会动态和传播，测试社会科学理论，以及用真实的社会现象填充虚拟空间和社区[Park等人，2023]。利用LLM的能力，具有独特配置文件的智能体进行广泛的沟通，为深入的社会科学分析生成丰富的行为数据。社会模拟的规模随着时间的推移而扩大，从较小、更亲密的设置开始，逐渐发展到更大、更复杂的环境。最初的工作由[Park等人，2023]引入，通过一个互动沙盒环境，让人联想到模拟人生游戏，允许最终用户通过自然语言与一个由25个智能体组成的适度社区进行互动。同时，[Park等人，2022]开发了Social Simulacra，它构建了一个由1000个角色组成的模拟社区。该系统采用了设计师对社区的愿景——其目标、规则和成员角色——并将其模拟出来，生成了发布、回复甚至反社会行为等行为。在此基础上，[Gao等人，2023a]将这一概念推向更高层次，构建了包含8,563和17,945个智能体的大型网络，分别设计用于模拟关注性别歧视和核能话题的社交网络。这一演变展示了最近研究中模拟环境的日益复杂性和规模的增长。最近的研究如[Chen等人，2023b；Kaiya等人，2023；Li等人，2023a；Li等人，2023f；Ziems等人，2023]突出了多智能体系统的复杂性、LLM对社会网络的影响以及它们融入社会科学研究的情况。

4.2.2 游戏

LLM-MA非常适合创建模拟游戏环境，允许智能体在游戏中扮演各种角色。这项技术使得开发可控、可扩展和动态的设置成为可能，这些设置紧密模仿人类互动，非常适合测试一系列游戏理论假设[Mao等人，2023；Xu等人，2023b]。大多数由LLM-MA模拟的游戏严重依赖于自然语言沟通，提供了不同游戏设置内的沙盒环境，用于探索或测试包括推理、合作、说服、欺骗、领导等在内的游戏理论假设。[Akata等人，2023]利用行为游戏理论来检验LLM在交互式社会设置中的行为，特别是它们在迭代囚徒困境和性别之战等游戏中的表现。此外，[Xu等人，2023b]提出了一个使用ChatArena库[Wu等人，2023b]的框架，让LLM参与像狼人这样的沟通游戏，使用检索和对过去沟通的反思来改进，以及思维链机制[Wei等人，2022]。[Light等人，2023b]探索了LLM智能体在玩抵抗阿瓦隆游戏中的潜力，引入了AVALONBENCH，这是一个全面的游戏体验和基准，用于进一步开发先进的LLM和多智能体框架。[Wang等人，2023c]也专注于LLM智能体在处理阿瓦隆游戏中的虚假信息的能力，提出了递归沉思（ReCon）框架，以增强LLM辨别和反击欺骗信息的能力。[Xu等人，2023c]引入了一个将LLM与强化学习（RL）结合使用的框架，用于开发狼人游戏中的战略语言智能体。它引入了一种新方法，在行动和状态集不是预定义的，而是在自然语言设置中使用RL策略的情况下使用RL。[Mukobi等人，2023]设计了“福利外交”，这是一个与零和棋类游戏“外交”相对应的非零和变体，玩家必须在军事征服和国内福利之间取得平衡。它还提供了一个开源基准，旨在帮助提高多智能体AI系统的合作能力。除此之外，还有一项工作[Li等人，2023c]在多智能体合作文本游戏中测试了智能体的理论心智（ToM），即推理他人隐藏的心理状态的能力，这对人类的社会互动、合作和沟通至关重要。[Fan等人，2023]全面评估了LLM作为理性玩家的能力，并确定了LLM基础智能体的弱点，即使在明确的游戏过程中，智能体在采取行动时仍可能忽视或修改精细的信念。

4.2.3 心理学

在心理学模拟研究中，与社会模拟类似，多个智能体被用来模拟具有各种特征和思维过程的人类。然而，与社会模拟不同，心理学中的一个方法直接将心理学实验应用于这些智能体。这种方法侧重于通过统计方法观察和分析它们的多样化行为。在这里，每个智能体独立运作，不与其他智能体互动，基本上代表了不同的个体。另一种方法更接近于社会模拟，其中多个智能体相互互动和沟通。在这种情况下，心理学理论被用来理解和分析出现的集体行为模式。这种方法促进了对人际动态和群体行为的研究，提供了关于个体心理特征如何影响集体行动的见解。[Ma等人，2023]探索了使用基于LLM的对话智能体进行心理健康支持的心理影响和结果。它强调了从心理学角度仔细评估在心理健康应用中使用基于LLM的智能体的必要性。[Kovac等人，2023]引入了一个名为SocialAI school的工具，用于创建模拟社会互动的互动环境。它借鉴发展心理学，了解智能体如何获取、展示和发展社交技能，如共同注意、沟通和文化学习。[Zhang等人，2023d]探索了具有不同特征和思维模式的LLM智能体如何模仿类似人类的社会行为，如遵从和多数规则。这种将心理学融入智能体协作理解的方法为检查和增强基于LLM的多智能体系统背后的机制提供了新的视角。[Aher等人，2023]通过LLM引入了图灵实验来评估不同人类行为方面的模拟程度。图灵实验使用问答格式复制心理学、经济学和社会学中的经典实验和现象，以模拟实验条件。他们还设计了一个提示，通过改变名字来模拟多个不同个体的反应。通过LLM模拟各种类型的个体，他们表明更大的模型更忠实地复制了人类行为，但它们也揭示了一种超准确性失真，特别是在基于知识的工作中。

4.2.4 经济

LLM-MA被用来模拟经济和金融交易环境，主要是因为它可以作为人类的隐式计算模型。在这些模拟中，智能体被赋予了一定的资源和信息，并设定了预定义的偏好，允许探索它们在经济和金融背景下的行动。这类似于经济学家对“经济人”的建模，即在一些经济理论中将人描述为追求自身利益的理性人[Horton，2023]。有几项研究展示了LLM-MA在模拟经济场景中的多样化应用，包括宏观经济活动、信息市场、金融交易和虚拟城镇模拟。智能体在合作或辩论、去中心化环境中互动。[Li等人，2023e]利用LLM进行宏观经济模拟，特点是提示驱动的智能体，模仿类似人类的决策制定，从而提高了经济模拟的真实性，相比基于规则或其他AI智能体。[Anonymous，2023]探索了信息市场中买家检查悖论，揭示了当智能体在购买前暂时访问信息时，决策制定和答案质量得到改善。[Li等人，2023g]提出了一个LLM-MA框架，用于金融交易，强调了分层记忆系统、辩论机制和个性化交易角色，从而加强了决策制定的稳健性。[Zhao等人，2023]利用基于LLM的智能体模拟了一个虚拟城镇，其中有餐厅和顾客智能体，得出了与社会学和经济理论一致的见解。这些研究共同阐明了在多样化经济模拟场景中使用LLM的广泛应用和进步。

4.2.5 推荐系统

在推荐系统中使用LLM-MA与在心理学中的使用类似，因为这两个领域的研究都涉及到外在和内在的人类因素，如认知过程和个性特征[Lex和Schedl，2022]。在推荐系统中使用LLM-MA的一种方式是直接将不同的LLM基于Agent引入到具有不同特征的Agent中，并进行不同Agent偏好的统计。另一种方式是将用户和项目都视为Agent，并将用户-项目通信视为互动，模拟偏好传播。为了弥合离线指标和推荐系统中现实世界性能之间的差距，Agent4Rec[Zhang等人，2023a]引入了一个基于LLM-MA的模拟平台。1000个生成Agent使用MovieLens-1M数据集初始化，以模拟推荐环境中复杂的用户互动。Agent4Rec表明，LLM-MA可以有效模拟真实用户偏好和行为，提供对过滤泡沫效应等现象的见解，并帮助揭示推荐任务中因果关系。在Agent4Rec工作中，Agent被用来模拟用户，它们之间不进行通信。与Agent4Rec工作不同，[Zhang等人，2023e]将用户和项目都视为Agent，共同优化它们以反映和适应现实世界互动的差异。这项工作强调模拟用户-项目互动，并在Agent之间传播偏好，捕捉协作过滤的本质。

4.2.6 政策制定

与游戏和经济场景中的模拟类似，政策制定需要强大的决策能力来应对真实和动态的复杂问题。LLM-MA可以用于通过模拟虚拟政府或模拟各种政策对不同社区的影响来进行政策制定的模拟。这些模拟为政策制定者提供了宝贵的洞察力，帮助他们理解和预见他们决策的后果[Farmer和Axtell，2022]。在[Xiao等人，2023]中概述的研究集中在模拟一个岛屿上的小镇水污染危机。它模拟了一个位于岛屿上的小镇，包括不同Agent的人口结构和镇长及顾问。在水污染危机模拟中，这项工作提供了一个深入分析，说明虚拟政府实体可能如何应对这样的公共管理挑战，以及在这场危机中社交网络中的信息传递。[Hua等人，2023]引入了WarAgent来模拟关键的历史冲突，并为冲突解决和理解提供洞察力，可能应用于防止未来的国际冲突。

4.2.7 疾病传播模拟

利用LLM-MA的社会模拟能力也可用于模拟疾病传播。最新的研究[Williams等人，2023]深入探讨了使用基于LLM的Agent进行疾病传播模拟的用途。该研究通过各种模拟展示了这些基于LLM的Agent如何准确模拟人类对疾病爆发的反应，包括在病例数量增加时自我隔离和隔离等行为。这些Agent的集体行为反映了大流行中通常看到的多波复杂模式，最终稳定到地方性状态。令人印象深刻的是，它们的行动有助于减轻流行病曲线。[Ghaffarzadegan等人，2023]也讨论了疾病传播模拟，并将模拟分解为两部分：代表病毒信息或传播的机械模型和代表面临病毒时Agent决策过程的决策模型。

5 实施工具和资源

5.1 多智能体框架

我们详细介绍了三个开源的多智能体框架：MetaGPT [Hong等人，2023]、CAMEL [Li等人，2023b] 和 Autogen [Wu等人，2023a]。它们都是利用语言模型进行复杂任务解决的框架，重点关注多智能体协作，但它们在方法和应用上有所不同。MetaGPT 设计用于将人类工作流程过程嵌入到语言模型Agent的操作中，从而减少在复杂任务中经常出现的幻觉问题。它通过将标准操作程序编码到系统中，并使用装配线方法将特定角色分配给不同的Agent来实现这一点。CAMEL（交流Agent框架）旨在促进Agent之间的自主协作。它使用了一种称为初始提示的新技术，引导对话Agent朝着符合人类目标的任务发展。这个框架还作为生成和研究对话数据的工具，帮助研究人员了解交流Agent的行为和互动。AutoGen 是一个多功能框架，允许使用语言模型创建应用程序。它以其高度的可定制性而著称，使开发人员能够使用自然语言和代码编程Agent，定义这些Agent如何互动。这种多功能性使其在从技术领域（如编码和数学）到以消费者为中心的领域（如娱乐）等多个领域中使用。最近，[Chen等人，2023c；Chen等人，2023a] 引入了用于动态多智能体协作的框架，而 [Zhou等人，2023a；Li等人，2023h；Xie等人，2023] 则提出了用于构建自治Agent的平台和库，强调它们在任务解决和社会模拟中的适应性。

5.2 数据集和基准

我们在表2中总结了LLM-MA研究常用的数据集或基准。我们观察到，不同的研究应用使用不同的数据集和基准。在问题解决场景中，大多数数据集和基准用于评估多个Agent合作或辩论的规划和推理能力。在世界模拟场景中，数据集和基准用于评估模拟世界与现实世界的一致性或分析不同Agent的行为。然而，在某些研究应用中，如科学团队操作实验和经济建模，仍然需要全面的基准。这种基准的发展将极大地增强评估LLM-MA在这些复杂和动态领域中的成功和适用性的能力。

6 挑战和机遇

LLM-MA框架和应用的研究正在迅速发展，带来了许多挑战和机遇。我们确定了未来研究的几个关键挑战和潜在领域。

6.1 进入多模态环境

大多数以前的LLM-MA工作都集中在基于文本的环境中，擅长处理和生成文本。然而，在多模态环境中，智能体将与多种感官输入进行交互，并生成多种输出，如图像、音频、视频和物理动作，这是一个明显的空白。将LLM集成到多模态环境中带来了额外的挑战，如处理不同类型的数据，并使智能体能够理解彼此并响应不仅仅是文本信息。

6.2 解决幻觉问题

幻觉问题在LLM和单个LLM基础Agent系统中是一个重大挑战。它指的是模型生成的文本在事实上是不正确的[Huang等人，2023b]。然而，在多智能体设置中，这个问题增加了一层复杂性。在这种情况下，一个Agent的幻觉可能会产生级联效应。这是由于多智能体系统的相互连接性质，其中一个Agent的错误信息可以被网络中的其他Agent接受并进一步传播。因此，在LLM-MA中检测和减轻幻觉不仅是一个关键任务，而且也提出了一组独特的挑战。它不仅涉及在个别Agent层面上纠正不准确性，还涉及管理Agent之间的信息流，以防止这些不准确性在整个系统中传播。

6.3 获得集体智能

在传统的多智能体系统中，Agent通常使用强化学习从离线训练数据集中学习。然而，LLM-MA系统主要从即时反馈中学习，例如与环境或人类的互动，正如我们在第3节中讨论的。这种学习风格需要一个可靠的交互环境，而且为许多任务设计这样的交互环境将是棘手的，限制了LLM-MA系统的可扩展性。此外，当前研究中流行的方法是使用记忆和自我进化技术根据反馈调整Agent。虽然对于个别Agent来说这些方法是有效的，但它们并没有充分利用Agent网络的潜在集体智能。它们孤立地调整Agent，忽视了从协调的多智能体互动中可能产生的协同效应。因此，共同调整多个Agent并实现最佳集体智能仍然是LLM-MA的一个关键挑战。

6.4 扩展LLM-MA系统

LLM-MA系统由许多个体LLM基础Agent组成，提出了关于Agent数量的可扩展性的重大挑战。从计算复杂性的角度来看，每个基于LLM的Agent，通常建立在像GPT-4这样的大型语言模型上，需要大量的计算能力和内存。在LLM-MA系统中增加这些Agent的数量显著增加了资源需求。在计算资源有限的情况下，开发这些LLM-MA系统将是具有挑战性的。此外，随着LLM-MA系统中Agent数量的增加，出现了额外的复杂性和研究机会，特别是在有效的Agent协调、通信和理解多智能体的规模法则的领域。例如，随着更多的基于LLM的Agent，确保有效协调和通信的复杂性显著增加。正如[Dibia，2023]所强调的，设计先进的Agent编排方法越来越重要。这些方法旨在优化Agent工作流程、针对不同Agent的任务分配和Agent之间的通信模式，如Agent之间的通信限制。有效的Agent编排促进了Agent之间的和谐运作，最小化了冲突和冗余。此外，探索和定义随着多智能体系统规模增长而支配其行为和效率的规模法则仍然是一个重要的研究领域。这些方面突出了需要创新解决方案来优化LLM-MA系统，使其既有效又资源高效。

6.5 评估和基准

我们已经在表2中总结了LLM-MA的常用数据集和基准。这是一个起点，远非全面。我们确定了评估LLM-MA系统和比较其性能的两个重大挑战。首先，正如[Xu等人，2023a]所讨论的，现有研究的大部分集中在评估个别Agent在狭义定义的场景中的理解和推理。这种关注点往往忽视了对多智能体系统至关重要的更广泛和更复杂的新兴行为。其次，在多个研究领域，如科学团队实验操作、经济分析和疾病传播模拟等，缺乏全面的基准。这一差距阻碍了准确评估和基准LLM-MA系统在这些多样化和关键领域中的全部能力。

6.6 应用及其延伸

LLM-MA系统的潜力远远超出了它们目前的应用程序，为金融、教育、医疗保健、环境科学、城市规划等领域的先进计算问题解决提供了巨大的希望。正如我们所讨论的，LLM-MA系统具有解决复杂问题和模拟现实世界各个方面的能力。虽然LLM目前的角色扮演能力可能有局限性，但LLM技术的持续进步预示着一个光明的未来。预计未来将有更复杂的方法、应用程序、数据集和基准专门针对多样化的研究领域。此外，有机会从各种理论角度探索LLM-MA系统，如认知科学[Sumers等人，2023]、符号人工智能、控制论、复杂系统和集体智能。这种多方面的研究方法可以为这个快速发展的领域提供更全面的理解，并在创新应用中做出贡献。

7 结论

基于LLM的多智能体已经展示了令人鼓舞的集体智能，并迅速在研究人员中引起了越来越多的兴趣。在这项调查中，本文首先通过从各个角度定位、区分和连接LLM-MA系统，系统地回顾了LLM-MA系统的发展，包括智能体-环境接口、LLM对智能体的表征、管理智能体通信的策略以及能力获取的范例。文本还总结了LLM-MA在问题解决和世界模拟中的应用。通过突出常用的数据集和基准，并讨论挑战和未来的机遇，希望这项调查能够成为各个研究领域的研究人员的宝贵资源，激发未来的研究探索基于LLM的多智能体的潜力。