基本信息

作者:清华、北邮和微信团队

期刊:arXiv

时间:21 Aug 2023

论文:https://arxiv.org/abs/2308.10848

代码:GitHub - OpenBMB/AgentVerse: 🤖 AgentVerse 🪐 is designed to facilitate the deployment of multiple LLM-based agents in various applications, which primarily provides two frameworks: task-solving and simulation

一句话介绍:提出了一个多智能体框架 AGENTVERSE,它可以协作、动态地调整其组成,成为一个大于各部分之和的系统。

研究动机

  1. 现实场景中,往往需要个体之间的合作来提高任务完成的效率和效果。人类群体内部的多样性引入了不同的观点,从而提高了群体在不同任务中的表现。最近研究的并行结果表明,为自主代理指定特定角色,类似于招募专家组建团队,可以增强其效率
  2. 多智能体组可以增强协作解决问题过程中的决策能力。尽管这些研究探索了智能体协作的潜力,但它们的静态群体组成(群体内的智能体身份和能力保持固定)阻碍了它们适应不断变化的挑战。当前为自主代理分配角色描述的方法主要依赖于人类直觉和先验知识,需要基于任务理解进行手动分配。特别是在面对多样化且复杂的问题环境时,可扩展性仍然不明确。

研究问题

模拟人类群体解决问题的过程,并允许根据当前问题解决的进度动态调整群体成员。

方法

  1. 将群体解决问题的过程分为四个关键步骤
  1. 专家招募--招募模块根据当前问题解决进度调整专家代理
  2. 协作决策--招募的代理进行协作讨论,旨在制定解决所提出问题的策略。一旦达成共识,就会提出建议的行动。
  3. 动作执行--代理与环境交互以执行动作
  4. 评估——执行行动后,该模块评估当前状态与期望目标之间的差异。如果当前状态达不到预期,则会向第一阶段发送反馈奖励,并动态调整小组的构成,以利于下一轮的协作。

  1. AgentVerse 框架

该框架由四个关键阶段组成:专家招募,协作决策,操作执行和评估,整个过程可以建模为马尔可夫决策过程(MDP),其特征为元组(S,A,T,R,G)。这包括自主代理和环境状态空间S,解决方案和行动空间A,转换函数T:SxA->S,奖励函数R和目标空间G。

2.1 专家招募

专家招募阶段决定了多智能体群体的构成,是决定群体能力上限的重要模块。

AGENTVERSE 采用自动化的方式来招募专家,目的是增强配置代理的可扩展性。对于给定的目标 g ∈ G,特定的自主代理 M r被指定为 “招聘人员”,类似于人力资源经理。M r不依赖预定义的专家描述,而是根据当前目标g动态生成一组专家描述。不同的代理根据这些不同的专家描述进行提示,然后针对给定的目标g形成一个专家组 M = M r ( g ) 。多智能体组的组成将根据评估阶段的反馈进行动态调整。这使得框架能够根据当前状态(收到的奖励)采用最有效的多智能体组,以便在后续回合中做出更好的决策。

2.2 协同决策

1)横向沟通:每个智能体积极共享并细化其决策。这种民主的沟通结构鼓励代理人之间的相互理解和协作。来自代理的集体见解被组合起来形成当前回合的群体决策。在需要创造性想法或需要大量协调的场景中,例如头脑风暴、咨询或合作游戏,横向沟通可能是更实际的选择。

2)垂直沟通:特点是职责分工,一个代理提出初始决策,其余的代理充当评审者,对求解器的提案提供反馈。根据反馈,求解器随后完善决策。这种细化机制会迭代重复,直到所有评审者就求解器的决策达成共识,或者直到该过程耗尽其最大迭代次数。在需要针对特定​​目标迭代完善决策的场景中,例如软件开发,垂直沟通将是更好的选择。

2.3动作执行

根据具体的实现,有些代理可能不执行任何操作

2.4 评价

奖励反馈机制R可以由人类定义(在人机循环设置中),也可以由自动反馈模型定义,具体取决于实现。奖励反馈机制 R评估当前状态Snew与期望目标g之间的差距,并给口头反馈r=R(Snew,g),解释为什么当前状态仍然不令人满意并提供建设性建议讨论下一轮如何改进。

结论和分析

  1. 定量分析

模型:由两种不同的 LLM 提供支持:GPT-3.5-Turbo-0613 和 GPT-4-0613。

数据集和评估指标:

  1. 对话:第一个数据集是对话响应数据集FED,其中给定多轮聊天历史记录,代理需要生成下一次聊天。利用 GPT-4 作为评估器,对模型生成的响应与人类编写的响应进行评分,并报告模型的获胜率。第二个数据集是 Commongen-Challenge,,这是一个约束生成数据集,其中给定 20 个概念,代理需要生成一个连贯且语法正确的段落,其中包含尽可能多的概念,度量所涵盖概率的平均百分比。
  2. 数字计算:MGSM的英语子集(它是 GSM-8k 的子集),这是一个包含小学数学问题的数据集,度量正确答案的百分比。
  3. 逻辑推理:利用 BigBench 的逻辑网格谜题任务,其中包含需要多步骤逻辑推理的逻辑问题,度量准确性。
  4. 编码:利用Humaneval(一个代码完成数据集),度量Pass@1 指标

无论使用 GPT-3.5-Turbo 还是 GPT-4,多代理组的性能始终优于单个代理(垂直代理)。在初步实验中,我们观察到 GPT-3.5-Turbo 很难在逻辑网格谜题数据集上给出正确的推理结果,因此分析中(作者)省略了 GPT-3.5-Turbo 的逻辑推理结果。

  1. 不同通信结构

与垂直通信相比,水平通信显然不能促进数学计算任务 (MGSM) 的多智能体组内的有效决策。

分析:对代理通信记录的仔细分析表明,通信架构对于塑造决策结果至关重要。在水平通信中,代理以顺序方式进行通信。有时,代理人可能会提出有缺陷的解决方案或质疑前任代理人的正确主张。随后的特工往往不会纠正这种疏忽,而是遵循错误的建议。因此,多智能体组的性能落后于单个智能体的性能。相反,在垂直沟通中,代理同行同时提供对主要代理的初步解决方案的反馈。尽管某些代理可能会提供有缺陷的反馈,但大多数人的建设性批评通常会减轻这些错误,从而使主要代理能够保留其准确的解决方案。

然而,这并不意味着横向沟通本质上效率较低。结果表明,对于需要精确答案的任务,垂直沟通可能更合适。在咨询或多人合作游戏等背景下,不同的代理应该给出不同的解决方案或执行不同的操作,横向通信是更自然的选择。

  1. 案例研究

定量实验表明,在执行特定基准任务时,AGENTVERSE 组装的多智能体组可以有效优于单智能体组。然而,它并不能保证 AGENTVERSE 在更复杂和现实世界任务上的实用性。

1)软件开发

对多代理和单代理生成的应用程序进行比较分析,得出一些关键的观察结果。两个版本都成功实现了其核心功能:执行计算。然而,多智能体生产的计算器呈现出更加用户友好的界面,具有颜色区分、键盘输入和退格功能,以增强可用性。多智能体团队生成的代码比单个智能体生成的代码具有更好的异常处理过程。

2)咨询

虽然对多智能体和单智能体系统的初始输出进行直接比较可能表明后者涵盖的范围更广,但更深入的检查揭示了深度上的差异。尽管单一代理在第 0 轮提供了更长的考虑因素列表,但它往往很肤浅。

  1. 游戏玩法

突显了智能体在面临意外挑战时的稳健性和灵活性。

将观察到的突发社会行为分为两个主要方面。第一个包括积极的行为,例如志愿者行为和监管行为,这些行为往往会提高多主体群体的有效性。另一方面,我们也识别出一些有害行为,例如破坏性行为,这可能会带来潜在的风险。

限制和未来工作

  1. 更强大的代理
  2. 更具挑战性的场景
  3. 代理之间的多方通信
  4. 多智能体的效率
  5. 利用紧急行为并缓解安全问题
Logo

瓜分20万奖金 获得内推名额 丰厚实物奖励 易参与易上手

更多推荐