欢迎光临散文网 会员登陆 & 注册

由大语言模型驱动的多智能体系统一致性

2023-11-13 09:57 作者:西湖大学空中机器人  | 我要投稿

导读:

本工作展示了大语言模型驱动的智能体在实现零样本多机器人协同自主规划任务中的潜力,并分析了智能体

个数

、智能体

性格

网络拓扑

等对于

多智能体一致性

过程的影响。

由大语言模型驱动的多智能体系统一致性

近几个月,由大语言模型(LLMs)驱动的多智能体系统受到了越来越多的关注。通过多个智能体之间的合作,大语言模型的问题解决能力可以得到显著提高。

我们的工作考虑了多智能体系统中的一个基本问题:

达成一致(consensus seeking)

。即当使用多个大语言模型来解决同一个任务时,它们最初可能有不同的解决方案,但通过持续的谈判,最终可以达到一致。达成一致的问题广泛存在于动物群体和人类社会等集体决策系统中。它也是多机器人系统和联邦学习领域的核心研究问题。

到目前为止,由大语言模型驱动的多智能体系统达成一致的任务仍然

存在许多问题尚待研究

。例如,如果我们使用多个大语言模型来协助我们进行谈判或解决问题,我们需要知道它们之间最终是否可以达成一致。如果可以,需要多长时间,哪些因素会影响最终一致的结果?如果不能,导致这种失败的因素是什么?这些问题的答案对于我们正确利用大语言模型起到了关键作用。

在本工作中,我们考虑了一个由大语言模型驱动的多智能体系统,其中每个智能体的初始状态都以一个数值表示。它们的目标是不断调整自己的状态,以实现相同的最终状态。在整个过程中,每个智能体都以得到其他智能体的状态,并根据这些信息,制定策略来调整自己的状态。详见下图1:

图1 两个智能体的协商过程

基于上述的实验过程,我们得到了一系列有趣的发现。

智能体选择的策略

在没有明确的策略指导下,智能体会选择何种策略来达成一致呢?我们发现,智能体最常用的策略是

平均策略

,即将所有智能体状态的平均值作为自己下一个时刻的状态,如图2所示。

图2 平均值策略

我们也发现智能体偶尔会选择其它策略。例如“

顺从策略

”,即智能体选择将其他智能体的状态作为自身的目标状态。然而,采用这种策略可能导致系统产生震荡现象,如图3所示。

图3 顺从的策略

还有“

固执策略

”,即智能体倾向于期望其他智能体向自己靠拢,而保持自身的原始状态不变,如图4所示。

图4 固执的策略

此外,有时智能体还可能出现

幻觉

,从而作出错误的选择,如图5所示。

图5 幻觉

我们进行了蒙特卡罗仿真来研究最终收敛值的特性,发现: 1)随着智能体数量的增加,聚集值的方差减小,均值逐渐接近初始均值。这在一定程度上说明了,增加智能体个数可以缓解随机性或者幻觉。

2)温度越低,系统稳定性越好;温度越高,系统的离散程度越大。

图6 最终一致值的统计结果

▌性格特征

在前面实验中,我们并没有明确定义智能体的性格特征。我们又进一步明确设置了智能体具有固执或者顺从的性格。 如下图7-a所示,若智能体1性格是固执的,智能体2是顺从的,那么协商过程中智能体2会向智能体1靠近。

图7-a 智能体1是固执的;智能体2是顺从的

如下图7-b所示,若智能体1和2的性格都是顺从的,那么两个智能体的状态会呈现出振荡而无法收敛的现象。

图7-b 智能体1和2都是顺从的

如下图7-c所示,若智能体1和2的性格都是固执的,那么两个智能体可能各自保持自己的状态,无法实现收敛。

图7-c 智能体1和2都是固执的

▌通信拓扑

除了性格因素,我们还探索了多智能体的通信拓扑结构对聚集行为的影响。 首先我们考虑无向图的拓扑连接,此时信息流是双向的。

如图8所示,若三个智能体是全连接的,那么他们会以一个很快的速度实现收敛。

图8 全连接

如图9所示,若不是全连接的,他们仍旧可以收敛,但是收敛速度会变慢。

图9 非全连接

如果拓扑连接是有向的,即此时信息流是单向的。 下图10中信息从智能体1流向智能体2和3。最终,智能体2和3将趋向于智能体1的状态。

图10 领导者-跟随者结构

下图11中的拓扑结构是一种链式连接,智能体1的信息流向3,智能体3的信息流向2,最终收敛值也由智能体1决定。

图11 链式结构

应用于多机器人聚集

最后,我们将任务扩展到了二维空间中多机器人聚集的任务。此时每个智能体对应于一个移动机器人,这些机器人需要从不同的起始位置出发,需要聚集到同一位置。

动图1 机器人的轨迹

机器人的轨迹如动图1所示。可以看到,从不同初始位置出发的机器人最终成功聚集到了同一个位置。 系统的架构如下图12所示,每个机器人都配备有一个由大语言模型驱动的规划器和一个控制器。规划器根据所有机器人的当前状态输出每个机器人的目标位置。随后,控制器根据规划器生成的目标位置发出相应的控制命令。

图12 系统框架

每个机器人的规划位置和实际位置如下图13所示。可以看到,基于大语言模型的规划器输出了不连续的目标位置,而控制器能够追踪这些目标位置。

图13 规划位置与实际位置

值得指出的是,

多机器人聚集的任务也能使用传统协同控制方法实现,但是本文的工作揭示了类似这样的协同任务可以通过简单的自然语言的指令直接利用大语言模型实现,省去了复杂的设计过程,提升了系统的自主程度,展现了良好的应用潜力。

感谢您的阅读

更多详情请参考论文链接

https://arxiv.org/pdf/2310.20151.pdf

 作者  |  陈华奔 季文康 徐璐峰 赵世钰

申请文章授权请联系后台运营人员

由大语言模型驱动的多智能体系统一致性的评论 (共 条)

分享到微博请遵守国家法律