ModaHub魔搭社区:AI Agent在数字卡牌游戏场景下的AgentBench基准测试

近日,来自清华大学、俄亥俄州立大学和加州大学伯克利分校的研究者设计了一个测试工具——AgentBench,用于评估LLM在多维度开放式生成环境中的推理能力和决策能力。研究者对25个LLM进行了全面评估,包括基于API的商业模型和开源模型。

他们发现,顶级商业LLM在复杂环境中表现出强大的能力,像GPT-4这样的顶级模型能够处理宽泛的现实任务,明显优于开源模型。研究者还表示,AgentBench是一个多维动态基准测试,目前由8个不同的测试场景组成,未来将覆盖更广的范围,更深入地对LLM进行系统性评估。

▷图源:arXiv官网

AgentBench官网:www.agentbench.com.cn
▷图注:AgentBench上不同LLM的表现。虽然LLM开始表现出其愈发成熟的能力,但模型之间的差距很大,要实现实际应用仍然任重而道远。左图,几种常见的LLM在AgentBench提供的8种场景中的表现。右图,AgentBench在8种场景中的总得分。虚线表示开源LLM(绿色)与基于API的LLM(橙色)的平均得分。图源:来自论文
AgentBench评估哪些场景?
AgentBench包含8个不同的环境,其中5个是首次使用的环境:操作系统、数据库、知识图谱、数字卡牌游戏、横向思维谜题(即所谓的“海龟汤”游戏)。其余3个环境是根据已发布的数据集重新编译的,包括家务、网购、网络浏览。
上述所有数据集都经过设计与调整,来模拟交互式环境,使纯文本LLM可以作为自主的智能体运行。此外,AgentBench可以系统地评估LLM的核心能力,包括执行指令、编码、获取知识和逻辑推理能力。

▷图注:AgentBench基本构想示意图。图源:来自论文
与现有的其他基准测试相比,AgentBench专注于通过思想链(Chain-of-Thought,CoT)对LLM进行以实际应用为导向的评估。而这些数据集大多也代表了LLM未来可能的应用前景与发展方向。
4. 数字卡牌游戏
游戏,尤其是那些需要策略和规划的游戏,可以作为智能体开发的模拟环境。然而,之前研究中广泛使用的是基于文本的游戏,其主要侧重点在于基础常识。最近的一些研究转而采用现实世界的游戏(例如,MineDojo,一个基于游戏Minecraft的开放式通用人工智能体学习平台)作为环境,但大多数需要超出现有LLM的多模式功能。相反,数字卡牌游戏(例如炉石传说)则是纯文本 LLM 评估的理想选择。数字卡牌游戏通常涉及丰富的卡牌文字描述、回合制比赛以及深思熟虑的获胜策略,这些都在考验模型对游戏规则的理解、操作的逻辑性,以及根据当前情况和过去的游戏经验形成策略决策的能力。在这项工作中,研究者采用了2021年清华大学智能体大赛(THUAC)中使用的简化数字卡牌游戏系统(鱼洋陷役,Aquawar),来评估LLM智能体。在“鱼洋陷役”中,智能体作为玩家,管理一支具有不同天赋的鱼组成的队伍,以回合制形式与另一队玩家(由基准智能体控制)作战。
研究者的评估指标包括对游戏规则的理解,如完成率和平均非法行为次数,也包括更高级别的战略指标,如击败敌方鱼的平均数量、造成的总伤害,还包括最重要的指标——游戏获胜率。

▷图注:AgentBench场景示例。图源:来自论文
数字卡牌游戏
任务:“在鱼洋陷役中使用四张‘鱼’卡打败其他玩家。”
动作空间:四张“鱼”卡和断言
观测结果:战斗过程、“鱼”的状态