ModaHub魔搭社区:AI Agent在数据库场景下的AgentBench基准测试

近日,来自清华大学、俄亥俄州立大学和加州大学伯克利分校的研究者设计了一个测试工具——AgentBench,用于评估LLM在多维度开放式生成环境中的推理能力和决策能力。研究者对25个LLM进行了全面评估,包括基于API的商业模型和开源模型。

他们发现,顶级商业LLM在复杂环境中表现出强大的能力,像GPT-4这样的顶级模型能够处理宽泛的现实任务,明显优于开源模型。研究者还表示,AgentBench是一个多维动态基准测试,目前由8个不同的测试场景组成,未来将覆盖更广的范围,更深入地对LLM进行系统性评估。

▷图源:arXiv官网

AgentBench官网:www.agentbench.com.cn
▷图注:AgentBench上不同LLM的表现。虽然LLM开始表现出其愈发成熟的能力,但模型之间的差距很大,要实现实际应用仍然任重而道远。左图,几种常见的LLM在AgentBench提供的8种场景中的表现。右图,AgentBench在8种场景中的总得分。虚线表示开源LLM(绿色)与基于API的LLM(橙色)的平均得分。图源:来自论文
AgentBench评估哪些场景?
AgentBench包含8个不同的环境,其中5个是首次使用的环境:操作系统、数据库、知识图谱、数字卡牌游戏、横向思维谜题(即所谓的“海龟汤”游戏)。其余3个环境是根据已发布的数据集重新编译的,包括家务、网购、网络浏览。
上述所有数据集都经过设计与调整,来模拟交互式环境,使纯文本LLM可以作为自主的智能体运行。此外,AgentBench可以系统地评估LLM的核心能力,包括执行指令、编码、获取知识和逻辑推理能力。

▷图注:AgentBench基本构想示意图。图源:来自论文
与现有的其他基准测试相比,AgentBench专注于通过思想链(Chain-of-Thought,CoT)对LLM进行以实际应用为导向的评估。而这些数据集大多也代表了LLM未来可能的应用前景与发展方向。
2.数据库
数据库是另一类典型的系统,很多用户都有利用人工智能自动与之交互的需求。因此,检查LLM通过SQL操作真实数据库的能力至关重要。先前的研究非常重视SQL和自然语言之间的转换,或者回答给定单个小型数据库表格中的问题。然而,在AgentBench中,研究者则是在真实的SQL接口和数据库上评估LLM,来模拟现实世界中的场景。
研究者通过合并几个已有的数据库(WikiSQL、WikiTableQuestions、SQA、HybridaQA和FeTaQA)来获取查询(query)及数据库相关信息,从而确保指令和数据的多样性。为了进一步丰富数据集并避免发生泄漏(leakage),研究者使用gpt-3.5-turbo来执行数据增强。在提供表头信息和原始行后,gpt-3.5-turbo会新生成10行数据。使用名称、表头信息和一些SQL示例,研究者要求gpt-3.5-turbo生成5个额外的SQL查询。然后,将获取的SQL语句依此输入gpt-3.5-turbo中,并要求其在不改变原始含义的基础上重写这些语句。最终的数据集包含1599个条目,包含3种基本的数据库操作:选择、插入或更新。研究者最终统计LLM完成指令的成功率。总体成功率是上述3种操作成功率的平均值。

▷图注:AgentBench场景示例。图源:来自论文
数据库
任务:已知奥运奖牌表,提问“美国的奖牌总数是多少?”
动作空间:任何有效的SQL命令
观测结果:MySQL命令行界面输出