欢迎光临散文网 会员登陆 & 注册

ModaHub魔搭社区:AI Agent在 知识图谱场景下的AgentBench基准测试

2023-08-19 10:40 作者:bili_3493262857865840  | 我要投稿

近日,来自清华大学、俄亥俄州立大学和加州大学伯克利分校的研究者设计了一个测试工具——AgentBench,用于评估LLM在多维度开放式生成环境中的推理能力和决策能力。研究者对25个LLM进行了全面评估,包括基于API的商业模型和开源模型。

他们发现,顶级商业LLM在复杂环境中表现出强大的能力,像GPT-4这样的顶级模型能够处理宽泛的现实任务,明显优于开源模型。研究者还表示,AgentBench是一个多维动态基准测试,目前由8个不同的测试场景组成,未来将覆盖更广的范围,更深入地对LLM进行系统性评估。

图源:arXiv官网

AgentBench官网:www.agentbench.com.cn

图注:AgentBench上不同LLM的表现。虽然LLM开始表现出其愈发成熟的能力,但模型之间的差距很大,要实现实际应用仍然任重而道远。左图,几种常见的LLM在AgentBench提供的8种场景中的表现。右图,AgentBench在8种场景中的总得分。虚线表示开源LLM(绿色)与基于API的LLM(橙色)的平均得分。图源:来自论文

AgentBench评估哪些场景?

AgentBench包含8个不同的环境,其中5个是首次使用的环境:操作系统、数据库、知识图谱、数字卡牌游戏、横向思维谜题(即所谓的“海龟汤”游戏)。其余3个环境是根据已发布的数据集重新编译的,包括家务、网购、网络浏览。

上述所有数据集都经过设计与调整,来模拟交互式环境,使纯文本LLM可以作为自主的智能体运行。此外,AgentBench可以系统地评估LLM的核心能力,包括执行指令、编码、获取知识和逻辑推理能力。

图注:AgentBench基本构想示意图。图源:来自论文

与现有的其他基准测试相比,AgentBench专注于通过思想链(Chain-of-Thought,CoT)对LLM进行以实际应用为导向的评估。而这些数据集大多也代表了LLM未来可能的应用前景与发展方向。

3. 知识图谱

智能体需要具备广泛的技能才能处理知识图谱。首先,它需要理解自然语言及其复杂和微妙之处。它还应该能够将复杂的任务分解为更简单、更易于管理的模块。此外,智能体还需要有能力制定计划、制定策略并根据需要进行调整。现在的知识图谱通常规模巨大,致使智能体无法完全感知整个图谱。在这种部分感知的环境下运行,就要求智能体能够利用不完整的信息做出决策并管理不确定性。这就更加需要智能体在决策中表现出足够的灵活性和适应性。考虑到上述挑战,知识图谱可以作为代表性的测试场来评估人工智能体在复杂的现实环境中的决策能力。

为了衡量LLM的决策能力,特别是其在长期规划方面的熟练程度,研究者精心编制了一个数据集,该数据集源自FREEBASE上现有的知识库问答(KBQA)数据集,藉此为LLM配置了一系列知识图谱查询工具。通过借助文献(参考文献18)中给出的方法,研究者可以为每个问题建立相对应的最佳应用工具序列。同时,为了保证任务的高难度,研究者仅保留那些至少需要调用5个工具的问题,最终积累了一个包含1663个问题的数据集,用以测试智能体。

研究者使用F1分数作为主要评估指标,通过比较模型的预测答案与标准答案得出:

除了F1分数外,研究者还评估了结果的精确匹配率,以及模型生成的动作序列的可执行性。如果模型的动作序列在执行时可产生任意一组答案,则其可执行性得分为1.0;如果无法给出答案,则得分为0。

图注:AgentBench场景示例。图源:来自论文

知识图谱

任务:“查找与飓风玛丽类似并影响北美东部的热带气旋。”

动作空间:基本知识图谱查询工具

观测结果:查询结果


ModaHub魔搭社区:AI Agent在 知识图谱场景下的AgentBench基准测试的评论 (共 条)

分享到微博请遵守国家法律