欢迎光临散文网 会员登陆 & 注册

LangSmith 功能上新 — 测试运行结果比较

2023-10-18 12:01 作者:沧海九粟  | 我要投稿

在构建 LLM(大语言模型)应用时,如何评估不同的提示、链路或代理变化对系统产生的影响,仍然是一个非常具有挑战性的问题。理想情况下,我们希望能够采用完全可靠的自动评估方法,但目前自动评估方法仍然面临诸多限制,不够成熟和可靠。因此,研究人员和工程师通常倾向于手动检查大量数据,以获得对系统的更直观的理解。

LangSmith 作为 LLM 应用开发的伴生工具,其目标就是让开发者能够更高效地评估系统的改进进展。在最初发布时,LangSmith 就已经支持了对测试运行进行评分,包括基于 LLM 辅助的自动评分方法。但是每个测试运行之间还是相对孤立的。为了能够更好地手动检查数据,用户通常不仅需要对单次运行进行检查,更需要对不同运行之间的对比。

为此,LangSmith 推出了测试运行比较功能。该功能可以让用户选择两个或多个测试运行,进入比较视图。在该视图中,用户可以清晰地看到不同运行在同一组输入下的输出结果。输出旁边还有评分结果、耗时等重要运行指标。

在测试集视图中选择要比较的测试运行结果
在测试运行比较视图中查看测试运行结果(集)

测试运行比较视图还提供了查看运行输出详情的侧边栏。用户可以点击任意一个数据点,在侧边栏中查看该数据点不同运行结果的完整信息,并可以通过上下翻页快速在各个运行结果之间切换。这种设计使得用户可以非常方便地检视某个特定输入在不同运行下的所有输出。

在测试运行比较视图中查看单一数据点的运行结果

此外,测试运行比较视图支持按各列进行过滤 —— 用户可以基于任意条件筛选出自己关注的行。结合错误输出过滤和正确输出过滤,用户可以快速定位出不同运行结果存在明显差异的输入,从而帮助定位改进的方向。

测试运行比较视图支持按各列进行过滤

总体来说,LangSmith 新推出的测试运行比较功能让开发者可以更直观地对比不同运行情况下的系统产出,手动检视两次运行之间的差异,获得对系统改进更深入的理解。相比单独的自动评分结果,这样的手动比较可以提供更丰富和可靠的评估分析。这对于迭代开发 LLM 应用,定位需要优化的方向非常关键。

当前,LangSmith 还在内测阶段,但已经展示了强大的潜力。测试运行比较只是其中一个例子,它极大地降低了手动评估不同运行的门槛。随着其不断丰富的工具集和功能,以及良好的用户体验设计,LangSmith 正在成为 LLM 应用开发过程中不可或缺的工具。它为开发者提供了宝贵的洞察力,可以更高效地构建和迭代优化复杂的LLM系统。


LangSmith 功能上新 — 测试运行结果比较的评论 (共 条)

分享到微博请遵守国家法律