LangSmith 功能上新 — 数据标注队列
LangSmith 最近推出了数据标注队列(Data Annotation Queue)功能,以更好地支持开发者进行数据标注,今天我们就来介绍一下这个新功能以及它如何辅助开发者进行数据标注。
在开发 LLM 应用时,获得高质量的标注数据对于提升模型性能至关重要。数据标注流程通常包括以下步骤:
数据采集:从不同渠道收集与目标任务相关的原始文本数据;
数据清洗:进行格式规范化,处理异常数据,删除无效样本;
人工标注:对采集到的样本进行标签、分类等人工标注工作;这一环节往往最耗时耗力;
数据质检:针对人工标注结果进行评估和错误修正,确保标注质量;
数据加载:将标注后的数据集导入到模型训练和评估流水线中。
LangSmith 的数据标注队列功能正是为了更好地支持上面的第 3 步人工标注环节。开发者可以直接在 LangSmith 中,根据不同过滤条件从运行日志页面中提取相关数据点,加入标注队列待处理。

在标注队列视图中,开发者可以清晰地看到每一个数据点的完整内容。针对每个数据点,开发者可以进行两类关键操作:1)添加标签或注释,比如将其标记为好样本或坏样本;2)将数据点(Datapoint)添加到数据集(Dataset)中,在添加前可以进行编辑,比如修正答案。

LangSmith 的数据标注队列为开发者提供了一个集成化的平台,可以在一个界面完成标注数据的提取、处理和标注,从而提升标注效率。开发者可以快速构建起适合目标任务的高质量训练数据。
总之,LangSmith 通过数据标注队列功能,将标注的工作流程嵌入到了 LLM 应用开发流程中,极大地降低了标注的门槛,让开发者更容易获得用于提升模型性能的定制化标注数据。这对基于数据不断优化 LLM 应用的能力提升来说是至关重要的。

