欢迎光临散文网 会员登陆 & 注册

关于数据标注那些事

2021-12-05 22:10 作者:十指环  | 我要投稿
  1. 什么是数据标注?

    参见

    https://cloud.tencent.com/developer/news/201244

    https://zhuanlan.zhihu.com/p/112962203

  2. 数据标注标准

    当前已出台的数据标注相关的标准有《智能网联汽车场景数据图像标注要求与方法》

    https://mp.weixin.qq.com/s/JjjeG9GlbfSs9en-R2xqHw

    相关企业可以参照该标准开展相关工作

3. 数据标注流程

  

数据标注流程

说明:

数据采集和数据清洗需要其他工具和方法支撑,在此不做说明。

数据标注工作的主要工作流程:

1)确认数据标注标准

     此处提到的数据标注标准,不用于《智能网联汽车场景数据图像标注要求与方法》,指企业实际项目中的标注标准,参考自《智能网联汽车场景数据图像标注要求与方法》

     主要内容包括:

    标注目标类型,例如行人 PD/车辆 VD。。。

    目标标注范围,  例如有效区域/无效区域/临界区域

     标注目标框要求,例如框包含对象的全部,框尽量贴合对象边缘,类别不要错,不要残留误检框,标注高25以上目标等

     特殊目标标注方法,例如:推车的人,只标注推车的人,类别是行人

      

标注的行人

2)确认数据标注工具

      按照数据标注工作方法分自动标注工具;手动标注工具和半自动标注工具。

      前期一般都采用手动标注工具,等方法成熟后引入半自动或全自动标注工具。

      目前有很多模型支持自动标注工具,但是目前的自动标注工具,还存在漏标/误标的情况,需要人工再次补标,即半自动标注,随着技术的发展,相信在不久的将来可以实现全自动标注的,不需要人工再次补标,大大节省人力。

3)实施数据标注

      参见数据标注工具的分类,数据标注的工作也分为手动标注;半自动标注和全自动标注。

当前大部分企业处于半自动标注阶段,即自动工具标注完后人工再次补标,修正自动标注出现的漏标/误标问题。

     对一个熟练的标注员来说,全手工语义标注,一天大概可以标注100,半自动标注,一天大概可以完成400。1万张图片,全手工标注,需要人力100天/人, 半自动标注,需要人力25天/人;AI 需要大量的数据,其市场之大可想而知,怪不得涌现出那么多的数据标注公司了。

4)验收标注数据

     数据是AI算法的血液,如果数据质量不过关,会影响到AI算法的效果,因此对数据质量的把关是很重要的。

     目前数据的验收,主要靠有经验的数据标注人员进行检查,由于数据量大,数据验收也费时不少,如何高效的验收数据是需要继续研究的;

     另外,数据的质量是否达标,可以参考《智能网联汽车场景数据图像标注要求与方法》中的评估方法:

数据质量评估

4. 数据集管理

1)数据采集需求需要提前讨论确认,采集完需要做好维护管理,便于其他项目复用。
   数据集场景可按照环境要求,道路类型,目标/障碍物类型,车速,采集数据要求,
   采集步骤或要求进行填写。

2)数据采集方案和数据标注标准需要提前讨论确定

3)数据集分成训练集,验证集和测试集,训练集又分成正样本和负样本
  (比例:6:2:2, 训练集和验证集,最好采用交叉验证的方式分配)

4)数据标注比较耗时耗力,可以引入工具进行自动标注,然后人工验收,补标

5)可以使用数据增强技术,增加数据样本量

    通常,比较成功的神经网络需要大量的参数,许多的神经网络的参数都是数以百万计,

而使得这些参数可以正确工作则需要大量的数据进行训练,而实践情况中我们没有那么多的数据。
    此时,可以用数据增强技术解决:
     1)增加训练的数据量,提供模型的泛化能力
     2)增加噪声数据,提升模型的鲁棒性
     数据增强技术包括:

详见:
https://mp.weixin.qq.com/s/gZcmsvhD8D6I40n5hJwFow
http://www.elecfans.com/rengongzhineng/1097259.html


关于数据标注那些事的评论 (共 条)

分享到微博请遵守国家法律