关于数据标注那些事
什么是数据标注?
参见
https://cloud.tencent.com/developer/news/201244
https://zhuanlan.zhihu.com/p/112962203
数据标注标准
当前已出台的数据标注相关的标准有《智能网联汽车场景数据图像标注要求与方法》
https://mp.weixin.qq.com/s/JjjeG9GlbfSs9en-R2xqHw
相关企业可以参照该标准开展相关工作
3. 数据标注流程

说明:
数据采集和数据清洗需要其他工具和方法支撑,在此不做说明。
数据标注工作的主要工作流程:
1)确认数据标注标准
此处提到的数据标注标准,不用于《智能网联汽车场景数据图像标注要求与方法》,指企业实际项目中的标注标准,参考自《智能网联汽车场景数据图像标注要求与方法》
主要内容包括:
标注目标类型,例如行人 PD/车辆 VD。。。
目标标注范围, 例如有效区域/无效区域/临界区域
标注目标框要求,例如框包含对象的全部,框尽量贴合对象边缘,类别不要错,不要残留误检框,标注高25以上目标等
特殊目标标注方法,例如:推车的人,只标注推车的人,类别是行人

2)确认数据标注工具
按照数据标注工作方法分自动标注工具;手动标注工具和半自动标注工具。
前期一般都采用手动标注工具,等方法成熟后引入半自动或全自动标注工具。
目前有很多模型支持自动标注工具,但是目前的自动标注工具,还存在漏标/误标的情况,需要人工再次补标,即半自动标注,随着技术的发展,相信在不久的将来可以实现全自动标注的,不需要人工再次补标,大大节省人力。
3)实施数据标注
参见数据标注工具的分类,数据标注的工作也分为手动标注;半自动标注和全自动标注。
当前大部分企业处于半自动标注阶段,即自动工具标注完后人工再次补标,修正自动标注出现的漏标/误标问题。
对一个熟练的标注员来说,全手工语义标注,一天大概可以标注100,半自动标注,一天大概可以完成400。1万张图片,全手工标注,需要人力100天/人, 半自动标注,需要人力25天/人;AI 需要大量的数据,其市场之大可想而知,怪不得涌现出那么多的数据标注公司了。
4)验收标注数据
数据是AI算法的血液,如果数据质量不过关,会影响到AI算法的效果,因此对数据质量的把关是很重要的。
目前数据的验收,主要靠有经验的数据标注人员进行检查,由于数据量大,数据验收也费时不少,如何高效的验收数据是需要继续研究的;
另外,数据的质量是否达标,可以参考《智能网联汽车场景数据图像标注要求与方法》中的评估方法:

4. 数据集管理
1)数据采集需求需要提前讨论确认,采集完需要做好维护管理,便于其他项目复用。
数据集场景可按照环境要求,道路类型,目标/障碍物类型,车速,采集数据要求,
采集步骤或要求进行填写。

2)数据采集方案和数据标注标准需要提前讨论确定
3)数据集分成训练集,验证集和测试集,训练集又分成正样本和负样本
(比例:6:2:2, 训练集和验证集,最好采用交叉验证的方式分配)
4)数据标注比较耗时耗力,可以引入工具进行自动标注,然后人工验收,补标
5)可以使用数据增强技术,增加数据样本量
通常,比较成功的神经网络需要大量的参数,许多的神经网络的参数都是数以百万计,
而使得这些参数可以正确工作则需要大量的数据进行训练,而实践情况中我们没有那么多的数据。
此时,可以用数据增强技术解决:
1)增加训练的数据量,提供模型的泛化能力
2)增加噪声数据,提升模型的鲁棒性
数据增强技术包括:

详见:
https://mp.weixin.qq.com/s/gZcmsvhD8D6I40n5hJwFow
http://www.elecfans.com/rengongzhineng/1097259.html

