贾喜顺数据治理实战
从几百个大数据项目提炼浓缩而成 快速了解数据治理全流程
数据接入标准
目前企业主要的数据分布在流量日志,关系型数据/非关系型数据库,第三方的一些数据,例如爬虫。
流量日志:首先已经要制定埋点规范,如果有埋点系统来约束整个埋点生命周期当然最好,如果没有至少了做到有文档维护,规范制定了还需要强制执行,埋点完成以后,要进行埋点正确性校验,最好能做到各个环节有负责人签字确认。埋点往往是很多企业的痛点,不规范的埋点,会导致后期修改起来很麻烦,不好统一维护,并且会给模型层兼容带来很大的挑战,并且从问题的根因出发,发现埋点问题不应该模型层来兼容,而是应该推动埋点去改正。埋点其实是一个很复杂的工程,本文不做详细描述。
关系型数据/非关系型数据库:企业会建立许多独立,但是之间又有联系的业务系统,就拿电商来说,有交易,物流,售后,供应链,商家,会员,品牌等诸多的业务系统,当一个公司发展到一定程度,甚至会出现多个领域业务的拓展。那么这一类数据如何接入到大数据里面呢,一般来讲现在大数据仓库都是使用hive搭建,当然底层还是用HDFS来进行存储。其实有许多接入数据的工具,类似于sqoop,dataX,或者公司自己自研的工具。不管用什么工具,都要做到接入数据的规范。比如说:统一工具,统一明细层命名,统一多少数据量是全量,多少是增量等,一般在数据接入层,在数据模型设计当中会单独设立一层stage(缓冲层),再上层才是ods层,stage层主要作用可以用于修复ods层数据,增量stage合并ods层数据成为全量数据等作用。可以根据自己的业务特点,制定适用的标准。
第三方数据:一般多为一些非结构化数据,处理方法也有很多种,暂不详述。