欢迎光临散文网 会员登陆 & 注册

阿B的数据治理运营关键指标体系实践

2023-06-17 11:54 作者:酷口家读书会  | 我要投稿


那首先讲一下我们的数据治理

项目的一个整体的一个背景

治理的背景我想大家就是应该都大同小异嘛

就随着业务的一个扩张

然后数据量数据有爆发式的增长

那带来的就是嗯资源的使用啊

数据质量的控制

安全等等的各式各样的一个问题

而且就是这些问题

他们通常类目比较繁杂

就可能一瞬间各种各样的问题都会爆发出来

五花八门

千头万绪的

然后而且一般来说呢

他们会有比较巨大的一个历史存量

就感觉会让人有一种一眼望不到头的那种感觉

就这个时候作为数据工作者

那我们理所当然就要用我们最擅长的数据化运

营来解决这些成年顽疾

这边其实我想先介绍一下

数据治理到底是一个什么事儿

因为这四个字其实很多人都在讲嘛

那数据治理呢

其实它是数据管理框架中

非常重要的一个组成部分

那就将它称之为是骨干部分

其实也不为过

数据治理是数据管理的计划者

监督者

推进者

他是促使我们按标准和最佳实践来管理数据

那我们引入数据这数据化的方法来做数据治理

需要解决数据治理中的由谁做什么

为什么做

怎么做

做到什么程度

这样的这些问题

既然要做数据化运营

首先得要先搭好我们的治理主题的整体的一个

数据框架嘛

那么这里呢是我们的整体的一个

比较简单的一个框架图

然后我们将治理所用到的数据

会划分为用户模型

开发运维

血缘安全

资产操作等这些的一些数据域

那他他们相关的数据源

其实都是从这些地方来的

并且就经由这些数据来支撑起我们上上层的嗯

质量主题

成本主题

用数主题等等的这些各大主题的一个指标体系

那在网上会有一些

就是我们用于数据治理的一些简单的啊

公司内部的一些工具

在进入指标体系的介绍之前

想先给大家看一下

数据治理的指标建设有哪些视角

那作为管理框架中的骨干

数据治理要必须是要定义好数据管理中的标准

责任方法

工具以及价值

这里面其实这五大块定义

每一块都有属于自己的一套指标构建的模式

不过我们今天肯定讲不了这么多

所以我们今天的重点是在于实施的方法

这个视角好啦

我们快速进入主题

这里先抛出一个概念图

治理治标体

治理指标体系呢自上而下分为治理目标

治理策略以及治理那个策略评估这三个部分

其中在评估这里有两类指标

一类叫做实施命中指标

一类叫做效果评估指标

这两类指标具体是什么意思

后面会具体的讲到

然后这个模型就是我们的实施的方法

这个模型这个模型的一个重点是在于

要将治理策略与策略评估

这两点融合成一个可持续运营的大循环

那我们来看一看

这个模型是如何应用到我们的治理主题中来的

首先我们要确定一个治理的目标

注意啊这个目标得是一个有限周期内的目标

比如说啊

我们这我们本季度存储要下降500个pb

那如果你只说我要下降500个pb

但是我没有说啊

我们什么时候我要完成

那这样其实你就做个几年也算做嘛

慢慢做就是了

也用不着搞那么复杂的指标体系

去搞什么运营了

所以它应该是一个有限有限周期内的一个目标

那同时呢

这个治理目标是要以你是要是一个明确的度量

而不是一个抽象的概念

就是不要说我们本季度的目标是

不发生重大事故

而是定义好我们本季度目标是p0 级的

事故是零

因为如果单纯只是啊本季度不发生重大事故

那到底怎么算是重大事故呢

如果我们的老板早上起床的时候

没有看到今天的周报

没有看到一些他想看的看板

那这算不算一个重大事故呢

好那么我们先把一个周期内的目标去定好

接着再来想策策略

治理的策略应该怎么定

治理那个策略制定的方向呢

主要有两个步骤

先是要确定策略的方向

再去探索每一个策略方向

下面的具体的实施项策略的方向其实很好理解

我们有了目标之后

就拆解一下这个目标的因果关系

或者说包含关系

自然就能快速得到我们的策略方向了

而具体的策略的实施项

就是要基于整体的一个策略方向

进行一些数据的探索

具体要怎么去探索

其实也并不难

就咱们找找出与我们的策略方向最大相径庭的

那部分数据资产

找出来做什么呢

找出来看看

他们为什么和我们的策略方向相差那么大

比如说

假设我们想要提前我们的核心任务的完成线

那么就找出平时运行的时候

完成时间最晚的那一条任务链路

看一看这条链路里有些什么毛病

是怎么把它拖延到这么晚的

又比如呢如果我们想要做计算资源的一个优化

那么就找出一批计算资源消耗最大的任务

看看它里面有什么毛病

为什么它的消耗会这么大

当我们找出这批清单之后

从中看一看他们有没有一些共性的问题

指标总结一下这些指标反映了什么问题

嗯然后呢就可以简单的去得到几个结论

比如说啊从从某某指标来看

这个数据存在这样的问题

那么这个某某指标其实就成为我们前面提到的

一个实施命中指标

就是说从这个指标说明它是有问题的

是需要拎出来治理的

完成了这些探索之后

我们就有了一批问题

然后以这批问题为起点

进入到我们的整个运营的大循环里面

就这个大循环具体是怎么去循环的

大家直接看ppt就行

我就不具体展开讲了

因为还是比较简单的

那接下来我们用三个不同的场景来举例一下

就解释一下我们的这个模型是如何去作用的

因为嗯我们的模型就是希望是尽可能一个体系

在整个治理的工作中全盘适用嘛

那第一个场景是存储成本的一个治理

先假设我们的目标是在一个周期内

完成多少量的存储成本下降

那这边就是ppt上面

其实我是把这个目标简化了

因为大家记得我前面讲的目标

一定要是一个明确的度量

它不能是一个抽象的概念

所以这里只是一种简化

ok存储成本下降

它有一个很简单的因果拆解关系

成本等于什么呢

成本就等于用量乘以单价

那么用量的降低

或者说单价的降低

它和成本降低之间有直接的因果关系

那我们就跟着这个因果关系

就拆解出两个策略方向

一个是降低用量

一个是降低单价

那么这两个方向对标的效果评估指标

其实就是总用量和单价的均值

接下来我们继续做策略的拆解

拆解总用量的下降

那我们又可以通过包含的关系去拆解成

历史存量的下降和新增量的下降

那对应的那个效果评估指标

其实就是每日新增量以及历史存量

再往下每日新增量的下降

因为这个已经是一个比较明确的一个

策略方向了

所以其实我们没有必要再往下去拆方向

而是开始去寻找去探索它的一个实施项

那我们先找出每日新增量最大的那一批模型

找一找他们有什么共性的问题

那根据我们实践中的经验呢

就通常这类模型会有两类的一个特点

一个特点是它们的每日的行数很大

就是数据量比较大嘛

第二个呢是他们的一些模型

设计的结构不是特别的好

里面会有一些比较大的json字符串

或者像u r l其他的一个那种大的这字符串

导致它一行数据的存储量会很大

这里其实就是要找出的

是我们的实时命中指标了

那比如说他每天的就每天的数据量大

它的一个命运指标就是表的行数

然后如果它内部有一些不太好的那个字段

有一些大的字符串

那么这个实时命中指标

其实就是它一行数据的一个行密度

那经过这样的拆解

那接下来我们可以采取的具体的一个实施

就是要么去减少它的函数

去进行一些数据采样

要么就是那个去采取结构的优化

把那些大的字符串给它去掉

这样的话那新增量就降下来了嘛

第二个场景是在数据管理

数据质量管理中的监控告警的一个治理

那假设我们的这在这个方向上的一个那个治理

目标是要提升异常发现率到99%

那我们先通过因果拆解去拆解出两个策略方向

一个是提升监控覆盖

还有一个是提升个案例告警的提效

那接下来再探索一下啊

我们其实可以用一个非标监控任务数

来找到我们的日常任务中

不合理的监控配置问题

这样就能提升我们的一个监控覆盖率了

那另外一个方向就是告警提效

这个方向呢又可以在通过包含的关系

拆解为告警响应的提速以及告警的反馈

那么这两块它的一个效果评估指标

那对应的就是响应耗时以及告警的反馈率

然后再各自探索出这两个方向的具体的实施项

和它的实时命中指标

第三个场景是在数据模型管理中的一个用户

找用户找数体验的一个治理

那假设我们要降低用户少数的一个耗时

比如说降低到均值多少分钟

那么同样的是进行那个整体的一个目标

到策略的一个拆解

先整体的拆解为提升推荐表

特殊和加快可用判断这两个策略方向

那他们的效果评估指标可以是

比如推荐表点击深度以及用户的一个碳表用时

然后再各自拆解出这两个方向的一个

具体的实施项

其中推荐表透出呢

又可以拆解为我们的数据主题入口正确分流

然后是我们的推荐表排序要靠前

这两个具体的一个实施项

那他们的各自的一个命中指标可以是

比如说啊模型主题标签的未覆盖率

或者是模型推荐标签的未覆盖率

介绍了指标体系模型之后

接着就是我们的整个建设过程了

就这个建设过程

那大家其实也是比较熟悉的

就是通过场景的分析

分析完了之后

预定义出指标体系

接着去做数据源的调研

有了充足的数据源之后

去定义一些数据标准

去明确业务过程是实度量以及维度

维度属性相关的

然后再去定义指标口径

那这里在正在定义指标口径的过程中

可能我们需要对指标体系去做一些重复

接着就是维度建模

然后是指标汇总

然后投入应用

那这边其实整个过程是比较按部就班的

几个步骤嘛

但是里面有两个重点

就是我标黄这里标出来的

一个是指标体系的预定义

还有一个是指标体系的一个重塑

就是在这个过程中

其实可能会对

因为可能会由于数据源的问题

对我们的指标定义去做一些妥协和改善

接下来我们用成本治理的案例来看一看

前面所讲到的这些理论

落到实践中是具体是一个什么模样的

先给大家看一下

我们的非常简单粗暴的成本管理大纲

这个大纲包含了六个问题

用了多少量

花了多少钱

哪里能审怎么审

谁来执行

不执行又要怎么办

那其中用了多少量

花了多少钱

这个是成本管理的一个核心度

也没什么货

也什么都没有什么多说的

那谁来执行

不执行怎么办

这个其实是属于标准和责任制度要解决的问题

而哪里能审怎么审

这中间的两个问题

就是运营策略要考量的环节了

我们的整个成本治理的指标体系

所服务的对象其实也就是中间的这两个问题

首先呢先在做整个成本治理之前

要先确定我们的目标是什么

上半年的时候

就是我们的资管小姐姐跟我们说说

22年

大数据的预算

要控制在21年的50%以内好

就比着这样的一个大背景

我们找一下大数据预算的瓶颈到底是在哪里

就是我通过成本的分布和资源利用率

两份数据来进行了这样的一个简单的分析

那先看一下我们的成本的分布

在成本分布中能够发现

就是离线存储的占比占到了50%

离线计算的占比占到了30%

那他们整体离线这边的合计

百分之81%

剩下的那些我也就暂时先不去看他了

而在利用率这一块呢

摘出刚才讲到的离线存储和离间计算

会发现离线存储的利用率

在我当时观察的那个时间点

差不多是90%

就是差不多90%多吧

然后离线计算的利用率

差不多是70%左右

那么其实这两份数据一出来

我们的结论就很清晰了

就是整体的一个就是今年成本治理的一个关键

是在于离线存储治理

因此我们定下了一个半年周期内的

存储治理的一个目标

当然我们定了一个

我就定了一个假设

定了一个500pb的一个目标

那么这500pb嗯

把它因为整体的一个执行收周期是25周

那周均下来就是我们的目标

其实是周均优化量要达到20个pb

在确定了周均优化量20pb的

这样的一个目标之后

接下来

我们开始按照前面的理论方法来做我们的拆解

首先用包含拆解法拆解出就很简单的

就是看历史或者控新增这两个大的策略方向

接着做实时项的探索

这个探索从数据去探索嘛

那么就在坎历史这个方向上

捞出我们的历史量top list

在控新增的这个方向上呢

捞出我们的新增量的top list

然后具体就捞出了这些top list之后

要找出这些list中的一些共性问题指标

那么具体要怎么找

具体要怎么找呢

其实是通过假设和假设判断

然后建立标准来这样一个一个找出来的

这里其实我们可以在top list中去

提出几个优化的假设

这些假设的提出最好是按照实施成本低

实施效果高这样的一个顺序来一个一个的盘点

那首先我们提出第一个假设

就假设数据能不能下线

假设数据是可下线的

那么开始思考说什么样的数据它是可以下线的

我们要给一个逻辑的判断

那如果说下游已经没有使用了

那理论上来说它是能下线的

又或者说那他已经有

就是这份模型已经有另外一个替代模型了

那么他多半也是能下降的

也是能下线的

这里就是一个假设的一个判断好了

有了我们的判断逻辑之后

再来看一下这个判断逻辑自身

它的实现成本是什么样的

就是简单点说我有了无下游使用

有替代逻辑这两个判假设判断

那么无下游使用的我要去判断一个模型

它下游是否有人在使用

这个判断成本是相对比较低的

那它的判断成本低

那我们就立刻勾出来

把它选用起来了

而有模型

有模型替代这个判断的

这个假设的判断其实是需要相关业务的owner

同学来做一个人肉的判断

那么它的判断成本是相对比较高的

所以我们就暂缓一下

就暂时先不选用

然后再假设

比如说数据的保存时间是不是可以缩短

那这种同样是我们建立几个假设的一个逻辑

判断的逻辑

比如说这个数据本身的时效就很短

比如说它是一些a b test实验的数据

就某一次产品迭代的一个实验的数据

那么这个实验其实如果达成了

就达到了实验的效果

有了结论之后

其实他的那个就是啊这个数据也就没啥用了嘛

所以他的那个就是保存时间是可以缩短的

这个这一类的判断成本其实也不大

因为我们可以通过下游用户

在用户的时候的一个时间的区间

或者说我们做一些元数据的标签的识别

所以这个策略其实就可以

这个这个实事项其实就可以立刻用起来

那还有一个

比如说是它是一份可快速恢复的中间数据

那理论上来说似乎它也是能够缩短的

但是怎么去定义中间数据

其实这又需要一些人为的主观意识的介入

那我们觉得啊

这个判断成本可能也稍微高了一些

就暂时先不用作为一个备选

其他的假设其实也是一个一样的

一个一个就是提出假设

然后做一些判断的逻辑

再来看判断的成本高不高或不高

然后探索出我们的首批的一个实事项

实施项的探索做完之后呢

我们就有了一个就是指标体系的一个预定义

为什么他说他是一个预定义

那就是看一看我们接下来要做什么事情

带着我们预定义好的指标体系呢

我们需要调研一下数据源

那数据源这些数据源它是不是都存在的

即使存在

它是不是都可用的

那比如说像优化量这个效果指标

效果评估指标

它的它的数据源是来自hdf文件的大小

又或者是无下游存储量这个命中指标

它的数据源的一部分来自平平台的数据是源

还有像超周期存储这个命中指标

它的数据源的一部分来自任务的脚本信息

因为我们要从脚本信息

看它的sql的一个日期范围

当然其实我们不能期望说

所有的数据源都是可用的

如果说数据源数据源本身有缺陷

或者说里面的一些口径定义有缺陷

那么我们可能就需要去更改数据源

更改指标定义

这里是在我们实践过程中的一个实际的

就是改善口径定义的一个例子

就是我们的模型下限的实施项

它的命中指标是无下游存储量嘛

无下游的模型的存储量

那么它的作用是

我们想要找出没有下游使用的模型

因为我们认为这些模型是命中了下线的

这个策略方向的

它的判断逻辑是通过数据平台的血缘信息

看哪些模型没有被调度任务

或者日常的一些查询使用到那

看起来这个逻辑似乎是挺合理的

但是实际的过实际实施的过程中

我们发现

由于公司内个别团队

有一些还没有来得及治理的非标的访问

就是说这些访问

它其实并没有记录在平台的血缘数据中

这导致了我们经历了一些可下限的误判

所以后来我们调整了一个数据源

修改了指标口径

将原来的数据源由数据血缘调整为ht fs

审计日志

同时也将无下游无效

有使用这个判断逻辑

从下游的任务数调整为审计日志中

没有读访问记录这样的一个逻辑

那指标确定之后呢

再来确定一下我们的整个实施过程中

需要关注哪些维度

成本治理中最重要的维度

无外乎就是资产的一个归属了

就是这份资产他归属哪个部门

哪个工作空间

具体归属到哪个个人

此外还有比如说数仓的层级

或者说数据等级

以及它的一些就是数据的形式

它是表还是非表

因为在不同的维度属性下

它的一些实施细则可能会发生微调

比如说对于我们的s级a级数据

就是从数据的重要程度来说嘛

对于s级a级数据来说

在数据t t r的一个配置要求上

它就会显得比b级c级的数据更加的宽松一些

定义好的指标以及我们所需要关注的维度

那接下来就是指标的开发

开发完成之后

我们把一批指标投入到我们的运营小循环中

就是啊这个小循环

其实每每一个每一个业务部门

他们循环的方式不太一样

那我们随便举一个例子

比如说在每周一的时候

小循环会做问题的审计

然后抛出这个问题清单

通抛出这个问题清单

抛出问题清单之后呢

督促相应的责任人去做一些问题的处理

然后在每周五的时候

小循环去做当周的一个效果汇总

因为我们有一个我们我们的目标

治理目标其实是周君20pb的治理目标嘛

所以每周的一个效果汇总确认

确认当周的进度是否符合我们的目标

那持续化的运营工作

是同时需要依赖大循环和小循环这两个循环的

在策略制定最初

大循环确定了我们优先选择哪些实事项

比如说像无下游的模型

像未压缩的数据这一类都是我们首批选择的

那么首批选择之后

我们将这些给到小循环

经由小循环去进行一波集中的处理

当小循环将我们的首批实施项处理完毕之后

接着是需要大循环

根据我们的整体策略方向再去探索新的实施上

探索新的实施命中指标

然后再给到第二批

比如说给到我们的第二批

给到了游离目录

然后大字段等等的这些问题

那如此

这般呢就是在大小两个循环之间来回的往复

我们的周军目标就不会有一个

在执行过程中就不会有特别明显的断档

然后看一看

就是这25周内我们的一个治理成效

这25周内呢

其实我们的优化实施量是远超计划量的

远超计划量的一个周均20pb的一个目标

然后达达成的目标时间就

达成目标的时间也比预计提早了近一个月

也就是说25周的目标

我们基本在21周左右就已经达成了

然后整体下半年的存储控制是控制在1%

近乎零增长

而且现在其实我们还并没有做完

那到年底的时候

其实我们基本是能够做到零增长的

然后全年的存储增长呢

较21年下降了66%

基本上是完美达到了我们的资管小姐姐的要求

然后前面这一段是讲的就是在数据治理中嗯

实施的方法

这一个这实施的方法

这个视角下的一个指标体系的一个构建

那前面其实我们有讲过

就是数据治理下达的这五大定义

五大块定义

每一个定义下

其实都有去建立指标体系的不同视角

那趁着还有时间

我们看一看其他的一些视角

因为也许治理运营

运营这两个字听起来会较为温和

不过数据治理大家要知道

它必然它一定是不只有温和的一面的

所以我们来看一下在标准和责任这两个视角下

治理的指标体系

是如何透露出他不温和的一面的

标准和责任的指标体系

一般来说在定义指标时

是连带上具体的指标基准值一起去定义的

怎么理解这句话呢

就是说在这套指标体系中

如果所啊在这套指标体系中

所有的指标值有一个明确的数值

与指标口径的定义是同时确定的

那么这一套指标是用什么途径呢

这这套指标它的用途是什么

其实也也很好理解

就是当我们真实的统计与定义好的指标

基准值不相等的时候

就需要通过一定的机制去发出警示信息

促使相关人员介入

我们来看一下标准

责任视角的指标体系模型是如何构成的

他自上而下

首先先是这个事项

他的标准和责任的要求就是这件事必须要如何

接着是未达标

未负责的话

它会造成一个什么样的影响

这个影响有时候我们可以通过实验去获得

但是更多的时候

其实我们是通过经验教训获得的

最后就是测量是否达标

是否负责

所用到的这样的一个测量指标

这个模型它的关键和前面的整个实施的方法是

去我们的实施的方法是要建立一个循环

而这个这个模型的关键是在于

找出测量指标的基准值与影响

之间的一个平衡点

那我举两个例子

比如说我们的数据传输电路

数据传输链路我们会发生丢失吗

那数据传输链路的一个丢失率和数据丢失后

对业务的影响之间是需要去找到一个平衡点的

如果丢失率的要求太低了

那我们丢太多数据

对业务的影响是不可接受

但如果说丢失率的要求太高了

对于传输链路的成本也是不可接受的

所以那我们找出最终的一个平衡点

是到底是百分之多少

这样的一个丢失率是我们的一个平衡点

那么这个百分之数据传输丢失率的这个定义

就成为了我们质量保障标准体系中的一个指标

又比如说根据我们现在个人信息保护法的规定

14岁以下青少年的个人数据属于敏感信息

那么青少年个人数据的使用次数就必须等于零

只有使用次数等于零

这个值才是在这个要求下的唯一的一个平衡点

于是呢青少年个人数据使用次数等于零

就成为了数据安全标准体系中的一个指标

以上举了两个例子来简单了解一下


阿B的数据治理运营关键指标体系实践的评论 (共 条)

分享到微博请遵守国家法律