“关键数据元素”(CDE)-如何确定数据治理的优先级
关键数据元素“critical data element” (CDE)是数据治理非常重要的概念,却被广泛忽视,导致数据治理胡子眉毛一把抓,陷入泥潭。本篇文章将就此概念进行完整阐述。
一、关键数据的定义
DAMA-DMBOK2将关键数据定义为“对组织及其客户最重要的数据”。
在巴塞尔银行监管委员会的第239号标准“有效风险数据汇总和风险报告原则”(BCBS 239或PERDARR)中,它们提供了几种不同的定义:
“对银行管理其面临的风险至关重要的数据”
“对风险数据和IT基础设施计划至关重要的数据”
“汇总信息,以做出关于风险的关键决策”
David Loshin是最早使用此术语的数据管理专业人士之一,他提供了以下两个定义:
“关键数据元素是被确定为对组织成功运营至关重要的数据元素。”
“关键数据元素是业务流程和相应业务应用程序成功所依赖的数据元素。”
“关键数据元素(CDE)被定义为特定业务领域(业务线、共享服务或集团职能)中“对成功至关重要的数据”,或“完成工作所需的数据”。
总结上述所有定义,关键数据有助于:
管理风险
管理业务决策
成功经营企业
IT运营,确定IT工作的优先级
数据保护和数据安全,这两个因素通常一起使用。数据保护的最佳示例是GDPR(通用数据保护法规),该法规在整个欧盟都很有名,侧重于保护个人数据。在这种情况下,所有个人数据也被视为关键数据。
数据管理,在处理数据质量、主数据和参考数据以及数据治理时,关键数据元素非常重要。

2、关键数据的重要性
下面我们逐个详细讨论关键数据的重要性和价值:
报表需求
关键数据应在监管和财务报告、业务战略中找到。
风险需求
不同行业和公司可能会对风险进行不同的分类。最常见的风险类型是金融、信贷、运营等。
绩效管理和决策支持
关键数据是用于公司绩效管理和决策支持的数据。在这方面,组织不同层级的关键管理KPI代表关键数据。
关键性
BCBS 239标准引入了关键数据概念的关键性标准。关键性概念具有以下含义:对财务决策的影响;确定数据为关键数据的最终决定仍然是业务专家的责任。
数据质量(DQ)计划的优先级
数据质量DQ计划的关键目标之一是为关键数据元素建立数据质量检查和控制。设计、分析和构建数据质量检查和控制是一项耗费时间和资源的工作。因此,需要一种机制来确定数据质量计划的优先级。而关键数据可以帮助企业划分优先级。
主数据管理(MDM)计划的优先级
同样也适用于主数据和参考数据计划。按照优先级管理所有主数据元素,这会大大提高管理的效率,关键数据元素(CDE)是实现这一目标的最佳工具之一。
数据管理和数据治理计划的优先顺序
关键数据元素有助于确定数据血缘计划范围以使其更可行。尤其是手工维护的描述性数据血缘。
确定业务驱动因素并设置关键绩效指标(KPI)
关键数据的应用领域涉及财务规划和分析领域。经过一些调查发现,数据血缘可以帮助识别业务驱动的关键元素。
三、如何识别关键数据
识别数据链末端的关键数据需要跟踪和识别数据,并追溯其来源。在不知道数据血缘的情况下,此任务是不可能完成的。在数据实体和属性级别执行此类分析,物理数据血缘是“必须”条件。

为了深入解释这一陈述,让我们使用下图的示例。

1、“最终关键数据元素(CDE)”对于第一类关键数据元素,称为 “最终CDE”。之所以称为 “最终CDE”,因为它们位于数据链的末端,通常它们会出现在报告或报表中。最终CDE对公司的盈利能力和绩效影响最大。
2、“过渡性计算CDE”该CDE包括两个词:“过渡”和“计算”。它们是“过渡”的,因为它们位于数据链能 中。 它们是“计算”出来的,因为源头数据元素做出转换以输出其值。
3、“过渡性源CDE”这些关键数据元素也位于数据链中。这些关键数据元素不随链变化,常用于计算。过渡性源CDE示例是“客户名称”。元素“客户发票金额”用于转换和汇总目的。
4、“业务规则CDE”这些关键数据元素的值不直接用于计算,却是执行业务规则所必需的。5、“技术CDE”这些关键数据元素确保数据的正确处理。表主外键是此类关键数据元素的示例。这些关键数据元素都可以在不同级别的数据模型中进行记录。在这个案例中,“总净收入”作为“最终CDE”的示例,该数据元素满足上述所有关键性要求。总净收入是一个汇总的数字,要获得该CDE的价值,需要处理和汇总其他数据元素。其中一些也是关键数据元素(CDE)。
“过渡性计算CDE”和“过渡性源CDE”
对于这些类型的元素,主要关键性标准是对“最终关键数据元素”价值的重大影响。例如,如果不知道过渡性源CDE“客户发票金额”和过渡性计算元素“每个客户的收入”,则很难计算“总净收入”
“业务规则CDE”
该元素对计算的重要性定义了其临界性。以信用评级为例。例如,该元素确定客户贷款的利率,但在计算中不需要该元素本身。
“技术CDE”
技术CDE的关键性由该数据元素在计算其他CDE时的重要性确定,并用于参考完整性。例如,如果外键中没有值,则不会执行计算过程。为了快速取得成果,数据管理专业人员应该采用实用的方法来识别关键数据元素。这种方法取决于数据血缘的可用性。在理想情况下,当拥有物理数据血缘时,可以从终极关键数据元素(CDE)分析发现计算CDE所需的所有数据元素。然后,通过应用选定的关键性方法来识别数据链中的关键数据元素。然而,在现实中并不是很多公司都有数据血缘或全范围的数据血缘。在这种情况下,可以应用影响分析方法。这种方法基于知识,适用于两种情况:
来源元素集是已知的
数据链包括多个应用程序或分成多个段
影响分析方法
该示例的初始条件如下图所示。
该示例情况下,计算引擎和最终报表的来源格式是已知的。它包括大约1800个数据元素。源关键数据元素的识别包括两个步骤:1、将源元素限制为必填的表和字段,将1800个元素缩减为800个。2、专家进行分析。专家们已经确定了大约70个原始关键数据元素,他们认为这些元素对于提供最终和计算的关键数据元至关重要。

影响分析方法之外,另一种方法是通过根因分析
基于临时区域和加工计算之间,以及临时区域和报表之间的物理数据血缘来识别原始数据元素。分析包括以下步骤:1、确定关键报表从160份报表中,专家们选择了20份作为关键报告。2、分析关键报告中的数据元素专家们已经确定了大约50个关键的最终数据元素。3、分析原始数据元素物理数据血缘计算发现选50个最终数据元素需要大约250个原始数据元素。4、专家参与评估专家从原始数据元素中选择约50个作为原始关键数据元素。最后,每个公司都可以探索自己的实用方法来识别关键数据元素,明确数据治理体系建设的优先级。