数据质量——你的测量是错误的

推荐一个正规滚球网站的一个客户最近提出了一个关于数据质量的问题:

我想为推荐一个正规滚球网站自己(数据团队)建立一个关于数据可用性的OKR. 我想建立一个单一的KPI来总结可用性、新鲜度和质量.

做这件事最好的方法是什么?

我无法告诉你这个请求给我带来了多大的喜悦. 作为一个痴迷于数据可用性的人,是的, 你没看错,不是羊, 这些天我梦想着空值和数据的新鲜度——这是梦想成真了.

为什么这很重要?

如果你是做数据的, 您目前正在从事一个数据质量项目,或者刚刚完成了一个项目. 这就是坏数据法则——坏数据总是会更多.

测量数据质量的传统方法 经常是时间和资源密集型的吗, 跨越几个变量, 从准确性(显而易见的)和完整性, 有效性和及时性(在数据中, 没有所谓的“时髦的迟到”). 但好消息是,有一种更好的方法来提高数据质量.

数据停机时间 -当你的数据是部分的时候, 错误的, 失踪, 或者其他不准确的方面——对于任何努力实现数据驱动的公司来说都是一个重要的衡量标准. 听起来可能是cliché, 但这是真的——推荐一个正规滚球网站努力收集, track, 和使用数据, 但推荐一个正规滚球网站常常不知道这些数据是否准确. 事实上,公司经常会这样做 优秀的数据管道,但糟糕的数据. 那么,在一天结束的时候,为了建立一个奇特的数据架构所做的所有这些艰苦的工作值得吗, 推荐一个正规滚球网站不能实际使用这些数据?

通过测量 数据停机时间, 这个简单的公式将帮助您确定数据的可靠性, 给你足够的信心去使用它或者失去它.

所以你需要一个KPI?

总的来说, 数据停机时间 是一个函数:

  • 数据事故次数(N) —考虑到你依赖于团队“外部”的数据源,这一因素并不总是在你的控制之中, 但它肯定是数据正常运行时间的一个驱动因素.
  • Time-to-detection(运输大亨) -在事件发生时,你多快得到通知? 在极端的情况下, 如果你没有适当的检测方法,这个量可以在几个月内测量出来. 不良数据造成的无声错误可能导致昂贵的决策, 对你的公司和你的客户都有影响.
  • 解决问题的时间(竞技场队伍) 在一个已知的事件发生后,你能多快地解决它?

通过这种方法,数据事件指的是数据产品(e.g.是“不正确的”,这可能是一些根本原因的结果,包括:

  • 所有/部分数据不是最新的
  • 所有/部分数据丢失/重复
  • 某些字段缺失/不正确

这里有一些例子 数据事件:

  • 不“破坏”任何下游数据的计划模式更改
  • 由于有意更改数据系统而停止更新的表(弃用)

把这一切放在一起,我会 提出正确的KPI 对于数据停机时间为:

数据停机时间=数据故障次数

x

(Time-to-Detection +解决问题的时间)

(如果你想进一步实现这个KPI, 您还可以根据严重程度对事件进行分类,并根据严重程度对重量正常运行时间进行分类, 但为了简单起见, 推荐一个正规滚球网站将在以后的文章中讨论这个问题.)

通过正确的自动化组合, 先进的检测, 和无缝的解决, 您可以通过减少TTD和TTR来最小化数据停机时间. 甚至还有减少N的方法, 推荐一个正规滚球网站将在以后的文章中讨论(剧透:这是关于获得正确的可见性,以在第一个地方防止数据事件).

测量数据停机时间是了解其质量的第一步, 并从那里, 确保其可靠性. 花哨的算法和业务指标到处乱飞, 推荐一个正规滚球网站很容易将测量方法复杂化. 有时候,最简单的方法就是最好的方法.

如果你想了解更多, 接触 巴尔摩西.