衡量数据质量ROI的正确方法

引用一个朋友的话,“在不考虑因素的情况下构建你的数据堆栈 数据质量y 就像买了一辆法拉利,却把它放在车库里.” 

在本文中,蒙特卡罗的产品经理旧金山Alberini介绍了一种更好的方法 数据团队 衡量不良数据对企业的财务影响.

上周, 我和莉娜在极速通话, 推荐一个正规滚球网站一个大客户的数据产品经理,负责监督他们的数据质量项目. 

她的团队负责维护1000个数据管道,这些管道填充了公司许多最重要的业务表. 可靠和值得信赖的数据是他们产品成功的基础, 然而莉娜却在努力寻找一种明确的方法来量化她所拥有的管道的重要性和范围. 

“推荐一个正规滚球网站都知道,可靠的数据对企业很重要,”她说. “但我没有一个很好的方法来衡量它的投资回报率,并以此来证明对我的团队的投资是合理的.” 

而不是获得她需要的支持来保持她公司的管道运行(如果不是功能性的), 她发现自己一天到晚都在亲自维护它们. 一次又一次, 预算和资源将分配给更华丽的, 更多侧重于功能的数据工程工作, 当季度计划来临时,她的精干团队陷入困境. 

Lina的经验非常恰当地传达了许多数据团队都要面对的一个难题:证明和衡量数据质量项目的ROI. 

和莉娜的对话, 还有很多类似的, 带领推荐一个正规滚球网站寻找度量框架,以帮助团队更好地传达数据可靠性对他们公司的价值.

推荐一个正规滚球网站发现以下指标(借鉴了 DevOps的世界)提供了一个好的开始:检测时间和解决时间.

检测时间(TTD)

检测时间指的是数据工程团队识别数据质量问题所需的时间, 这是不是新鲜的异常现象, 运行失败的模型, 或者甚至是一个模式更改导致整个管道陷入混乱. 

对于许多数据团队来说, TTD通常以天到周为单位计算, 有时甚至是几个月, 因为主要的检测手段是等待下游数据消费者传达数据“看起来不正常”.” 

这几周到几个月 数据停机时间 这对企业来说是非常昂贵的,原因有二:

  1. 时间流逝的越多, 就越难通过重新处理或回填可能不再可用的源数据来恢复数据.
  2. 所有的商业决策,营销活动,产品决策等等. 使用不正确的数据制作的,需要重新验证, 甚至更糟, re-communicated向涉众. 

当然,推荐一个正规滚球网站都同意将TTD减少到分钟听起来很棒, 但要实现这一目标可能需要大量的工程工作, 这否定了工作的ROI. 

在开始解决方案之前,重要的是计算你的基线TTD. 你可以通过回顾你的团队最近处理的3-4个数据事件,并粗略计算检测这些事件所需的时间来做到这一点. 从那里,你可以设定一个目标,并利用这个目标与领导沟通为什么你需要更多的资源.

减少TTD的工具包:  

  • 机learning-powered 异常检测: 数据投入生产前的测试是P0, 而是为了追踪那些未知的未知, 它有助于实现自动异常检测和自定义规则
  • 相关事件提要和通知. 在数据平台和PagerDuty之间集成一个通信层(可能是一个API), 松弛, 或者您使用的任何其他事件管理解决方案都是至关重要的 进行根本原因分析, 设置sla /学校图书馆,以及在出现数据停机时对停机时间进行分流.

分辨时间(TTR)

下一个, 数据工程团队应该测量时间到分辨率(TTR), 一个旨在回答以下问题的指标:一旦收到警报,您能够多快地解决数据事件?  

也以小时计算, 分钟, 或几天, TTR指标允许您了解数据问题的严重性,并跟踪解决该问题所需的时间. 当兑换成美元时(i.e., 由于TTR,花费/节省了多少钱), 将此数据的影响传达给涉众将变得更加容易. 

减少TTR的工具包: 

  • 统计根本原因分析正如推荐一个正规滚球网站在前一篇文章中讨论的那样, 在站点可靠性工程团队中,在确定应用程序在生产中中断的原因和方式时,根本原因分析是一种常见的实践. 类似的, 数据团队可以利用统计的根本原因分析和其他关于数据的智能洞察来理解为什么这些问题首先出现.
  • 端到端血统: 在数据生命周期的每个阶段,健壮的沿河使团队能够跟踪数据从A(摄入)到Z(分析)的流动, 将转换, 建模, 以及过程中的其他步骤, 它对于用统计RCA方法补充通常狭隘的见解(没有双关语的意思)至关重要. 的 OpenLineage标准 对于元数据和沿袭收集是一个很好的开始.
  • 数据发现 要理解数据访问模式: 而许多数据目录都有一个以ui为中心的工作流, 数据工程师需要灵活性,以编程方式与他们的目录交互, 通过数据发现. 这样的解决方案也可以用来理解数据之间的关系, 谁使用它, 以及如何使用它.

把它们放在一起

您可以通过了解数据无法运行时的成本来衡量数据的财务影响. 

这个等式可能是这样的:

图片由Barr Moses提供.

每小时停机时间 成本是一个泛化的度量来表示 每停机时间所花费的工程时间数据停机对数据消费者和业务决策的影响.

工程时间 可以作为停机时间的一个因素计算吗. 例如, 推荐一个正规滚球网站估计,每个停机时间中,1名数据工程师会花费1/4的时间来监控和调查问题, 它的贡献 停机时间25美元 (数据工程师平均100美元/小时工资+福利).

数据停机的影响 根据停机时间对业务的潜在影响,成本会有很大差异. 如果例如, 你依靠数据向华尔街报告收益, 停机时间导致的误报数据是灾难性的,停机时间可能会导致停机成本增加1000秒/小时. 此外,你还可以在分析团队中增加停机成本. 举个例子,你有10个分析师, 在停机事件期间,他们闲置的成本是显著的(平均$75/小时工资* 10 = $750/小时). 假设并非所有分析师都会受到停机时间的影响, 推荐一个正规滚球网站可以保守地减少75%到 $175/hr.

在这个场景中,推荐一个正规滚球网站可以估计停机时间的成本在500美元/小时之间. 

假设您已经 每月约100个停机时间,你的业务成本很容易超过 600000美元/年 (100小时/月* $500/小时* 12个月). 

同样重要的是要记住,这个等式甚至没有考虑机会成本. 看看 推荐一个正规滚球网站的文章Barkha Saxena他是Poshmark首席数据官.

考虑到数据中断的频率,这可不是一个简单的改变. 

通过计算基线TTD和TTR, 这样就更容易准确地传达您希望对业务产生什么影响. 没有这个基线, 要想从管理层那里获得运营上的支持来壮大你的团队,难度要大得多, 提升你的技术堆栈, 扩展你梦想中的数据质量程序.

想象一下能和你的首席技术官分享这些:

“再雇一个数据工程师,投资一个 可观察性数据平台 能否帮助推荐一个正规滚球网站将平均每月的停机时间从350小时减少到14小时,也就是3小时.4倍的投资回报率,即1美元.每年500万.” 

正如他们所说:时间就是金钱. 

一定要注册推荐一个正规滚球网站的 可观察性数据演示 也是4月28日,星期三!