良好的管道,糟糕的数据

现在是2020年,推荐一个正规滚球网站仍在使用“照片和书面记录”来验证数据. 在最近的 爱荷华州选举,数据的不一致性削弱了对结果的信任. 这只是最近众多突出的例子之一,说明这种现象是多么普遍。”数据停机时间“腐蚀好的管道.

数据停机时间是指数据不完整的一段时间, 错误的, 丢失或者不准确——我所知道的几乎每一个数据组织都在与之斗争. 事实上,这 哈佛商业评论的文章 引用了一项研究,该研究发现,由于不良数据,公司每年平均损失1500万美元. 在这篇博文中, 我将介绍一种管理数据停机时间的方法,该方法已被业内一些最好的团队采用.

那么,测量数据停机时间意味着什么呢?

首先,让推荐一个正规滚球网站看看什么是“停机时间”. 数据停机指的是任何时候数据“停机”,即.e. 当数据团队发现自己对以下常见问题的回答是“否”时:

  • 这份报告中的数据是最新的吗?
  • 数据是否完整?
  • 字段是否在合理范围内?
  • 我对上游资源的假设还成立吗?
  • ,更多的

或者换句话说…… 我可以相信我的数据吗?

实时回答这些问题是困难的.

Data organizations large and small are challenged with these questions since (1) consistently tracking this information across data pipelines requires substantial resources; (2) at best, information is limited to a small subset of the data that had been laboriously instrumented; and (3) even when available, 筛选这些信息已经够乏味的了,以至于团队经常在事后才发现数据问题.

事实上, 这是典型的数据消费者-产品经理, 营销专家, 高管, 数据科学家, 甚至客户——在需要使用数据的那一刻确定数据停机时间. 不知怎么的,这总是在周五下午晚些时候发生……

推荐一个正规滚球网站是如何知道推荐一个正规滚球网站的数据基础设施的性能的呢, 但关于数据是否正确的问题却很少?

这里一个有用的推论是利用基础设施的可观察性. 几乎每个工程团队都有工具来监视和跟踪基础设施,并保证其按预期运行. 这通常被称为可观察性——根据系统的输出确定系统运行状况的能力.

优秀的数据团队会对数据的可观察性进行投资——即确定系统中数据流动是否健康的能力. 有了可观察性,就有机会在完美的管道中发现问题,以免它们影响数据消费者, 然后在几分钟内找到并解决问题,而不是几天或几周.

那么是什么使得数据具有良好的可观察性呢? 根据100多个数据团队的研究,推荐一个正规滚球网站发现了以下几点:

每个支柱都包含了一系列的问题, 在总, 提供数据运行状况的整体视图.

  • 新鲜: 数据是最近的吗? 它最后一次生成是什么时候? 包含/省略了哪些上游数据?
  • 地理分布: 数据是否在可接受的范围内? 格式正确吗? 它是完整的?
  • 体积: 所有的数据都到了吗?
  • 模式: 什么是图式,它是如何改变的? 谁做出了这些改变,原因是什么?
  • 血统: 对于给定的数据资产,受其影响的上游资源和下游资产是什么? 谁是生成这些数据的人,谁依赖这些数据来做决策?

诚然,数据会因各种各样的原因以各种各样的方式被破坏. 令人惊讶的是, 推荐一个正规滚球网站一次又一次地发现,如果跟踪和监控这些支柱,几乎所有有意义的数据停机事件都会浮出水面.

有兴趣学习如何从坏数据中保存好的管道? 取得联系!