关闭数据停机间隙

“推荐一个正规滚球网站的数据是100%可靠的”——从来没有人这样说过.

在一个 以前的博文我写了关于“数据停机时间”的文章,以及它对数据驱动型公司的意义. 随着数据对组织的任务越来越关键,对数据团队的管理也越来越复杂, 推荐一个正规滚球网站将看到数据停机的重要性和紧迫性. Companies have various approaches to managing data downtime; those who have mastered it start by realizing it requires proactive, 系统性的关注.

能够管理数据停机时间的公司获得了巨大的利益.

这里有一些:

  • 数据团队大大减少了消防演习的时间, 升级和故障排除数据问题. 相反,他们可以 专注于建设伟大的基础设施和创造价值 出的数据.
  • 数据团队可以更快地更改、添加或升级他们的数据基础设施 可靠地知道事情不会破裂 沿着这条路.
  • 数据团队 赢得业务主管、产品经理和其他利益相关者的信任和尊重 因为他们始终提供可靠的数据.

关于解决方案已经写了很多,一些很好的例子包括这些 直觉网飞公司 -但我发现仍然没有一个标准的行业最佳实践. 很好奇为什么, 我采访了80多个组织,并收集了他们处理数据停机的方法. 以下是我的一些观察:

数据停机几乎会发生在每个追求数据驱动的人身上. 严重性有不同的程度, 但这并不是某一特定行业所独有或孤立的, 技能, 技术或组织结构. 所以,如果你想知道——不,你不是一个人. 🙂

在实现最大数据正常运行时间的道路上,组织遵循着一段旅程——我将其称为数据可靠性成熟度曲线. 这段旅程通常始于公司开始经历高速增长之时, 开始以一种新的和强烈的方式使用数据, 和/或重要的业务指标或客户受到不良数据影响的结果.

数据可靠性成熟度曲线

在数据可靠性过程中有四个主要步骤:

# 1活性: 数据小组从每天的消防演习开始他们的早晨, 然后花上半天时间来分析数据问题. 他们花费大量的时间在危机模式中,在重要的行动上进展缓慢. 作为一个结果, 该组织努力在产品中有效地利用数据, 机器学习算法, 或者商业决策.

# 2主动: 数据团队开发手动完整性检查和自定义QA查询来验证他们的工作, 可能还会在出错时收到Slack或电子邮件提醒. 这需要工程之间的纪律和积极合作, 工程数据, 数据分析师, 和数据科学家. 例子:

  • 验证管道关键阶段的行数
  • 跟踪时间戳,以确保数据的新鲜度

# 3自动化: 拥有可靠、准确的数据成为首要任务. 验证查询按时间表运行,并且具有更广泛的管道覆盖范围. 团队有一个用于查看问题的数据运行状况仪表板, 排除故障并指导组织中的其他人了解最新的数据状态. 例子:

  • 跟踪关于维度和度量的度量, 存储在时间序列数据库中,以跟踪趋势和变化
  • 在摄取过程中监视和执行模式

# 4可扩展: 数据团队利用开发运维的概念,并建立一个登台环境, 用于验证的可重用组件, 和/或数据错误的硬和软警报. 有大量的任务关键数据的覆盖,并且团队在问题传播到下游之前就已经掌握了这些问题. 例子:

  • 异常检测检测所有关键指标中的问题
  • 工具,让每一个工作和表很容易被监控和跟踪的质量

在最近的一次调查中,我对大约50名数据专家进行了调查, 超过60%的公司表示,他们目前处于数据可靠性旅程的早期阶段, 然而,他们正在路线图中采取具体步骤,以提升曲线.

你们的数据可靠性之旅处于什么位置?到2019年底,你们希望达到什么位置?