什么是数据可靠性?

作为数据专业人员, 在构建健壮性方面,推荐一个正规滚球网站可以从软件工程中学到很多东西, 高可用性系统. 在之前的文章中, 我讨论了为什么数据可靠性对数据团队来说是必须的, 这里, 我将分享推荐一个正规滚球网站如何通过工程操作在实践中应用这一概念.

谷歌高级副总裁本杰明·特雷诺·斯洛斯在21世纪初创造了这个词, 网站可靠性工程,是 DevOps,指的是 当你让一个软件工程师设计一个操作功能时会发生什么.” 换句话说, 站点可靠性工程师(简称SREs)构建自动化软件来优化应用程序的正常运行时间 最小化辛劳 和减少 停机时间. 除了这些职责, SREs被称为工程界的“消防员”, 致力于解决隐藏的bug, 延迟的应用程序, 和系统中断.

现在, 当数据系统在组织中达到类似的复杂度和更高的重要性时, 推荐一个正规滚球网站可以把这些概念应用到推荐一个正规滚球网站的领域 数据可靠性——组织在整个数据生命周期中提供高数据可用性和运行状况的能力.

从应用程序停机到数据停机

虽然救火当然是一项核心职责,但SREs也肩负着寻找新方法的责任 审慎管理风险 通过理解新功能和其他创新的机会成本. 为了推动这一数据驱动的决策,建立清晰 服务水平目标(SLOs) 这定义了这种可靠性在现实世界中的衡量标准 服务水平指标(SLIs).

一旦SLOs和SLIs(假设快10倍…)建立起来, SREs可以很容易地确定可靠性和风险之间的平衡. 即使有最聪明的解决方案和最有经验的SREs随时可用, 实现100%的系统正常运行时间是非零可能性. 创新依赖于迭代, 而消除停机时间的唯一方法就是保持静止, 但这并不能给你带来竞争优势. 正如我的一个SRE朋友所言: "这不是 if 网站会崩溃的,只是个问题 .”

就像SREs在可靠性和创新之间取得平衡一样, 推荐一个正规滚球网站还必须确保推荐一个正规滚球网站的数据管道既可靠又足够灵活,以允许引入新的数据源, 业务逻辑, 转换, 以及其他对推荐一个正规滚球网站的公司和客户都有利的变量.

就像推荐一个正规滚球网站精心管理一样 应用程序宕机推荐一个正规滚球网站必须集中精力减少 数据停机时间 —数据不准确、丢失或错误的时间段.

对于各种各样的公司来说,已经出现了许多重大的应用程序停机故障 GitHubIBMDoorDash松弛 数据停机也是一个同样严重的威胁.

消防不只是为了SREs. 作为数据专业人员,推荐一个正规滚球网站也要处理数据停机事件,但推荐一个正规滚球网站并不是必须这样做. 图片由 Jay Heike on Unsplash.

糟糕的数据不仅会导致糟糕的决策, 但是监测和解决数据可靠性问题会耗费团队宝贵的时间和金钱. 如果你在数据中,你可能知道花在f上的时间irefighting 数据停机时间. 事实上,许多数据领导者告诉推荐一个正规滚球网站,他们的数据科学家和数据工程师在这方面花费很大 30%或更多的时间 解决数据问题——把精力用在创新上更好.

比任何人都早知道

在过去的几年里,我和 超过150个数据领导 关于他们的数据停机时间,范围从几个空值到完全不准确的数据集. 他们的个人问题涉及方方面面, 但有一件事是明确的:这不仅仅是几个缺失的数据点.

一家受欢迎的高端服装租赁公司的工程副总裁告诉我,在他的团队开始监控数据停机之前, 他们的整个客户信息数据库 8小时, 披露巨额科技债务. 更糟的是, 他们几个月都没有发现这个问题, 仅在数据仓库迁移期间标识它. 虽然它最终只是一个相对简单的修复(和一个尴尬的发现), 如果能尽快知道并解决就好了.

数据停机对他们的业务造成了损失. 那些依赖及时数据为客户做出明智决定的分析师对自己的管道缺乏信心. 随之而来的是收入损失. 这类事件经常发生,没有一家公司能幸免.

同样,SRE团队是第一个知道应用程序崩溃或性能问题的团队, 数据团队应该首先了解糟糕的管道和数据质量问题, 太. 就在六年前, 数据丢失和停机时间累计给公司造成1美元的损失.每年7万亿; in an age where data is ubiquitous and 数据管理工具还没有赶上来在美国,这些数字可能变得更糟.

为了避免数据停机,重要的是有 完整的可观测性 在数据的整个生命周期中——从来源到消费. 强大的管道可以带来准确和及时的见解,从而可以做出更好的决策, 真正的治理和更快乐的顾客.

如何使我的数据可靠?

我建议数据团队在其组织中实现高数据可靠性的两种主要方法:1)设置数据SLOs和2)投资于减少数据停机时间的自动化解决方案.

为数据设置SLOs和sli

为系统可靠性设置SLOs和sli是任何SRE团队所期望和必需的功能, 在我看来, 是时候把它们应用到数据上了, 太. 一些公司也已经在这么做了.

在数据的上下文中, SLOs指的是数据团队希望通过一组给定的sli实现的值的目标范围. 您的SLOs将根据组织的需求和客户的需求而变化. 例如, B2B云存储公司的SLO可能为每100小时的正常运行时间停机1小时或更少, 而拼车服务的目标是尽可能多的正常运行时间.

下面介绍如何定义数据sli. 在之前的文章中,我已经讨论过 数据可观察性的五大支柱. 重新包装, 这些支柱是你的五个关键数据SLIs:新鲜度, 分布, 体积, 模式, 与血统.

  • 新鲜: 新鲜旨在了解数据表的最新程度, 以及您的表格更新的节奏.
  • 分布分布:, 换句话说, 数据可能值的函数, 告诉您数据是否在可接受的范围内.
  • 体积: 容量指的是数据表的完整性,并提供了关于数据源健康状况的见解.
  • 模式: 模式更改通常表示损坏的数据.
  • 血统:数据沿袭提供了答案,告诉你哪些上游来源和下游摄入者受到了影响, 以及哪些团队在生成数据以及谁在访问数据.

与我一起工作的许多数据团队都对与最新和最伟大的数据基础设施和商业智能工具集成的前景感到兴奋,但是, as 我写 以前,这类解决方案的好坏取决于为其提供动力的数据. 这些sli将使您能够更好地了解数据的实际情况以及是否可以信任它.

为数据可靠性投资

事实是——以某种方式——你已经在为数据可靠性投资了. 无论是通过您的团队所做的手工工作来验证数据, 您的工程师正在编写的自定义验证规则, 或者仅仅是基于破碎数据或未被注意的无声错误所做决定的成本. 你要为此付出惨痛的代价.

但 is 一个更好的方法. 与站点可靠性工程师使用自动化来确保应用程序正常运行和提高效率的方法相同, 数据团队还应该依赖于支持机器学习的平台,使数据可靠性更容易、更容易获得,从而做出更好的决策, 更好的信任, 和更好的结果.

就像任何好的SRE解决方案一样, 最强的数据可靠性平台将为您提供自动化, 可伸缩的, ML-driven 可观察性 进入你的管道-使它容易仪表, 监控, 警报, 进行故障排除, 解决, 并在数据问题上进行协作——最终从一开始就减少您的数据停机率,从而提高整个数据管道的可靠性.

现在, 明确学校图书馆, SLOs, 并提出了一种数据可靠性的新方法, 推荐一个正规滚球网站终于可以把消防工作交给专业人士了.

如果你想了解更多,联系 巴尔摩西.