错误的数据,更多的问题

2020年6月,有报道称 错误数据 阻碍了你.S. 政府推出COVID-19经济复苏计划的能力. 除了其他严重的错误,这个 数据停机时间 事件送到 $1.40亿年 在COVID-19刺激方案中,对死人进行检查.

数据停机时间—数据不完整的时间, 错误的, 失踪或者不准确——不仅仅是联邦政府的问题. 几乎每个组织都在与之斗争.

这是两篇系列文章的第一部分, 我提出了一种数据停机的解决方案:数据可靠性, 这个概念是从 站点可靠性工程(SRE) 这已经被业内一些最好的数据团队采用.

推荐一个正规滚球网站如何解决数据停机问题?

有一天,我采访了一家颇受欢迎的上市科技公司的数据副总裁,他对我评价很高,他告诉我数据宕机对他公司的影响,从财务报告、监管报告到市场分析,甚至是客户参与度指标.

他厌倦了传统 数据质量 方法是解决数据问题的解毒剂.

数据质量检查只能到此为止,”他说(是的,他同意匿名采访). “我想要一些能让我在其他人(包括我的老板)知道数据停机之前就知道的东西. 说真的,让我这么说吧,我认为这是 "让推荐一个正规滚球网站的CFO免于牢狱之灾" 优先级.

他不是独自一人. 在过去的几年里,我与数百位数据主管谈论过他们的 数据停机时间 问题,从几个空值到完全不准确的数据集. 他们的个人问题范围很广,从浪费时间(这是显而易见的)到浪费时间 浪费金钱,甚至是重要的 合规风险.

解决数据停机问题, 我建议利用推荐一个正规滚球网站朋友的一些最佳实践, “坏软件”的争论者: 网站可靠性工程师.

SRE的兴起

自21世纪初以来, 网站可靠性工程 (SRE)谷歌的团队(这个术语的起源)和其他公司一直在批评,不仅是因为它们解决了网络中断问题, 但是通过构建可伸缩和高可用性的系统,首先要防止它们. 随着软件系统变得越来越复杂, 然而, 工程师开发的小说, 以自动化的方式扩展和操作他们的技术堆栈,以平衡可靠性和创新的双重需求.

现场可靠性工程师(SREs)经常被描述为勇敢的消防员, 整晚都在呼来唤去解决隐藏的漏洞, 延迟的应用程序, 和系统中断. 除此之外, SRE团队帮助自动化过程,促进无缝软件部署, 配置管理, 监控, 通过自动化的解决方案来衡量 消除辛劳 和最小化 应用程序宕机 首先.

在软件工程中,每个团队都有这样的SRE解决方案 New Relic, DataDog, or PagerDuty 用于度量应用程序的运行状况并确保可靠性. 为什么数据团队会盲目飞行?

数据团队的可靠性

在网站可靠性工程中,这个短语 “希望不是策略” 很受欢迎. 它告诉SRE的理念,系统不是自己运行的, 每一个软件的背后都有一个工程师, 尽他们所能, 确保一定程度的可靠性.

希望并不能让你的公司免于做决定 错误的数字. 数据的可靠性.

同样,SRE团队是第一个知道应用程序崩溃或性能问题的团队, 数据工程和运营团队应该首先了解坏管道和数据停机问题, 太. 就在六年前, 数据停机时间累计给公司造成1美元的损失.每年7万亿; in an age where data is ubiquitous and 数据管理工具还没有赶上来在美国,这些数字可能变得更糟.

然而,为了使数据完全可用、可信和自助式,数据团队必须专注于减少 数据停机时间 通过实现完全的可靠性.

毫无疑问,这种新方法将改变游戏行业的规则, 我很高兴看到企业加入到数据可靠性运动中来. 毕竟:当你可以相信自己的数据时,谁还需要希望?

如果你想了解更多,联系 巴尔摩西.