数据可观察性:数据工程的下一个前沿

要跟上数据时钟的创新速度, 数据工程师不仅需要投资于最新的建模和分析工具, 但也有技术可以提高数据的准确性和防止管道破裂. The solution? 数据可观测性是数据工程的下一个前沿领域,也是新兴的支柱 数据可靠性范畴.

随着公司越来越多地受到数据驱动, 这些丰富见解背后的技术已经变得越来越微妙和复杂. 而推荐一个正规滚球网站收集的能力, store, aggregate, 可视化这些数据在很大程度上满足了现代数据团队的需求(想想: 面向领域的数据网格, 云仓库, 数据可视化工具, and 数据建模推荐一个正规滚球网站),背后的机制 data quality 而完整性则滞后了. 

不管你的分析仪表盘有多先进,也不管你在云上投入了多少, 你最好的计划都是徒劳的,如果它吸收的数据, transforms, 把水推到下游并不可靠. 换句话说,“无用输入”就是“无用输出”.” 

在推荐一个正规滚球网站讨论什么是数据可靠性之前, 让推荐一个正规滚球网站来看看有多不可靠, “垃圾”数据首先被创建. 

好的数据是如何变坏的 

在过去的12个月里,我与数百个数据工程团队进行了交谈, 我注意到,好数据变坏有三个主要原因:1)单一数据生态系统中越来越多的数据源, 2)数据管道日益复杂, and 3) bigger, 更专业的数据团队.

越来越多的数据源

Nowadays, 公司使用数十到数百个内部和外部数据源来生成分析和ML模型. 这些来源中的任何一个都可能以意想不到的方式发生变化,并且不需要通知, 泄露公司用来做决定的数据. 

For example, 工程团队可能会对公司的网站进行更改, 因此,修改数据集的输出是市场分析的关键. As a result, 关键的营销指标可能是错误的, 导致公司在广告宣传方面做出糟糕的决定, 销售目标, 和其他重要, revenue-driving项目.

日益复杂的数据管道

数据管道越来越复杂,有多个处理阶段和各种数据资产之间的重要依赖关系. 这些依赖关系很少可见, 对一个数据集进行的任何更改都可能产生意想不到的后果,影响相关数据资产的正确性. 

一个系统中简单的单位改变可能会严重影响另一个系统的正确性, 在这个例子中 火星气候轨道器. 美国宇航局的太空探测器, 火星气候轨道飞行器坠毁的原因是数据输入错误,产生的输出是非单位制单位与单位制单位, 让它离地球太近. 像宇宙飞船, 在过程的任何阶段,分析管道都很容易受到最无害的变化的影响.

更大、更专业的数据团队

随着企业越来越依赖数据来推动明智的决策, 他们正在雇佣越来越多的数据分析师, scientists, 工程师来建立和维护数据管道, analytics, 以及为他们的服务和产品提供动力的ML模型, 以及他们的业务运作. 

沟通不畅或协调不足是不可避免的, 并且会导致这些复杂的系统在发生变化时崩溃. For example, 一个团队在数据表中添加的新字段可能会导致另一个团队的管道失败, 导致缺失或部分数据的. Downstream, 这些糟糕的数据可能导致数百万美元的收入损失, 客户信任的侵蚀, 甚至合规风险.

坏数据的好消息? 数据工程正在经历自己的复兴,推荐一个正规滚球网站非常感谢推荐一个正规滚球网站的同行 DevOps 一些指导推荐一个正规滚球网站走向下一个前沿的关键概念和原则. 

免费下载O 'Reilly的数据质量基础知识

下一个前沿领域:数据可观察性

构建“垃圾数据”效果的一种简单方法是通过软件应用程序可靠性的视角. 在过去的十年左右, 软件工程师利用了像New Relic和DataDog这样的针对性推荐一个正规滚球网站,以确保高的应用正常运行时间(换句话说, working, 性能软件),同时保持停机时间(停机和滞后软件)到最小. 

在数据中,推荐一个正规滚球网站称之为这种现象 Data Downtime. 数据停机时间是指数据不完整的一段时间, erroneous, missing, 或者不准确, 当数据系统变得越来越复杂时,它只会成倍增加, 支持资源和消费者的无尽生态系统.

通过应用 软件应用的可观察性和数据可靠性的原则相同, 这些问题是可以确定的, 决心,甚至是预防, 让数据团队对他们的数据有信心,从而提供有价值的见解.

下面,推荐一个正规滚球网站将介绍数据可观察性的五个支柱. 每个支柱都包含了一系列的问题, in aggregate, 提供数据运行状况的整体视图. 也许你会觉得很眼熟? 

  • Freshness:是最近的数据? 它最后一次生成是什么时候? 包含/省略了哪些上游数据?
  • Distribution:表示接受范围内的数据? 格式正确吗? 它是完整的?
  • Volume:所有的数据都到了?
  • Schema模式是什么,它是如何变化的? 谁做出了这些改变,原因是什么?
  • Lineage:对于给定的数据资产, 受其影响的上游资源和下游资产有哪些? 谁是生成这些数据的人,谁依赖这些数据来做决策?

数据可观察性的健壮和全面方法需要通过一个集中的接口对这五个支柱进行一致和可靠的监控,该接口作为数据健康状况的中心来源.

端到端数据可靠性平台允许团队探索和理解他们的数据沿路, 自动映射上下游依赖关系, 以及这些资产的健康状况.

An effective, 前瞻性数据可观察性推荐一个正规滚球网站将快速无缝地连接到您现有的堆栈, 提供端到端沿袭,允许您跟踪下游的依赖项. Additionally, 它将自动监控您的数据—不需要从数据存储中提取数据. 这种方法可确保您满足最高级别的安全性和遵从性需求,并可扩展到要求最高的数据量.

这种推荐一个正规滚球网站还需要最小的配置,实际上不需要设置阈值. 它使用ML模型自动学习您的环境和数据. 它使用异常检测技术,让您知道什么时候发生故障. 它通过考虑不仅仅是单个指标来最小化误报, 而是对你的数据和任何特定问题的潜在影响的整体看法.

这种方法提供了 丰富的上下文,支持快速分类和故障排除,并与受数据可靠性问题影响的涉众进行有效沟通. 不像特别的查询或简单的SQL包装器, 这样的监视不会停止于“表Y中的字段X的值今天低于Z”.”

数据目录将有关数据资产的所有元数据包含在一块玻璃中, 所以你可以看到你可以看到血统, schema, 历史变化, freshness, volume, users, queries, 在单个视图中还有更多.

或许最重要的是, 这种推荐一个正规滚球网站通过在这五个支柱上公开关于数据资产的丰富信息,从而能够负责任地、主动地进行更改和修改,从而防止发生数据停机事件.

数据可观察性的下一步是什么? 

就我个人而言,我对这个数据工程的新前沿无比兴奋. 随着数据领导者越来越多地投资于利用数据可观察性的数据可靠性推荐一个正规滚球网站, 我预计这个领域将继续与数据工程的其他一些主要趋势交叉, including: data mesh、机器学习、 云数据架构, and the 数据产品的平台化

有兴趣用蒙特卡罗方法开创数据可观测领域? Apply for a role on our team!