数据可观察性:五种快速提高数据可靠性的方法

如果你的数据坏了,它会发出声音吗? 

答案很可能是肯定的. 但你愿意听吗? 可能不是. 

现在, 组织在日益复杂的生态系统中吸收大量的数据, 通常情况下,他们的数据会悄无声息地泄露, 结果,数据团队被置于黑暗中——直到为时已晚.  

但, 如果上述数据是你的首席收入官用来决定下一季度预测的报告, 这些数据很有可能会成为一个非常, 非常大的声音. 它甚至可能被几个清晨的电话和紧急的Slack信号放大. 

听起来很熟悉? 幸运的是,数据不必保持沉默. 

输入 Data 可观察性这是一个新兴的,而且越来越重要的层面 现代数据栈, 对于帮助数据团队理解和改善数据健康状况至关重要吗, 在许多情况下,首先要防止这些数据灾难的发生. 

在DevOps, 工程师依靠测试和可观察性来处理应用程序停机并确保一致的正常运行时间. 同样,软件已经成为组织创新能力的关键, 数据也成为决策和产品开发的基础. 类似的, 确保数据正常运行时间和减少数据停机时间(换句话说)的强大方法, 数据丢失的一段时间, 不准确的, 或其他错误)涉及数据测试和可观察性. 

用正确的方法, 数据可观察性甚至可以帮助您理解哪个数据集对您的组织最重要(i.e., 哪些数据集和管道在破裂时发出的声音最大),哪些可以弃用. 

在推荐一个正规滚球网站深入研究5个常见的数据可观察性用例之前, 让推荐一个正规滚球网站首先澄清一下“数据可观察性”是什么意思.

什么是数据可观察性?

数据可观测性, 组织充分了解其生态系统中数据的健康状况的能力, 通过将DevOps的最佳实践和应用程序的可观察性应用到数据管道,消除了数据停机. 就像它的DevOps对手一样, 数据可观察性使用自动监控, 报警, 并进行分类以识别和评估数据质量和可发现性问题, 让管道更健康, 更有效率的团队, 和更愉快的客户关系. 简单点说, 推荐一个正规滚球网站将数据的可观察性分为五个支柱:新鲜度, 分布, 体积, 模式, 与血统. 这些组件共同提供了对数据质量和可靠性的有价值的见解.

  • 新鲜: Freshness旨在了解数据表的最新程度, 以及您的表格更新的节奏. Freshness is particularly important when it comes to decision-making; after all, 过时的数据基本上就是浪费时间和金钱的同义词.
  • 地理分布: 分布, 换句话说, 数据可能值的函数, 告诉您数据是否在可接受的范围内. 数据分布使您能够根据数据的期望了解表是否值得信任.
  • 体积: 容量指的是数据表的完整性,可以洞察数据源的健康状况. 如果2亿行突然变成了500万行,你应该知道.
  • 模式: 数据组织(换句话说,模式)中的变化通常表明数据损坏了. 监视谁对这些表进行了更改以及更改的时间是了解数据生态系统健康状况的基础.
  • 血统: 当数据崩溃时,第一个问题总是“在哪里”?数据沿袭会告诉你哪些上游来源和下游摄食者受到了影响,从而提供了答案, 以及哪些团队在生成数据以及谁在访问数据. 良好的沿袭还收集与治理有关的数据(也称为元数据)的信息, 业务, 以及与特定数据表相关的技术指南, 为所有消费者提供单一的真相来源.

组织应该投资于数据可观察性的五个原因

这五个原因仅仅是对可观察性的投资如何帮助您的团队大规模地提高数据质量和比单独测试更快地信任您的数据的冰山一层. 

1. 从摄取到BI层的全堆栈覆盖

要完全了解数据运行状况,需要全堆栈覆盖. 图片由蒙特卡罗提供.

现代数据环境非常复杂, 数据从各种来源源源不断地流入, 通常来自“外部”资源,这些资源可以在没有通知的情况下发生变化. 然后这些数据被传送到某种类型的数据存储组件中(无论是数据仓库, 数据湖, 或者甚至是数据湖屋), 然后传播到BI层,供涉众使用. 在这段时间内,数据常常要进行多次转换. 

不管你的数据管道有多好, 事实是,数据在其生命周期的任何阶段都可能被破坏. 无论是由于变化还是根源问题, 或者调整你计划中的某个步骤, 或者多个管道之间的复杂交互, 数据可能因为您无法控制的原因而中断. 数据可观察性允许您对管道中的断点具有端到端可见性.

结果:基于ml的高优先级表覆盖

Alex Soria,数据副总裁 & 分析在Mindbody, 领导一个超过25名数据科学家的团队, 商业情报分析师, 数据工程师负责确保驱动他们产品的见解是新鲜可靠的. 

在实现数据可观察性之前, Mindbody无法识别数据的异常情况,直到为时已晚. 通过在他们的Redshift仓库和Tableau仪表板上实现数据可观察性解决方案, 他们现在是第一个发现生命周期中的异常和重复数据的人. 

可观察性数据,  他们能够有效地监控3个高优先级表中的15个,000+,自动检测和警报模式异常, 新鲜, 和体积.



2. 跨数据生态系统的端到端字段级沿袭


由元数据支持的端到端沿袭为您提供必要的信息,而不仅仅是故障排除管道, 但也要了解数据在其生命周期的每个阶段的业务应用. 图片由蒙特卡罗提供.


复杂的数据管道和不断变化的数据生态系统,  跟踪上游和下游的依赖关系是必要的. 端到端沿袭使数据团队能够跟踪从A点(摄入)到Z点(分析)的数据流, 将转换, 建模, 以及过程中的其他步骤. 本质上, 天堂让你的团队鸟瞰你的数据,并让你了解它来自哪里, 谁与之互动, 做出的任何改变, 以及最终服务给终端消费者的地方.

但为了血统而血统是没有用的. 团队需要确保映射的数据1)准确,2)与业务相关.

结果:数据问题的快速分流和事件解决

曼彻斯特 汽车贸易商 是英国和爱尔兰最大的数字汽车市场吗. 对于AutoTrader, 将数百万买家和数千卖家联系起来需要大量的数据.

最重要的是,希望添加自动监控和警报, 汽车贸易商需要一种方法来跟踪BigQuery中的哪些表出现在Looker中的特定报告中, 他们的数据堆栈中最可见的一层. 具有数据可观察性和自动化的端到端沿袭, AutoTrader的团队能够快速有效地调查问题,因为他们对问题的原因有更好的理解, 还有什么会受到影响, 问题和决议还应该通知谁.

3. 对破损报告和管道的影响分析 

与事件的智商, 数据团队可以理解根本原因, 上游和下游依赖关系, 和其他关键的背景信息的Segment数据事件. 图片由蒙特卡罗提供.


通过获取对运行状况的端到端可见性, 使用模式, 数据资产的相关性,您的数据团队能够更快地解决数据问题. 在响应数据事件时,时间是至关重要的, 数据可观察性使您的团队能够比传统方法更快地解决问题和了解影响, 手动方法.

结果:对缺失进行根本原因分析, 不新鲜的, 或不准确的数据在几分钟内, 而不是几个小时或几天

Hotjar是一家全球产品体验洞察公司,数据为各种各样的用例提供动力, 从制作理想的营销活动,创造令人愉快的产品特征. 他们的数据工程团队支持超过180个涉众和他们的数据需求, 从部署模型和构建管道到密切关注数据健康状况. 当数据停机时, 他们需要一种方法来密切关注正在发生的事情,以及上下游受到该问题影响的其他事情. 了解停机的原因, 他们利用了数据可观察性的一个关键组件, 端到端沿袭,以理解与问题相关的上游和下游依赖关系. 现在, 他们的团队可以进行影响评估,并更快、更有效地确定问题的根本原因. 从那里,团队可以纠正路线,并确定那些需要知道该事件的人.

4. 根据数据生态系统进行监控和警报

良好的警报将突出适当的渠道, 收件人, 并与手头问题类型对应的通知信息. 图片由蒙特卡罗提供.

当数据泄露时,你的团队应该是第一个知道的. 对于数据工作者来说,没有什么比不断收到有关数据问题的电子邮件和信息更尴尬的了,而利益相关者在查看报告时却发现了这些问题. 数据可观察性确保您的团队是第一个了解和解决数据问题的人, 因此,您可以立即解决数据停机的影响. 在理想的情况下, 这些警报应该是自动的,您只需花费最少的精力就可以启动和运行(这对于扩展您的数据堆栈非常好).


结果:增加创新,减少安装管道的时间

Blinklist, 图书汇总订阅服务受益于关键数据资产的自动监控和警报, 平均每周节省120小时. 通过使用机器学习算法来生成阈值和数据停机警报规则, 团队中的每个工程师 每周可节省20小时现在,这些资金都用于为最终用户打造产品功能和仪表盘.

5. 数据工程师、数据分析师和数据科学家之间更容易协作

蒙特卡罗的警报工作流将特定仓库中的异常情况通知数据工程师和分析师, 在这种情况下, 由分发问题引发. 图片由Optoro提供.

数据可观察性给数据团队带来的最常用的好处之一就是团队成员之间的协作得到了增强. 一流的数据可观察性平台促进了每个数据涉众数据质量的透明度. 而不是每个功能都有自己的竖井式的方法,以保持在数据质量问题的顶部, 为所有数据工程师提供数据可观测平台, 数据科学家, 数据分析人员可以更好地理解数据健康状况,并在提高数据质量方面进行协作.


结果:分散的、跨团队的自服务治理 更可靠的数据

Optoro 是一家利用数据和实时决策来帮助零售商和制造商管理和转售退货和多余商品的技术公司吗. 通过采用数据可观测平台,该团队已经 每周大约节省44小时 在支持票调查坏数据. 和, 因为所有数据团队成员都可以访问自助监控和警报, 数据编目视图, 与血统, 现在,跨其他领域的数据分析师能够进一步加强对数据的所有权,并对他们发布的产品负责.

有兴趣了解更多关于数据可观察性如何帮助您的团队的信息? 联系团队 蒙特卡罗.