数据质量的新规则

在这个世界上有两种类型的数据质量问题: 那些你能预测的(已知的未知)那些你不能(未知的未知). 以下是一些最好的数据团队如何采取更全面的方法来大规模地解决这两个问题.

在过去的几年里,数据团队利用了等价的 单元测试 检测数据质量问题. In 2021, 随着企业吸收的数据越来越多,管道也变得越来越复杂, 这种单点故障方法不再有效.

不要误解推荐一个正规滚球网站: 你应该测试你最重要的数据. 数据测试 一定要抓具体的吗, 在数据管道中出现的已知问题, 有很多很棒的工具可以帮助你. 由Fivetran驱动的Segment应用程序源和Salesforce数据流入你的Snowflake仓库,然后由dbt转换, 并最终为CEO用于季度财务报告的Looker仪表盘提供动力? 测试了.

仍然, 即使是自动化测试, 继续更新现有测试和阈值需要大幅提升, 写新的, 随着数据生态系统的发展和数据的发展,旧的数据也会被弃用. 随着时间的推移,这个过程变得乏味、耗时,并产生更多的结果 技术债务 你以后需要还钱.

电子商务公司的一位客户——推荐一个正规滚球网站叫她Rebecca——告诉推荐一个正规滚球网站,她的数据工程团队过去只依赖自定义测试来捕捉最关键管道中的数据问题……直到他们没有这样做. 

丽贝卡和她的团队对管道进行了测试,但只需要一个 未知的未知 (在这种情况下,是分销异常)让公司陷入混乱. 他们在无法处理的交易上损失了收入, 她的高管们也失去了对这些数据的信任.

她的团队可以追踪已知的未知(i.e., 推荐一个正规滚球网站知道这可能是个问题, 让推荐一个正规滚球网站来测试一下), 但他们没有一个全面的方法来解释未知的未知.

数据管道中的未知未知数 

未知的未知数(我.e., 您无法预测的数据质量问题)通常不会暴露出来,直到它们影响到下游系统时才会暴露出来, 你的生意可能已经受损了. 图片由 Myriam杰西 on Unsplash.

Un知道n未知指的是 数据停机时间 即使是最全面的测试也无法解释, 贯穿整个数据管道的问题, 不仅仅是特定测试所涵盖的部分. 未知的未知可能包括: 

  • 临界场的分布异常 导致你的Tableau仪表盘故障 
  • 由另一个团队进行的JSON模式更改 6列变成600
  • 对ETL的意外更改 (or 反向ETL)导致测试无法运行和错误数据丢失
  • 未被注意到的不完整或陈旧的数据 直到几周后,才影响到关键的营销指标 
  • 导致API停止收集数据的代码更改 提供一个重要的新产品
  • 数据随时间漂移 抓起来很有挑战性吗, 特别是当你的测试只查看在ETL作业时写的数据时, 哪些通常不考虑已经存在于给定表中的数据

这只是触及了表面. 那么,团队如何预防这些呢 未知的未知 破坏他们原本完美的管道? 对大多数人来说,将这些问题分成两类是有帮助的.

两种类型的数据质量问题

如果数据测试能涵盖你什么 知道 推荐一个正规滚球网站的数据可能会发生变化,推荐一个正规滚球网站需要一种方法来监控和提醒推荐一个正规滚球网站 不知道 可能会发生在你的数据上(推荐一个正规滚球网站未知的未知). 

  • 容易预测的数据质量问题. 对于这些已知的未知数, 自动化数据测试和手动阈值设置应该覆盖您的基础.
  • 无法轻易预测的数据质量问题. 这些是你未知的未知. 随着数据管道变得越来越复杂,这个数字只会增长. 

同样地,应用程序工程团队也不会专门使用单元测试和集成测试来捕获有bug的代码, 数据工程团队需要采取类似的方法 数据可观测性 一个关键的组成部分. 

介绍:一种新的数据质量方法

就像软件一样,需要数据 测试和可观察性 为了确保一致的可靠性. 事实上, 现代数据团队必须将数据视为动态的, 不断变化的实体, 不仅仅适用于严格的测试, 还有持续的可观察性. 考虑到数据有数百万种破坏(或破坏)的方式, 未知的未知), 推荐一个正规滚球网站可以使用同样的DevOps原则来覆盖这些边缘情况.

数据可观察性通过自动监控和规则生成帮助您捕获未知的未知, 扩展数据堆栈的QA覆盖率,并消除手动设置阈值的需要. 图片由蒙特卡罗提供

对于大多数人来说,一种健壮、全面的数据可观察性方法包括:

  • 元数据聚合 & 编目. 如果你不知道你有什么数据,你肯定不会知道它是否有用. 数据目录通常被纳入最佳的数据可观测性平台, 提供一个集中的, 对您的数据生态系统的玻璃视角,揭示了丰富的血统, 模式, 历史变化, 新鲜, 体积, 用户, 查询, 在单个视图中还有更多.
  • 自动监测 & 数据问题的警报. 一个好的数据可观察性方法将确保您是第一个了解和解决数据问题的人, 允许您在数据停机时立即处理其影响, 而不是几个月之后. 除此之外,这样的解决方案需要最少的配置,实际上不需要设置阈值.
  • 沿袭跟踪上游和下游的依赖关系. 健壮的, 端到端沿袭使数据团队能够跟踪从A(摄入)到Z(分析)的数据流, 将转换, 建模, 以及过程中的其他步骤.
  • 两个自定义 & 自动生成规则. 大多数数据团队需要一种方法来利用这两个世界的优点:使用机器学习来根据历史行为识别数据中的异常, 以及设置规则独特的规格您的数据. 不像编写到建模工作流或SQL包装器中的特别查询, 这样的监控不会停止在“表R中的字段T今天的值低于S。.”
  • 数据分析师、数据工程师和数据科学家之间的协作. 数据团队 应该能够轻松快速地协作解决问题, 设定新规则, 更好地了解他们数据的健康状况.

每个数据团队都是不同的, 但推荐一个正规滚球网站发现,这种测试和可观察性的方法既可以处理最可能的数据问题,也可以处理数以百万计的其他导致数据管道破裂的原因.

说到底,已知的未知越多 推荐一个正规滚球网站能抓住未知的未知,越好.

推荐一个正规滚球网站很想知道这个方法是否能引起你的共鸣! 接触 旧金山Alberini, 斯科特·奥利里,以及可以玩滚球的正规app团队的其他成员.