元数据是无用的——除非你有一个用例

上周, 我参加了Coalesce会议的一个小组讨论, 由Fishtown Analytics团队(dbt的创造者)领导, 讨论元数据在现代数据栈中的角色. 推荐一个正规滚球网站讨论的要点之一是: 元数据是无用的. 在这篇博文中,我将解释其中的原因.

在过去的十年里, 数据团队越来越擅长收集大量数据. 这有可能推动数字创新和更智能的决策, 它还 公司被数据淹没 他们不理解或不能使用.

渴望成为数据驱动的组织常常看不到树木的森林:没有明确应用程序或用例的数据只不过是数据库中的一个文件或电子表格中的一列.

近年来, 推荐一个正规滚球网站已经看到了数据的崛起:现在, 公司正在收集越来越多关于他们数据的数据, 换句话说, 元数据. 总的来说,这种对元数据的热情对行业来说是一个巨大的胜利. 像dbt这样的ETL解决方案可以很容易地跟踪和使用元数据, 而云提供商则使数据解决方案之间的元数据互操作性更加无缝.

仍然, 随着推荐一个正规滚球网站变得越来越依赖元数据, 记住不要再犯同样的错误是很重要的.

元数据越多,问题就越多

就像没有上下文的数据只不过是一堆数字, 元数据本身是没有用的——它只是关于其他信息的更多信息. 收集您想要的所有数据,但是如果没有实际的用例,元数据在很大程度上是没有意义的.

举个例子, 血统, 一种元数据类型,用于跟踪数据管道中的上游和下游依赖项之间的关系. 虽然令人印象深刻(霓虹灯颜色! 节点! 锋利的线条!), 没有背景的血统只是花瓶, 非常适合与你的主管们进行演示,但是, 老实说, 就没有别的了.

图片的文章
没有商业用例的天堂只是一个空洞的疯狂三月. 图片由巴尔摩西提供.

血统的价值并不来自于拥有它的简单行为, 而是在于它与特定用例或业务应用程序的相关性.

血统会在哪里 实际上 有用的? 除了在花哨的演示或ppt演示中看起来不错, 数据沿袭可以成为理解的强大工具:

如何理解将影响消费者的数据更改,并确定解决该用例的最佳行动方案

例如,您想要更改某个特定字段. 没有血统, 你可能会盲目地做出改变——希望不会有后续影响(你:“祈祷下游消费者不会对这一变化感到惊讶!”).

通过使用字段和表级沿袭, 您可以看到哪些特定的表, 报告, 最重要的是——使用这些资产的用户——将受到这一变化的影响.

当数据资产崩溃时,如何排除问题的根本原因

在另一个场景, 你可能会在半夜被呼叫,说你的团队第二天早上要向高管展示一个坏了的仪表盘. 你需要一种快速的方法来理解是什么原因导致你的Tableau图完全无用.

但是这个问题的根本原因是什么呢? 数据仓库中有10万个表,您需要修复哪个表? 有了沿袭性,您可以立即识别与此相关的上游资产 数据停机时间 找出根本原因.

如何向消费者传达坏数据的影响

最后, 比方说数据中断(它经常发生)——具体地说, ETL任务完成, 但这一列中的数据现在80%是空的——本质上是空的, 一个无声的失败. 现在需要强调这种无声的失败如何影响数据的用户.

您如何知道谁将受到影响,以及应该就此通知谁? Lineage提供了一种快速而简单的方式来沟通发生了什么以及在哪里发生了什么,这样您就可以在解决问题时让利益相关者知道.

在一天结束时, 血统和元数据对于数据团队和公司来说是非常有价值的,但只有当它直接应用到你的业务中.

图片的文章
当在业务应用程序的上下文中整体捕获时, 元数据有可能成为整个公司的力量倍增器. 图片由巴尔摩西提供.

当在业务应用程序的上下文中整体捕获时, 元数据有可能成为整个公司的力量倍增器. 图片由巴尔摩西提供.

在一天结束时, 您的元数据(包括但不限于血统)应该回答比基本的“谁”更多的问题, 什么, 在哪里, 当, 为什么?关于你的数据. 它应该使你的客户(无论是内部的还是外部的)能够为与客户的痛点和用例相关的问题提供最新和准确的答案, 包括:

  • 这些数据重要吗??
  • 这些数据代表什么?
  • 这些数据对我的利益相关者是否相关和重要?
  • 我能以安全和兼容的方式使用这些数据吗?
  • 这个问题的答案从何而来?
  • 当我对资产进行更改时,谁会依赖它呢?
  • 推荐一个正规滚球网站能相信这些数据吗?

许多数据团队正试图通过各种解决方案来回答这些问题, 包括挂钩到建模和管道转换工具的api, 数据目录、文档和 血统.

这四种方法都对你的数据提供了丰富的见解, 但他们缺少一个关键的部分:它对你的业务的应用.

应用程序就是一切

没有用例的元数据就像骑自行车的大象. 有趣且令人印象深刻,但不是很有用(除非你在经营一个马戏团).

元数据的真正力量在于何处, 当, 以及推荐一个正规滚球网站如何具体地使用它, 推荐一个正规滚球网站如何将其应用于特定的情况, 推荐一个正规滚球网站正在努力解决的及时问题.

除了收集元数据和构建元数据解决方案, 数据团队还需要问自己:这些元数据的目的是什么? 我如何应用它来解决实际的和相关的客户痛点?

就我个人而言,我对元数据的未来无比兴奋. 通过正确的方法,应用元数据可以成为一个强大的工具 数据可观测性, 数据治理数据发现, 准确的三个关键组成部分, 可靠的, 和可靠的数据,可以为您的组织移动指针.