Data Catalogs Are Dead; Long Live 数据发现

As companies increasingly leverage data to power digital products, 驱动决策, 和燃料创新, 理解ing the 健康 and reliability of these most critical assets is fundamental. For decades, organizations have relied on 数据目录 to power data governance. 但这就够了吗? 

Debashis萨哈他是AppZen的工程副总裁,曾在eBay和Intuit任职 巴尔摩西, 可以玩滚球的正规app的首席执行官和联合创始人, discuss why 数据目录 aren’t meeting the needs of the modern data stack, 以及需要一种新的方法——数据发现——来更好地促进元数据管理和数据可靠性.

有兴趣学习更多关于蒙特卡罗的数据目录和元数据管理方法? 请求一个演示.

这不是什么秘密:知道你的数据在哪里,谁可以访问它是了解它对你的业务影响的基础. 事实上,当谈到建筑的时候 一个成功的数据平台, it’s critical that your data is both organized and centralized, while also easily discoverable.

类似于图书馆的实体目录, 数据目录 作为元数据清单,为用户提供评估数据可访问性所需的信息, 健康, 和位置. 在推荐一个正规滚球网站这个时代 自助服务商业智能, 数据目录 have also emerged as a powerful tool for data management and data governance. 

毫不奇怪,对于大多数数据领导者来说,他们的首要任务之一就是构建数据目录. 

至少,一个数据目录应该回答: 

  • 我应该在哪里查找我的数据? 
  • 这些数据重要吗?? 
  • 这些数据代表什么?
  • 这些数据是否相关且重要? 
  • 我如何使用这些数据? 

仍然, as data 操作 mature and data pipelines become increasingly complex, traditional 数据目录 often fall short of meeting these requirements. 

以下是为什么一些最好的数据工程团队正在创新他们的元数据管理方法——以及他们正在做的事情:

数据目录哪里不够用

而数据目录具有记录数据的能力, the fundamental challenge of allowing users to “discover” and glean meaningful, real-time insights about the 健康 of your data has largely remained unsolved.

推荐一个正规滚球网站所知道的数据目录无法跟上这种新现实的步伐,主要有三个原因:(1)缺乏自动化, (2) inability to scale with the growth and diversity of your data stack, (3)非分布式格式. 

自动化需求的增加

传统的数据目录和治理方法通常依赖于数据团队来完成繁重的手工数据输入工作, holding them responsible for updating the catalog as data assets evolve. 这种方法不仅耗费时间, but requires significant manual toil that could otherwise be automated, 为数据工程师和分析师腾出时间,让他们专注于那些真正能带来重大进展的项目.

作为一个数据专家, 理解ing 数据的状态 is a constant battle and speaks to the need for greater, 更多定制的自动化. 也许这个场景让推荐一个正规滚球网站想起了: 

利益相关者会议之前, 你是否经常发现自己疯狂地ping Slack频道,想要弄清楚是哪些数据集提供给你正在使用的特定报告或模型——以及上周数据究竟为什么不来了? 为了解决这个问题, 你和你的团队是否会挤在一个房间里,为了一份特定的关键报告,开始在白板上记录上下游所有的各种联系? 

I’ll spare you the gory details, but it probably looked something like this:

您的数据沿袭看起来像线条和箭头的风暴吗? 那推荐一个正规滚球网站就有二百人了. 图片由 在上面.

如果这击中要害,你不是一个人. 许多需要解决这个依赖关系拼图的公司需要花费数年的时间来手动绘制他们所有的数据资产. 有些人能够投入资源来构建短期黑客,甚至内部工具,让他们能够搜索和探索自己的数据. 即使它能让你达到最终目标, 这给数据组织带来了沉重的负担, costing your data engineering team time and money that could have been spent on other things, 比如产品开发或实际使用数据. 

随数据变化而伸缩的能力

数据目录s work well when data is structured, but in 2020, that’s not always the case. As machine-generated data increases and companies invest in ML initiatives, 非结构化数据变得越来越普遍, 占 超过90%的新数据产生.  

通常存储在数据湖中, 非结构化数据没有预定义的模型,必须经过多次转换才能变得可用和有用. 非结构化数据非常动态, 和它的形状, source, and meaning changing all the time as it goes through various phases of processing, 包括转换, 建模, 和聚合. 推荐一个正规滚球网站如何处理这些非结构化数据(i.e., 变换, 模型, 总, 和可视化), 使其在“期望状态”下编目更加困难.” 

在此之上,而不是简单地 描述 the data that consumers access and use, there’s a growing need to also 理解 数据基于其意图和目的. 数据的生产者如何描述资产,与数据的消费者如何理解其功能有很大的不同, 甚至在一个数据消费者和另一个数据消费者之间,对数据含义的理解也可能存在巨大差异. 

例如, 从Salesforce提取的数据集对于数据工程师和销售团队的人来说有着完全不同的意义. 而工程师会理解“DW_7_V3”的意思, 销售团队会挠头的, 试图确定该数据集是否与Salesforce的“2021年收入预测”仪表盘相关. 这样的例子不胜枚举.

静态数据描述受其本质的限制. 在2021年,推荐一个正规滚球网站必须接受和适应这些新的和不断变化的动态,以真正理解数据. 

Data is distributed; catalogs are not  

尽管现代数据体系结构分布广泛(见: 数据网格) and the move towards embracing semi-structured and unstructured data as the norm, most 数据目录 still treat data like a one-dimensional entity. 当数据被聚合和转换时, 它流经数据堆栈的不同元素, 几乎不可能记录下来. 

Traditional 数据目录 manage metadata (data about your data) at the ingest state, 但数据是不断变化的, making it hard to 理解 the 健康 of your data as it evolves in the pipeline. 图片由巴尔摩西提供.

现在,数据趋向于 自描述, 在单个包中包含数据和描述该数据的格式和含义的元数据. 

由于传统的数据目录是不分布式的, it’s near to impossible to use as a central source of truth about your data. This problem will only grow as data becomes more accessible to a wider variety of users, 从BI分析师到运营团队, 以及为ML提供动力的管道, 操作, 分析变得越来越复杂.

A modern data catalog needs to federate the meaning of data across these domains. 数据团队需要能够理解这些数据域如何相互关联,以及聚合视图的哪些方面是重要的. They need a centralized way to answer these distributed questions as a whole – 换句话说, 一个分布式的, 联邦数据目录. 

从一开始就投资于正确的方法来构建数据目录将允许您构建一个更好的数据平台,从而帮助您的团队民主化和轻松地探索数据, allowing you to keep tabs on important data assets and harness their full potential.

数据目录2.0 =数据发现

当你有严格的模型时,数据目录工作得很好, 但随着数据管道变得越来越复杂,非结构化数据成为黄金标准, 推荐一个正规滚球网站对这些数据的理解(它的作用), 谁使用它, 它的使用方法, 等.)并不能反映现实. 

We believe that next generation catalogs will have the capabilities to learn, 理解, 并推断数据, enabling users to leverage its insights in a self-service manner. 但是推荐一个正规滚球网站如何到达那里呢? 

Data discovery can replace the modern data catalog by providing distributed, 对跨不同领域的数据的实时洞察, 同时遵守一套中央治理标准.  图片由巴尔摩西提供.

除了编目数据, metadata and data management strategies must also incorporate 数据发现, a new approach to 理解ing the 健康 of your distributed data assets in real-time. 借鉴了Zhamak Deghani和Thoughtworks提出的面向领域的分布式架构 数据网格模型, 数据发现 posits that different data owners are held accountable for their data as products, as well as for facilitating communication between distributed data across different locations. 一旦数据被一个给定的域服务和转换, the domain data owners can leverage the data for their operational or analytic needs. 

Data discovery replaces the need for a data catalog by providing a domain-specific, dynamic 理解ing of your data based on how it’s being ingested, 存储, 聚合, 由一组特定的消费者使用. 与数据目录一样, 治理标准和工具跨这些领域联合(允许更好的可访问性和互操作性), 但与数据目录不同, 数据发现显示了对数据当前状态的实时理解,而不是理想状态或“编目”状态.

数据发现可以回答这些问题,不仅是数据的理想状态,而且跨越每个域的数据的当前状态: 

  • 什么数据集是最近的? 哪些数据集可以弃用? 
  • 该表上次更新是什么时候? 
  • 在我的领域中,一个给定的领域是什么意思? 
  • 谁能访问这些数据? 最后一次使用这些数据是什么时候? 世卫组织? 
  • 该数据的上游和下游依赖关系是什么? 
  • 这是生产质量数据吗? 
  • 哪些数据对我的领域的业务需求很重要? 
  • What are my assumptions about this data, and are they being met? 

推荐一个正规滚球网站相信下一代的数据目录, 换句话说, 数据发现, 将具有以下特点: 

自助服务发现和自动化

Data teams should be able to easily leverage their data catalog without a dedicated support team. 自助服务, 自动化, 数据工具的工作流编排消除了数据管道各阶段之间的竖井, 在这个过程中, 更容易理解和访问数据. Greater accessibility naturally leads to increased data adoption, 减少数据工程团队的负载.  

随着数据发展的可伸缩性 

As companies ingest more and more data and unstructured data becomes the norm, 扩展以满足这些需求的能力对于数据计划的成功至关重要. 数据发现利用机器学习来获得数据资产的鸟瞰视图, 确保您的理解随着数据的发展而变化. 这种方式, 数据消费者可以做出更智能、更明智的决策,而不是依赖于过时的文档(也就是关于过时数据的数据), 多少元!),或者更糟——基于直觉的决策. 

数据沿袭 对分布式发现  

数据发现在很大程度上依赖于自动的表级和字段级沿袭来映射数据资产之间的上下游依赖关系. Lineage有助于在正确的时间显示正确的信息(数据发现的核心功能),并在数据资产之间建立连接,这样当数据管道发生故障时,您就可以更好地排除故障, 这是一个越来越普遍的问题 现代数据栈的演变 以适应更复杂的用例.

Data reliability to ensure the gold standard of data — at all times

The truth is — in one way or another — your team is probably already investing in 数据发现. Whether it’s through manual work your team is doing to verify data, 您的工程师正在编写的自定义验证规则, or simply the cost of decisions made based on broken data or silent errors that went unnoticed. 现代数据团队已经开始利用自动化方法来确保流程的每个阶段都有高度可信的数据, 从数据质量监控到更加稳健, 端到端 可观察性数据平台 监视和警告数据管道中的问题. 当数据中断时,此类解决方案会通知您,以便您可以快速识别根本原因,以便快速解决和 防止未来的停机时间

Data discovery empowers data teams to trust that their assumptions about data match reality, enabling dynamic discovery and a high degree of reliability across your data infrastructure, 无论域. 

接下来是什么? 

如果坏数据比没有数据更糟糕, a data catalog without 数据发现 is worse than not having a data catalog at all. 实现真正可发现的数据, 重要的是,你的数据不只是“编目”,,但也很准确, 清洁, and fully observable for ingestion to consumption – 换句话说: reliable. 

A strong approach to 数据发现 relies on automated and scalable data management, 哪种方法适用于数据系统的新分布式特性. 因此, 在组织中真正启用数据发现, 推荐一个正规滚球网站需要重新思考如何处理数据目录.  

只有理解你的数据, 数据的状态, 以及如何在生命周期的各个阶段使用它, 跨领域——推荐一个正规滚球网站能开始相信它吗.