Data Catalogs Are Dead; Long Live 数据发现

随着企业越来越多地利用数据来驱动数字产品, 驱动决策, 和燃料创新, 了解这些最关键资产的健康和可靠性是至关重要的. 几十年来,组织一直依靠数据目录来推动数据治理. 但这就够了吗? 

Debashis萨哈他是AppZen的工程副总裁,曾在eBay和Intuit任职 巴尔摩西, 可以玩滚球的正规app的首席执行官和联合创始人, 讨论为什么数据目录不能满足现代数据栈的需求, 以及需要一种新的方法——数据发现——来更好地促进元数据管理和数据可靠性.

有兴趣学习更多关于蒙特卡罗的数据目录和元数据管理方法? 请求一个演示.

这不是什么秘密:知道你的数据在哪里,谁可以访问它是了解它对你的业务影响的基础. 事实上,当谈到建筑的时候 一个成功的数据平台在美国,重要的是你的数据是有组织的和集中的,同时也很容易发现.

类似于图书馆的实体目录, 数据目录 作为元数据清单,为用户提供评估数据可访问性所需的信息, 健康, 和位置. 在推荐一个正规滚球网站这个时代 自助服务商业智能在美国,数据目录也已成为数据管理和数据治理的强大工具. 

毫不奇怪,对于大多数数据领导者来说,他们的首要任务之一就是构建数据目录. 

至少,一个数据目录应该回答: 

  • 我应该在哪里查找我的数据? 
  • 这些数据重要吗?? 
  • 这些数据代表什么?
  • 这些数据是否相关且重要? 
  • 我如何使用这些数据? 

仍然, 随着数据操作的成熟和数据管道的日益复杂, 传统的数据目录常常不能满足这些要求. 

以下是为什么一些最好的数据工程团队正在创新他们的元数据管理方法——以及他们正在做的事情:

数据目录哪里不够用

而数据目录具有记录数据的能力, 最基本的挑战是让用户“发现”和收集有意义的信息, 关于数据健康状况的实时洞察在很大程度上仍未得到解决.

推荐一个正规滚球网站所知道的数据目录无法跟上这种新现实的步伐,主要有三个原因:(1)缺乏自动化, (2)无法适应数据堆栈的增长和多样性, (3)非分布式格式. 

自动化需求的增加

传统的数据目录和治理方法通常依赖于数据团队来完成繁重的手工数据输入工作, 让他们负责随着数据资产的发展更新目录. 这种方法不仅耗费时间, 但这需要大量的人工工作,而这些工作本来可以自动化, 为数据工程师和分析师腾出时间,让他们专注于那些真正能带来重大进展的项目.

作为一个数据专家, 理解数据的状态是一场持续的战斗,需要更大的理解, 更多定制的自动化. 也许这个场景让推荐一个正规滚球网站想起了: 

利益相关者会议之前, 你是否经常发现自己疯狂地ping Slack频道,想要弄清楚是哪些数据集提供给你正在使用的特定报告或模型——以及上周数据究竟为什么不来了? 为了解决这个问题, 你和你的团队是否会挤在一个房间里,为了一份特定的关键报告,开始在白板上记录上下游所有的各种联系? 

我就不说那些血淋淋的细节了,但它可能看起来是这样的:

您的数据沿袭看起来像线条和箭头的风暴吗? 那推荐一个正规滚球网站就有二百人了. 图片由 在上面.

如果这击中要害,你不是一个人. 许多需要解决这个依赖关系拼图的公司需要花费数年的时间来手动绘制他们所有的数据资产. 有些人能够投入资源来构建短期黑客,甚至内部工具,让他们能够搜索和探索自己的数据. 即使它能让你达到最终目标, 这给数据组织带来了沉重的负担, 让你的数据工程团队花费了本可以花在其他事情上的时间和金钱, 比如产品开发或实际使用数据. 

随数据变化而伸缩的能力

当数据被结构化时,数据目录工作得很好,但在2020年,情况就不总是这样了. 随着机器生成数据的增加和公司对ML计划的投资, 非结构化数据变得越来越普遍, 占 超过90%的新数据产生.  

通常存储在数据湖中, 非结构化数据没有预定义的模型,必须经过多次转换才能变得可用和有用. 非结构化数据非常动态, 和它的形状, source, 这意味着它在经历不同的处理阶段时一直在变化, 包括转换, 建模, 和聚合. 推荐一个正规滚球网站如何处理这些非结构化数据(i.e., 变换, 模型, 总, 和可视化), 使其在“期望状态”下编目更加困难.” 

在此之上,而不是简单地 描述 消费者访问和使用的数据,也有日益增长的需求 理解 数据基于其意图和目的. 数据的生产者如何描述资产,与数据的消费者如何理解其功能有很大的不同, 甚至在一个数据消费者和另一个数据消费者之间,对数据含义的理解也可能存在巨大差异. 

例如, 从Salesforce提取的数据集对于数据工程师和销售团队的人来说有着完全不同的意义. 而工程师会理解“DW_7_V3”的意思, 销售团队会挠头的, 试图确定该数据集是否与Salesforce的“2021年收入预测”仪表盘相关. 这样的例子不胜枚举.

静态数据描述受其本质的限制. 在2021年,推荐一个正规滚球网站必须接受和适应这些新的和不断变化的动态,以真正理解数据. 

Data is distributed; catalogs are not  

尽管现代数据体系结构分布广泛(见: 数据网格),以及将半结构化和非结构化数据作为标准的趋势, 大多数数据目录仍然将数据视为一维实体. 当数据被聚合和转换时, 它流经数据堆栈的不同元素, 几乎不可能记录下来. 

传统的数据目录在摄取状态管理元数据(关于数据的数据), 但数据是不断变化的, 当数据在管道中发展时,很难理解数据的运行状况. 图片由巴尔摩西提供.

现在,数据趋向于 自描述, 在单个包中包含数据和描述该数据的格式和含义的元数据. 

由于传统的数据目录是不分布式的, 它几乎不可能被用作数据真相的中心来源. 随着越来越多的用户能够访问数据,这个问题只会越来越严重, 从BI分析师到运营团队, 以及为ML提供动力的管道, 操作, 分析变得越来越复杂.

现代数据目录需要跨这些领域联合数据的含义. 数据团队需要能够理解这些数据域如何相互关联,以及聚合视图的哪些方面是重要的. 换句话说,他们需要一种集中的方式来回答这些分散的问题, 一个分布式的, 联邦数据目录. 

从一开始就投资于正确的方法来构建数据目录将允许您构建一个更好的数据平台,从而帮助您的团队民主化和轻松地探索数据, 允许您密切关注重要的数据资产,并充分利用它们的潜力.

数据目录2.0 =数据发现

当你有严格的模型时,数据目录工作得很好, 但随着数据管道变得越来越复杂,非结构化数据成为黄金标准, 推荐一个正规滚球网站对这些数据的理解(它的作用), 谁使用它, 它的使用方法, 等.)并不能反映现实. 

推荐一个正规滚球网站相信下一代目录将有学习的能力, 理解, 并推断数据, 使用户能够以自助方式利用其见解. 但是推荐一个正规滚球网站如何到达那里呢? 

数据发现可以通过提供分布式数据目录来取代现代数据目录, 对跨不同领域的数据的实时洞察, 同时遵守一套中央治理标准.  图片由巴尔摩西提供.

除了编目数据, 元数据和数据管理策略还必须包含数据发现, 一种实时了解分布式数据资产运行状况的新方法. 借鉴了Zhamak Deghani和Thoughtworks提出的面向领域的分布式架构 数据网格模型, 数据发现假设不同的数据所有者对其作为产品的数据负责, 以及促进不同位置的分布式数据之间的通信. 一旦数据被一个给定的域服务和转换, 域数据所有者可以利用数据满足其操作或分析需求. 

数据发现通过提供特定于领域的数据目录来取代对数据目录的需求, 根据数据的摄入方式对数据进行动态理解, 存储, 聚合, 由一组特定的消费者使用. 与数据目录一样, 治理标准和工具跨这些领域联合(允许更好的可访问性和互操作性), 但与数据目录不同, 数据发现显示了对数据当前状态的实时理解,而不是理想状态或“编目”状态.

数据发现可以回答这些问题,不仅是数据的理想状态,而且跨越每个域的数据的当前状态: 

  • 什么数据集是最近的? 哪些数据集可以弃用? 
  • 该表上次更新是什么时候? 
  • 在我的领域中,一个给定的领域是什么意思? 
  • 谁能访问这些数据? 最后一次使用这些数据是什么时候? 世卫组织? 
  • 该数据的上游和下游依赖关系是什么? 
  • 这是生产质量数据吗? 
  • 哪些数据对我的领域的业务需求很重要? 
  • 我对这些数据的假设是什么,它们是否得到满足? 

推荐一个正规滚球网站相信下一代的数据目录, 换句话说, 数据发现, 将具有以下特点: 

自助服务发现和自动化

数据团队应该能够轻松地利用他们的数据目录,而无需专门的支持团队. 自助服务, 自动化, 数据工具的工作流编排消除了数据管道各阶段之间的竖井, 在这个过程中, 更容易理解和访问数据. 更大的可访问性自然会导致更多的数据采用, 减少数据工程团队的负载.  

随着数据发展的可伸缩性 

随着公司吸收越来越多的数据,非结构化数据成为常态, 扩展以满足这些需求的能力对于数据计划的成功至关重要. 数据发现利用机器学习来获得数据资产的鸟瞰视图, 确保您的理解随着数据的发展而变化. 这种方式, 数据消费者可以做出更智能、更明智的决策,而不是依赖于过时的文档(也就是关于过时数据的数据), 多少元!),或者更糟——基于直觉的决策. 

数据沿袭 对分布式发现  

数据发现在很大程度上依赖于自动的表级和字段级沿袭来映射数据资产之间的上下游依赖关系. Lineage有助于在正确的时间显示正确的信息(数据发现的核心功能),并在数据资产之间建立连接,这样当数据管道发生故障时,您就可以更好地排除故障, 这是一个越来越普遍的问题 现代数据栈的演变 以适应更复杂的用例.

数据可靠性,确保数据的黄金标准-在任何时候

事实是——以某种方式——您的团队可能已经在数据发现方面进行了投资. 无论是通过您的团队所做的手工工作来验证数据, 您的工程师正在编写的自定义验证规则, 或者仅仅是基于破碎数据或未被注意的无声错误所做决定的成本. 现代数据团队已经开始利用自动化方法来确保流程的每个阶段都有高度可信的数据, 从数据质量监控到更加稳健, 端到端 可观察性数据平台 监视和警告数据管道中的问题. 当数据中断时,此类解决方案会通知您,以便您可以快速识别根本原因,以便快速解决和 防止未来的停机时间

数据发现使数据团队能够相信他们对数据的假设与现实相符, 支持动态发现和跨数据基础结构的高可靠性, 无论域. 

接下来是什么? 

如果坏数据比没有数据更糟糕, 没有数据发现的数据目录比根本没有数据目录还要糟糕. 实现真正可发现的数据, 重要的是,你的数据不只是“编目”,,但也很准确, 清洁, 从摄取到消费都是完全可观察的,换句话说,是可靠的. 

一种强大的数据发现方法依赖于自动化和可伸缩的数据管理, 哪种方法适用于数据系统的新分布式特性. 因此, 在组织中真正启用数据发现, 推荐一个正规滚球网站需要重新思考如何处理数据目录.  

只有理解你的数据, 数据的状态, 以及如何在生命周期的各个阶段使用它, 跨领域——推荐一个正规滚球网站能开始相信它吗.