数据发现:数据湖数据目录的未来

在过去的几年中,数据湖已经成为现代数据栈的必备之物. 但是,尽管支持推荐一个正规滚球网站访问和分析数据的技术已经成熟, 在分布式环境中理解这些数据的机制已经落后了.

以下是数据目录的不足之处以及不足的原因 数据发现 能确保你的数据湖不会变成数据沼泽吗.

数据团队必须在何时做出的首要决策之一 搭建数据平台 (仅次于“推荐一个正规滚球网站为什么要建这个”?)是是否选择一个 数据仓库或湖泊 为他们的分析提供存储和计算能力.

而数据仓库提供的结构使数据团队更容易有效地操作数据(i.e., 收集分析见解并支持机器学习能力), 对于某些应用程序来说,这种结构可能会使它们变得不灵活和昂贵.

另一方面, 数据湖是无限灵活和可定制的,以支持广泛的用例, 但是,随着更大的灵活性,随之而来的是一系列与数据组织和治理相关的其他问题.

因此,数据团队去了这个湖甚至 lakehouse Route通常很难回答关于他们的数据的关键问题,例如:

  • 我的数据在哪里?
  • 谁可以使用它?
  • 我如何使用这些数据?
  • 这些数据是最新的吗??
  • 业务如何使用这些数据?

而随着数据操作的成熟和数据管道变得越来越复杂,传统 数据目录 往往无法回答这些问题.

以下是为什么一些最好的数据工程团队正在重新考虑他们构建数据目录的方法——以及数据湖需要什么.

数据目录可能会在湖里淹死

尽管非常灵活和可伸缩, 数据湖缺乏必要的组织来促进正确的元数据管理和数据治理. 图片由 艾德里安 on Unsplash.

数据目录 用作元数据清单,并提供有关数据运行状况的信息, 可访问性, 和位置. 他们帮助数据团队回答在哪里寻找数据的问题, 数据代表什么, 以及如何使用它. 但如果推荐一个正规滚球网站不知道这些数据是如何组织的, 推荐一个正规滚球网站所有最好的计划(或管道), 相反)是无用的.

In 最近的一篇文章中, Seshu Adunuthula, Intuit数据平台总监, 问读者:“你的数据湖像二手书店还是井然有序的图书馆??”

对于现代数据团队来说,这是一个越来越重要的问题. 随着公司向湖泊倾斜, 它们经常破坏在仓库中存储数据时隐含的组织和顺序. 数据仓库迫使数据工程团队构造或至少半构造他们的数据, 是什么让它易于编目, 搜索, 并根据业务用户的需要进行检索.

从历史上看, 许多公司已经使用数据目录来执行数据质量和数据治理标准, 因为他们传统上依赖数据团队手动输入和更新目录信息,随着数据资产的发展. 在数据的湖泊, 数据分布, 这使得记录数据在其生命周期中的演变变得困难.

非结构化数据是有问题的,因为它与数据目录相关,因为它没有组织, 如果是的话, 它通常没有被声明为有组织的. 这可能适用于数据仓库中管理的结构化或半结构化数据, 但在分布式数据湖的背景下, 随着数据的发展,如果没有一些自动化措施,手动执行数据治理是无法扩展的.

过去:手工和集中目录

理解不同数据资产之间的关系(随着时间的推移而发展)是至关重要的, 但往往缺乏传统数据目录的维度. 而现代数据架构, 包括数据的湖泊, 通常是分布式, 数据目录通常不是, 将数据视为一维实体. 非结构化数据没有大多数数据目录所依赖的那种预定义模型,必须经过多次转换才能使用.

仍然, 公司需要知道他们的数据放在哪里,谁可以访问这些数据, 并且能够测量它的整体健康状况——即使是储存在湖里而不是仓库里. 没有数据沿袭的可见性, 当数据问题进一步出现时,团队将继续花费宝贵的时间进行消防和故障排除.

什么数据工程师需要从数据目录

数据发现可以通过提供分布式数据目录来替代或补充现代数据目录, 对数据堆栈不同部分的数据的实时洞察, 同时遵守普遍治理和可访问性标准. 图片由巴尔摩西提供.

传统的数据目录通常可以满足仓库中结构化数据的需求, 但是那些在数据湖的复杂水域航行的数据工程师们呢?

而许多数据目录都有一个以ui为中心的工作流, 数据工程师需要灵活性,以编程方式与他们的目录交互. 它们使用目录来管理模式和元数据, 并且需要一种api驱动的方法,这样它们才能完成广泛的数据管理任务.

此外, 数据可以通过多个入口点进入湖泊, 工程师需要一个能够适应并解释每一种方法的目录. 与仓库, 数据在输入前将在哪里进行清理和处理, 数据湖在没有任何端到端健康假设的情况下接收原始数据.

在一个湖, 存储数据既便宜又灵活, 但这使得了解你拥有什么以及如何使用它成为一个真正的挑战. 数据可以以各种方式存储, 如JSON或Parquet, 数据工程师与数据的交互方式也因工作的不同而不同. 他们可能使用Spark进行聚合作业,或者使用Presto进行报告或特别查询——这意味着很有可能出现破损或错误的数据导致故障. 如果没有血统,数据湖中的这些故障可能会很混乱,而且很难诊断.

在一个湖, 数据可以以多种方式进行交互, 一个目录必须能够提供一个理解什么正在被使用,什么没有被使用. 当传统的目录达不到要求时,推荐一个正规滚球网站可以将数据发现作为前进的道路.

未来:数据发现

数据发现 是扎马克·德加尼和Thoughtworks提出的一种基于分布式面向领域架构的新方法。 数据网格模型. 在这个框架, 特定于领域的数据所有者负责将他们的数据作为产品,并促进跨领域的分布式数据之间的通信. 

现代数据发现通过四个关键途径填补了传统数据目录的空白:

自动化扩展到整个湖泊

使用机器学习, 数据发现可以自动跟踪表级和字段级沿袭, 映射上下游依赖关系. 随着数据的发展, 数据发现可以确保您对数据及其使用方式的理解, 太.

数据运行状况的实时可见性

不像传统的数据目录, 数据发现提供了对数据当前状态的实时可见性, 而不是它的“编目”或理想状态. 因为发现包括你的数据是如何被吸收的, 存储, 聚合, 并被消费者使用, 您可以收集诸如哪些数据集是过时的或可以弃用的见解, 给定的数据集是否具有生产质量, 或者当给定的表最后一次更新时.

用于理解数据的业务影响的数据沿袭

这种灵活性和动态性使得数据发现非常适合将血统引入数据湖, 让你在正确的时间展示正确的信息, 并将许多可能的输入和流出联系起来. 与血统, 当数据管道中断时,您可以更快地解决问题, 因为经常被忽视的问题,如模式更改将被检测到,相关依赖关系将被映射.

跨域自助发现

数据发现还支持自助服务, 允许团队在没有专门支持团队的情况下轻松地利用和理解他们的数据. 为了确保这些数据是值得信任和可靠的,团队也应该投资 数据可观测性, 当你的数据湖或下游管道出现问题时,哪家公司会使用机器学习和自定义规则提供实时警报和监控.

湖对岸的治理和优化

现代数据发现让企业不仅能够理解 什么 数据在其生命周期中会被使用、消费、存储和弃用,但也会 如何, 哪一个对数据治理至关重要,并提供了可用于跨湖优化的见解.

从治理的角度来看, 在湖泊中查询和处理数据通常需要使用各种工具和技术(Spark on Databricks), 马上用电子病历, 等.), 结果就是, 通常没有一个单身的, 可靠的读和写的真实来源(像仓库提供的). 一个合适的数据发现工具可以作为真相的来源.

从优化的角度来看, 数据发现工具还可以使涉众很容易地识别最重要的数据资产(那些经常被查询的数据资产)!)以及那些不用的, 这两种方法都可以为团队优化他们的管道提供见解.

数据湖的分布式发现

随着企业继续加大吸收, 存储, 以及数据的利用, 提高透明度和曝光度的技术将是关键.

越来越多地, 一些最好的目录是分层分布的, 特定领域的发现, 在数据生命周期的所有阶段,为团队提供充分信任和利用数据所需的可见性.

就个人而言,推荐一个正规滚球网站对即将发生的事情感到非常兴奋. 有了正确的方法,也许推荐一个正规滚球网站终于可以放弃“数据沼泽这是双关语? 

有兴趣学习如何在您的数据湖中扩展数据发现? 接触 巴尔摩西, 斯科特·奥利里, 可以玩滚球的正规app队.

与构建分布式数据架构的所有最新新闻和趋势保持同步, 一定要加入 数据网格学习松弛通道.