什么是数据网格-以及如何不将其网格化

如果你问任何一个在数据行业工作的人,最近热门的是什么,“数据网格”很可能会排在首位. 但是什么是数据网格,为什么要建立一个? 好奇的人想知道.

在…的年代 自助服务商业智能, 几乎每家公司都认为自己是一家数据至上的公司, 但是,并不是每个公司都把他们的数据架构处理得民主化和可伸缩性.

举例来说,贵公司将数据视为创新的驱动力. 你的老板是这个行业中第一个看到潜力的人 雪花 和美人. 或者,你的首席数据官领导了一个跨职能的项目,对团队进行数据管理最佳实践的培训,而你的首席技术官投资了一个数据工程团队. 最重要的是, 然而, 整个数据团队都希望有一种更简单的方法来管理组织不断增长的需求, 从处理永无休止的特别查询流,到通过中央ETL管道处理不同的数据源.

支持这种民主化和可伸缩性愿望的是您当前的数据体系结构(在许多情况下, 竖井式的数据仓库或具有有限的实时流功能的数据湖)可能不能满足您的需求.

幸运的是,寻求数据新租约的团队只需要看看 一个数据网格这是一种正在席卷整个行业的架构范式.

什么是数据网格?

就像软件工程团队从 单片应用程序到微服务体系结构在许多方面,数据网格是微服务的数据平台版本.

由Zhamak Dehghani首先定义, 他是ThoughtWorks的顾问,也是这个术语的最初设计者, 一个数据网格 是一种通过利用面向领域的数据来包含企业中无处不在的数据的数据平台架构类型吗, 自助设计. 借用埃里克·埃文斯的理论 领域驱动设计, 一个灵活的, 可伸缩的软件开发范例,使代码的结构和语言与其相应的业务领域相匹配.

与处理消费的传统单片数据基础结构不同, 存储, 转换, 并在一个中央数据湖中输出数据, 数据网格支持分布式, 特定于领域的数据使用者和视图“数据即产品”,,每个域处理自己的数据管道. 连接这些域及其相关数据资产的组织是一个通用的互操作性层,它应用相同的语法和数据标准.

而不是重新设计扎马克精心设计的轮子, 推荐一个正规滚球网站将把数据网格的定义归结为几个关键概念,并强调它与传统数据架构的区别.

(不过,如果你还没有读过,我强烈建议你阅读她那篇开创性的文章, 如何超越单片数据湖到分布式数据网格或者观看马克斯·舒尔特的技术演讲 为什么Zalando转向了数据网格. 你不会后悔的).

图片的文章
在高水平上, 一个数据网格由三个独立的组件组成:数据源, 数据基础设施, 以及由功能所有者管理的面向领域的数据管道. 数据网格体系结构的基础是一个通用互操作性层, 反映域无关的标准, 以及可观察性和治理. (图片由蒙特卡罗数据提供.)

面向领域的数据所有者和管道

数据网格在负责将数据作为产品提供的领域数据所有者之间联合数据所有权, 同时也促进了不同位置的分布式数据之间的通信.

而数据基础设施负责为每个域提供处理这些域的解决方案, 域的任务是管理摄取, 清洁, 并对数据进行聚合,以生成可由业务智能应用程序使用的资产. 每个域负责拥有它们的ETL管道, 而是一组应用于所有存储域的功能, 目录, 并对原始数据进行访问控制. 一旦数据被一个给定的域服务和转换, 域名所有者可以利用这些数据来满足他们的分析或运营需求.

自助服务功能

数据网格利用面向领域设计的原则来提供一个自助式的数据平台,允许用户抽象技术复杂性,并专注于他们各自的数据用例.

正如Zhamak所概述的, 面向领域设计的主要关注点之一是在每个领域中维护数据管道和基础设施所需的工作和技能的重复. 为了解决这个问题, 数据网格收集和提取与领域无关的数据基础设施功能到处理数据管道引擎的中央平台中, 存储, 和流媒体基础设施. 与此同时, 每个域负责利用这些组件来运行定制的ETL管道, 为他们提供必要的支持以方便地服务他们的数据,以及真正拥有流程所需的自主权.

通信的互操作性和标准化

在每个领域的基础上都有一组通用的数据标准,在必要时可以帮助促进领域之间的协作——通常情况下确实如此. 这是不可避免的一些数据(包括原始来源和清理, 改变了, 和服务的数据集)将对多个领域有价值. 支持跨域协作, 数据网格必须在格式上标准化, 治理, 可发现性, 和元数据字段, 在其他数据特征中. 此外, 很像个人微服务, 每个数据域必须定义sla和质量度量,并就它们将“保证”给消费者的这些内容达成一致.

为什么要使用数据网格?

直到最近, 许多公司利用单一的数据仓库连接到无数的商业智能平台. 这种解决办法是由一小群专家维持的,而且经常背负大量技术债务.

In 2020, 当前的体系结构是具有实时数据可用性和流处理的数据湖, 以摄取为目标, 丰富, 转换, 从一个集中的数据平台提供数据服务. 对于许多组织来说,这种类型的体系结构在以下几个方面存在不足:

  • 中央ETL管道使得团队对不断增加的数据量的控制更少
  • 每个公司都变成了数据公司, 不同的数据用例需要不同类型的转换, 把重物放在中央平台上

这样的数据湖导致数据生产者断开连接, 不耐烦的数据消费者, 更糟糕的是, 积压的数据团队努力跟上业务需求的步伐. 而不是, 面向领域的数据架构, 像数据网格, 为团队提供两个方面的好处:一个集中的数据库(或分布式的数据湖),其域(或业务领域)负责处理他们自己的管道. 正如Zhamak所说, 通过将数据体系结构分解成更小的结构,可以很容易地进行扩展, 面向领域的组件.

图片的文章

数据网格为数据所有者提供了更大的自主权和灵活性,从而解决了数据湖的缺点, 促进更多的数据实验和创新,同时减轻数据团队通过单一渠道满足每个数据消费者需求的负担.

与此同时, 数据网格的自助式基础设施即平台为数据团队提供了一个通用的平台, 域无关, 并且通常采用自动化的方法进行数据标准化, 数据产品谱系, 数据产品监控, 报警, 日志记录, 以及数据产品质量度量(换句话说, 数据收集与分享). 综上所述, 与传统数据体系结构相比,这些优势提供了竞争优势, 哪些经常被摄入者和消费者之间缺乏数据标准化所阻碍.

啮合还是不啮合:这是个问题

处理大量数据源和需要试验数据(换句话说)的团队, 快速转换数据)将是明智的考虑利用数据网格.

推荐一个正规滚球网站进行了一个简单的计算,以确定您的组织投资于数据网格是否有意义. 请回答每个问题, 下面, 用一个数字,把它们加在一起,得到一个总数, 换句话说, 你的数据网格分数.

  • 数据源数量. 您的公司有多少数据源?
  • 数据团队的规模. 你的数据团队中有多少数据分析师、数据工程师和产品经理(如果有的话)?
  • 数据域的数量. 有多少职能团队(营销、销售、运营等).)依赖你的数据源来驱动决策, 你们公司有多少种产品, 以及有多少数据驱动的功能正在被构建? 添加的总.
  • 数据工程的瓶颈. 在1到10的范围内,数据工程团队多久会成为新数据产品实现的瓶颈, 1是“从不”,10是“总是” ?
  • 数据治理. 在1到10的范围内,数据治理对组织的优先级有多大, 1是“我不在乎”,10是“它让我整晚睡不着”?

数据网格的分数

在一般情况下, 你的分数越高, 公司的数据基础设施需求越复杂,要求越高, ,反过来, 您的组织越有可能从数据网格中获益. 如果你的分数在10分以上, 那么,实现一些数据网格最佳实践可能对您的公司有意义. 如果你的分数在30分以上, 那么您的组织就处于数据网格的最佳位置, 加入这场数据革命将是明智的.

以下是如何分解你的分数:

  • 1–15:考虑到您的数据生态系统的大小和单维性,您可能不需要数据网格.
  • 15–30当前位置贵公司正在迅速成熟, 甚至可能处于一个十字路口,就真正能够使用数据而言. 推荐一个正规滚球网站强烈建议合并一些数据网格最佳实践和概念,这样以后的迁移可能会更容易.
  • 30岁或以上:您的数据组织是您公司的创新驱动力, 数据网格将支持任何正在进行或未来的举措,使数据民主化,并在整个企业中提供自助分析.

随着数据变得越来越普遍,数据消费者的需求也越来越多样化, 推荐一个正规滚球网站预计,对于拥有300多名员工的云计算公司来说,数据网格将变得越来越普遍.

图片的文章
图片由模因生成器提供.净.

不要忘记可观测性

对于数据行业的许多人来说,使用数据网格体系结构的巨大潜力既令人兴奋,又令人生畏. 事实上, 推荐一个正规滚球网站的一些客户担心,数据网格不可预见的自主权和民主化会带来与数据发现和健康相关的新风险, 以及数据管理.

考虑到数据网格的相对新奇性, 这是一个合理的担忧, 但我会鼓励求知欲强的人去读那些细则. 非但没有引入这些风险, 数据网格实际上是强制的 可扩展的,自服务的可观察性到您的数据.

事实上,域名不能真正做到 自己的 如果他们的数据没有可观察性. 根据Zhamak的说法,任何好的数据网格所固有的自助式功能包括:

  • 对静止和运动中的数据进行加密
  • 数据产品版本控制
  • 数据产品模式
  • 数据产品发现、目录注册和发布
  • 数据治理和标准化
  • 生产数据血统
  • 数据产品监控、警报和日志记录
  • 数据产品质量度量

当包装在一起, 这些功能和标准化提供了一个健壮的可观察性层. 数据网格范例也规定了有一个标准化的, 单个域的可伸缩方式来处理这些不同的可观察性租户, 允许团队回答这些问题和更多的问题:

  • 我的数据是新鲜的吗?
  • 我的数据坏了吗??
  • 如何跟踪模式更改?
  • 我的管道的上游和下游依赖关系是什么?

如果你能回答这些问题, 您可以放心,您的数据是完全可观察的——并且是可以信任的.

有兴趣学习更多关于数据网格的知识? 除了扎马克和麦克斯的资源, 看看推荐一个正规滚球网站最喜欢的关于这颗数据工程新星的文章:

你的公司正在构建一个数据网格吗? 接触 巴尔摩西和Lior Gavish 用你的经验,技巧和痛点. 推荐一个正规滚球网站希望收到你的来信!