问任何一个在数据行业工作的人,现在的热门话题是什么,“数据网格”很可能会排在首位. 但什么是数据网格,为什么要建立一个? 好奇的人想知道.
在时代 自助服务商业智能, 几乎所有公司都认为自己是数据优先的公司, 但并不是每个公司都在用它应得的民主化和可伸缩性水平来对待他们的数据架构.
比如,你的公司将数据视为创新的驱动力. 你的老板是这个行业里最先看到潜力的人之一 雪花 和美人. 又或者你的首席数据官发起了一项跨职能计划,向团队传授数据管理最佳实践,而你的首席技术官则投资了一个数据工程小组. 最重要的是, 然而, 您的整个数据团队都希望有一种更简单的方法来管理组织不断增长的需求, 从处理没完没了的临时查询流到通过中央ETL管道处理不同的数据源.
支持这种民主化和可伸缩性的愿望是认识到您当前的数据架构(在许多情况下, 竖井数据仓库或 数据湖 与一些有限的实时流媒体功能)可能无法满足您的需求.
幸运的是,寻找数据新租约的团队只需看看 一个数据网格这是一种正在席卷整个行业的架构范式.
什么是数据网格?
就像软件工程团队从 从单片应用到微服务架构在许多方面,数据网格是微服务的数据平台版本.
首先由Zhamak Dehghani定义, 他是ThoughtWorks的顾问,也是这个术语的最初设计者, 一个数据网格 是否有一种数据平台体系结构通过利用面向领域的方法来实现企业中数据的普遍存在, 自助设计. 借用埃里克·埃文斯的理论 领域驱动设计, 一个灵活的, 将代码的结构和语言与其相应的业务领域相匹配的可伸缩软件开发范式.
与处理消费的传统单片数据基础结构不同, 存储, 转换, 和输出数据在一个中央数据湖, 数据网格支持分布式, 特定于领域的数据消费者和视图“数据即产品”,每个域处理自己的数据管道. 连接这些域及其相关数据资产的组织是一个通用的互操作性层,它应用相同的语法和数据标准.
而不是重新发明Zhamak精心设计的轮子, 推荐一个正规滚球网站将把数据网格的定义归结为几个关键概念,并强调它与传统数据架构的区别.
下面是一个高层次的数据网格示例:
A 数据网格体系结构图由三个独立的组件组成:数据源, 数据基础设施, 以及由功能所有者管理的面向领域的数据管道. 数据网格体系结构的底层是一层通用互操作性, 反映域无关的标准, 以及可观察性和治理. (图片由可以玩滚球的正规app数据提供.)
(如果你还没看过,我强烈推荐你阅读她的开创性文章, 如何从单片数据湖过渡到分布式数据网格或者观看马克斯·舒尔特(Max Schulte)的科技演讲 为什么Zal而且o转型为数据网格. 你不会后悔的).
面向领域的数据所有者和管道
数据网格 域数据所有者之间的联邦数据所有权,他们负责将数据作为产品提供, 同时也促进了分布式数据在不同位置之间的通信.
而数据基础设施负责为每个域提供处理它的解决方案, 域的任务是管理摄入, 清洁, 而且 聚合 转换为数据,以生成可由商业智能应用程序使用的资产. 每个域都负责拥有它们的ETL管道, 而是一组应用于所有存储域的功能, 目录, 并维护对原始数据的访问控制. 一旦数据被提供给一个给定的域并由它转换, 然后,域所有者可以利用这些数据来满足他们的分析或运营需求.
自助服务功能
数据网格利用面向领域设计的原则来交付自助式数据平台,该平台允许用户抽象技术复杂性,并专注于各自的数据用例.
正如Zhamak所概述的, 面向领域设计的主要关注点之一是维护每个领域中的数据管道和基础设施所需的工作和技能的重复. 为了解决这个问题, 数据网格收集和提取与领域无关的数据基础设施功能到处理数据管道引擎的中央平台中, 存储, 和流媒体基础设施. 与此同时, 每个域负责利用这些组件来运行定制的ETL管道, 为他们提供轻松提供数据所需的支持,以及真正拥有流程所需的自主权.
通信的互操作性和标准化
每个领域的基础是一套通用的数据标准,在必要时有助于促进领域之间的协作——通常也是如此. 不可避免的是,一些数据(包括原始来源和清理过的数据), 改变了, 和服务数据集)将对多个领域有价值. 启用跨域协作, 数据网格必须在格式化上标准化, 治理, 可发现性, 和元数据字段, 在其他数据特性中. 此外, 很像个人微服务, 每个数据域必须定义并商定sla和它们将“保证”给其消费者的质量度量.
为什么使用数据网格?
直到最近, 许多公司利用与无数商业智能平台相连的单一数据仓库. 这种解决方案是由一小群专家维护的,而且常常背负着巨大的技术债务.
In 2020, 当前的架构是一个具有实时数据可用性和流处理的数据湖, 以摄入为目标, 丰富, 转换, 并从一个集中的数据平台提供数据. 对于许多组织来说,这种类型的体系结构在以下几个方面是不足的:
- 中央ETL管道使团队对不断增加的数据量的控制更少
- 因为每个公司都变成了数据公司, 不同的数据用例需要不同类型的转换, 把重物放在中央平台上
这样的数据湖会导致断开连接的数据生产者, 不耐烦的数据消费者, 更糟糕的是, 积压的数据团队难以跟上业务需求的步伐. 而不是, 面向领域的数据架构, 像数据网格, 为团队提供两全其美的服务:一个集中式数据库(或分布式数据湖)和负责处理他们自己的管道的域(或业务领域). 正如Zhamak所说, 通过将数据架构分解成更小的部分,可以最容易地进行扩展, 面向领域的组件.
数据网格通过为数据所有者提供更大的自主权和灵活性,为数据湖的缺点提供了一个解决方案, 促进更多的数据实验和创新,同时减轻数据团队通过单一管道满足每个数据消费者需求的负担.
与此同时, 数据网格的自助基础设施即平台为数据团队提供了一个通用的, 域无关, 并且经常采用自动化的方法来进行数据标准化, 数据产品谱系, 数据产品监控, 报警, 日志记录, 数据产品质量指标(换句话说, 数据收集和共享). 综上所述, 这些优点提供了与传统数据架构相比的竞争优势, 哪些通常会因为摄取者和消费者之间缺乏数据标准化而受到阻碍.
合不合:这是个问题
处理大量数据源的团队需要对数据进行实验(换句话说, 以快速的速度转换数据)将是明智的考虑利用数据网格.
推荐一个正规滚球网站进行了一个简单的计算,以确定您的组织投资于数据网格是否有意义. 请回答每个问题, 下面, 加上一个数字,把它们加在一起就是总数, 换句话说, 你的数据网格评分.
- 数据源数量. 您的公司有多少个数据源?
- 数据团队的规模. 您的数据团队中有多少数据分析师、数据工程师和产品经理(如果有的话)?
- 数据域数量. 有多少职能团队(营销、销售、运营等).)依赖你的数据来源来驱动决策, 你们公司有多少产品, 以及有多少数据驱动的功能正在被构建? 添加的总.
- 数据工程的瓶颈. 从1到10,数据工程团队成为新数据产品实现的瓶颈的频率有多高, 1代表"从不" 10代表"总是" ?
- 数据治理. 在1到10的范围内,您的组织的数据治理的优先级是多少, 1代表“我不在乎”,10代表“它让我彻夜难眠”?
数据网格的分数
在一般情况下, 你的分数越高, 您的公司的数据基础设施需求越复杂和要求越高, ,反过来, 您的组织就越有可能从数据网格中受益. 如果你的分数在10分以上, 那么实现一些数据网格最佳实践可能对您的公司有意义. 如果你的分数在30分以上, 那么您的组织就处于数据网格的最佳位置, 加入数据革命将是明智的选择.
下面是如何分解你的分数:
- 1–15:考虑到数据生态系统的规模和单维性,您可能不需要数据网格.
- 15–30你们公司正在迅速成熟, 甚至可能处于一个十字路口就真正能够依靠数据而言. 推荐一个正规滚球网站强烈建议合并一些数据网格最佳实践和概念,以便以后的迁移可能更容易.
- 30岁或以上:您的数据组织是您公司的创新驱动力, 数据网格将支持任何正在进行的或未来的计划,以民主化数据,并提供跨企业的自助分析.
随着数据变得越来越普遍,数据消费者的需求继续多样化, 推荐一个正规滚球网站预计,在拥有300多名员工的云计算公司中,数据网格将变得越来越普遍.
图片由Meme Generator提供.网.
不要忘记数据的可观察性
使用数据网格体系结构的巨大潜力对数据行业中的许多人来说既令人兴奋又令人生畏. 事实上, 推荐一个正规滚球网站的一些客户担心,数据网格不可预见的自主性和民主化引入了与数据发现和健康相关的新风险, 以及数据管理.
鉴于数据网格的相对新颖性, 这是一个合理的担忧, 但我会鼓励有好奇心的人阅读细则. 与其引入这些风险, 数据网格实际上要求 可扩展的,自助式的数据可观察性.
事实上,域不能真正地 自己的 他们的数据如果没有可观察性. 根据Zhamak的说法,任何好的数据网格所固有的自助功能包括:
- 对静止和运动中的数据进行加密
- 数据产品版本控制
- 数据产品模式
- 数据产品发现、目录注册和发布
- 数据治理和标准化
- 生产数据血统
- 数据产品监视、警报和日志记录
- 数据产品质量指标
当包装在一起, 这些功能和标准化提供了一个健壮的可观察性层. 数据网格范式还规定有一个标准化的, 以可伸缩的方式为单个域处理这些可观察性的不同租户, 允许团队回答这些问题和更多的问题:
- 我的数据是新鲜的吗?
- 我的数据损坏了吗??
- 如何跟踪模式更改?
- 我的管道的上游和下游依赖关系是什么?
如果你能回答这些问题, 您可以放心,您的数据是完全可观察的——并且是可以信任的.
有兴趣了解更多关于数据网格的知识? 除了扎马克和麦克斯的资源, 看看推荐一个正规滚球网站最喜欢的关于这位数据工程新星的文章:
您的公司正在构建数据网格吗? 接触 巴尔摩西和Lior Gavish 用你的经验,技巧和痛点. 推荐一个正规滚球网站很乐意收到你的来信! 或者在下方预约时间与推荐一个正规滚球网站交谈.