数据网格101:你需要知道的一切开始

你的公司想要建立一个数据网格. 伟大的! 现在? 下面是一个快速入门教程,帮助您入门——并防止您的数据基础设施变成一个热门的网络.

从2010年代初开始, 微服务架构已经被很多公司广泛采用(想想看: 乳房, 网飞公司, Airbnb, 在其他软件中)作为当前的软件范例, 在工程团队中引发了关于面向领域设计的利弊的讨论.

现在, in 2021, 你很难找到一个数据工程师,他的团队没有讨论是否要从单一架构迁移到去中心化架构 数据网格.

由Thoughtworks的 Zhamak Dehghani, 数据网格是一种数据平台体系结构,它通过利用领域驱动的方法来包含企业中无处不在的数据, 自助设计. 

随着公司越来越多地受到数据驱动, 数据网格很好地适应了现代数据组织的三个关键元素: 

  1. 对越来越多数据的渴望, 由整个公司的利益相关者吸收和利用,而不是一个单独的“数据牧人”团队。 
  2. 数据管道日益复杂 随着团队试图用他们的数据做越来越智能的事情
  3. 的崛起 标准化数据可观察性和可发现性层 了解数据资产在其生命周期中的运行状况

数据网格的潜力既令人兴奋,又令人生畏, 就像之前的微服务架构一样, 引发了很多关于如何大规模操作数据的讨论. 

不像传统的单片数据基础设施在一个中央数据湖中处理ETL, 数据网格支持分布式, 特定于领域的数据使用者和视图“数据即产品”,,每个域处理自己的数据管道. 数据网格的基础是标准化的可观察性和治理层,确保数据在任何时候都是可靠和值得信任的. 图片由蒙特卡罗提供.

为了指导您的数据网格之旅,推荐一个正规滚球网站整理了必要的数据网格阅读清单: 

最基本的

  • 如何超越单片数据湖到分布式数据网格 - Zhamak Deghani的原创作品是所有数据网格内容的圣杯. 请将本文视为进入数据网格标准其余部分的门户, 激发你对未来讨论机会的兴趣, 挑战, 以及在实践中实现设计时的关键考虑事项. 她的体系结构图对于理解数据网格如何与集中式体系结构形成新的局面至关重要. 
  • 数据网格原理与逻辑架构“, ——扎马克第一件作品的后续作品, 本文将详细介绍如何实际实现大规模的数据网格, 并退一步解释联合治理如何以及为什么对体系结构的成功至关重要. 对于任何对数据网格的具体细节感兴趣的人来说,这是一本必读的书. 
  • 数据网格应用 ——斯文Balnojan, Mercateo集团数据分析和数据科学负责人, 带领读者了解数据团队如何应用DevOps, “数据即产品”的思维模式,从单一的数据仓库和湖泊迁移到数据网格. 他还谈到了一个普通的企业(在这个案例中, 电子商务公司), 可以讨论这种迁移,以及如何适当地使数据所有权和访问民主化. 

补充阅读

  • 什么是数据网格-以及如何不将其网格化 – in 2020, 有几个客户找到我和我的联合创始人,问我如何实现一个大规模的数据网格架构, 以及数据网格对他们的团队是否有意义. 在这篇初学者指南中, 推荐一个正规滚球网站将讨论一些关键的考虑事项, 特别是当它与数据可观察性和可发现性成功设置您的网格有关. 
  • 数据网格是否适合您的组织?在Hyperight关于这个话题的最新报道中, 他们采访了不同的数据领导者和顾问,了解为什么要(或为什么不)实现数据网格体系结构的原因. TL;DR:如果您的团队已经采用了面向领域的方法来实现数据所有权,并且在数据管理方面遇到了困难, 数据网格可能是将您的组织带到下一个层次的正确架构. 关键的一点是:那些倾向于自动化和数据ops的公司更有可能为那些还没有这样做的公司创造成功.
  • 数据网格导论:分析数据管理的范式转变 (第1部分2) -把这两个视频看作是Zhamak早期关于数据网格的写作的附加背景. 在星爆数据超新星会议的这两场演讲中, Zhamak更详细地介绍了她设计这种新模式背后的动机,以及一流的数据团队是如何大规模地(通过自动化)应用数据网格以提供更可靠的服务的, 为公司提供可操作的见解. 

主要来源

  • 数据网格实践:欧洲领先的在线时尚平台如何超越数据湖 - Max Shultze, Zal和o的数据工程师, 和Arif更广泛, ThoughtWorks顾问, 讨论时尚电子商务公司如何将他们的“数据沼泽”转变为领域驱动的, 利用数据网格原理对数据湖进行操作. 对于那些想要去中心化他们的数据架构和消除数据工程瓶颈的人来说(不管你是否要去全网格), 这是一部必看的片子. 
  • Intuit的数据网格策略 -崔斯坦贝克, Intuit数据平台首席架构师, 讨论了为什么和如何Intuit决定实现一个数据网格架构, 正如他所说, “减少混乱,提高生产率,回到让客户满意的业务上来。.根据特里斯坦的说法, 主要挑战包括数据的可发现性, 数据可理解性, 和数据的信任. 通过将代码和数据组织为“数据产品”,“Intuit能够设定明确的数据责任, 服务所有权, 和目标结果. 
  • 网飞公司数据网格:可组合数据处理 在这段来自Flink Forward 2020的视频中, 贾斯汀·坎宁安, 网飞公司数据架构总监, 讨论他的团队如何构建数据网格体系结构来专门处理可组合的数据处理. 不像其他的演讲和文章, 本次演讲将详细介绍他们如何应用数据网格框架来处理数据转换过程中的一个元素——在网飞公司系统之间移动数据. 

这个列表并不详尽,但它应该让你开始你的数据网格之旅. 对于那些好奇构建数据网格或希望分享最佳实践的人来说, 考虑加入 数据网格学习松弛组.

下次见——在这里祝你数据网格魔法! 

你的公司正在构建一个数据网格吗? 接触 巴尔摩西 用你的经验,技巧和痛点. 推荐一个正规滚球网站希望收到你的来信!