数据网格的解码

Zhamak Dehghani, 数据网格的创始人, 消除了对数据网格的普遍误解, 一种日益流行的构建分布式数据体系结构的方法, 并分享一些最好的团队是如何起步的. 

如今,似乎每个从事数据工作的人都可以分成两大阵营:理解数据的人 数据网格 还有那些不喜欢的人. 

请放心:如果你是其中的一员,你并不孤单! 

在最近的记忆中,很少有一个话题像风暴一样席卷数据世界 一个繁荣的社区,数百名 博客文章, 在民主化和可扩展性方面苦苦挣扎的各行各业的数据领导者们终于松了一口气.  

但是,这种新的采用带来了新的机会,人们可能会误解数据网格的真正本质——以及如何构建数据网格. 

几个月前,我加入了Thoughtworks的 Zhamak Dehghani, 先锋的 数据网格框架, 莉娜大厅他是微软大数据工程总监,参加了关于所有数据网格的讨论. 在交谈中, 扎马克消除了许多最大的误解, 包括数据网格是否是一项独立的技术, 谁应该(或不应该)构建一个, 如果数据网格只是数据虚拟化的另一种说法(提示:它不是). 

以下是推荐一个正规滚球网站谈话的一些关键要点——一定要去听 完整的记录 为更多的神话杀戮和洞察服务. (注:为了长度和清晰,一些引用已经被编辑过.) 

你能从一个单一的解决方案构建一个数据网格吗?

在高水平上, 一个数据网格由三个独立的组件组成, 数据源, 数据基础设施, 以及由功能所有者管理的面向领域的数据管道. 数据网格体系结构的基础是一个通用互操作性层, 反映域无关的标准, 以及可观察性和治理. 图片由蒙特卡罗提供.

扎马克将数据网格定义为“一种社会技术转变——一种推荐一个正规滚球网站收集数据的新方法”, 管理, 分享分析数据.“数据网格不是技术解决方案,甚至不是技术的子集——它是推荐一个正规滚球网站如何管理和操作数据的组织范式, 由几种不同的技术组成, 无论是开源还是SaaS. 

你不可能仅仅用一个数据库就构建一个微服务体系结构. 你不能仅仅用数据仓库或BI工具来构建数据网格. 相反,数据网格可以部分地由这些技术驱动——还有很多很多其他技术. 

简而言之,如果一个数据架构包含以下四个基本元素,那么它就是一个数据网格:

  • 分配数据所有权 从一个集中的团队到最适合控制它的人——经常是这样, 数据来自的业务域
  • 给那些团队 长期的责任 并为他们提供他们需要的产品 把数据当作产品来对待
  • 向团队授权 自助数据基础设施
  • 解决新模型可能出现的新问题 联邦数据治理

继续下一个.

数据网格是数据虚拟化的另一种说法吗? 

数据社区对于去中心化数据所有权的实际工作方式存在困惑. 当丽娜描述, 一些技术人员想知道分散数据所有权的概念是否与 数据虚拟化, 换句话说, 一种数据管理方法,允许应用程序跨多个竖井检索和操作数据.

根据Zhamak, 在过去,虚拟化通常位于OLTP系统和微服务或操作数据库之上,并通过一些微小的转换公开数据. 当推荐一个正规滚球网站把它应用到数据网格时,这可能不是一个明智的想法. 

“无论是数据网格还是API基础, 您正试图公开一个为事务目的而优化的数据库,以用于分析目的. 预测分析或历史趋势建模都需要一个非常不同的数据视图,”她说. “如果你想在你的微服务数据库上使用虚拟化,并公开它们,并称之为网格, 这可能是个坏主意.” 

每个数据产品团队管理各自的数据存储吗? 

女人和男人坐在显示器前
在数据网格范式下, 面向领域的数据团队并不拥有自己的数据存储, 但是他们对数据和相关数据产品的质量和可用性负责. 图片由 拉各斯技术 on Unsplash.

在扎马克看来,这个问题的答案是否定的. 

作为一个数据产品开发者,Data mesh会这么说, 我想要自主权——拥有所有的结构元素, 存储和计算, 和查询系统, 以及所有能让我为数据科学家提供数据的东西,”Zhamak解释说. 但这并不意味着我现在必须拥有自己的地理位置分离存储层. 事实上, 如果网格是与一个云提供商的跨组织设置, 你可能不会这么做. 你可能只有一个存储层. 然而, 他们是独立的模式, 它们是独立的访问权限管理, 它们是独立的租赁模型,允许以自主的方式部署数据产品.” 

数据存储通常由中央数据工程或基础设施团队维护,该团队负责确保每个域的数据网格都是功能性和可操作性的. 而每个领域的分析师和数据科学家负责构建和维护产品(比如, 指示板, 模型, 和报告)在数据网格之上, 他们不是管理基础设施进行分析的人, 数据科学, 和ML可能. 

自助式数据平台和去中心化数据网格是一回事吗? 

大型组织已经实现了基础设施管理的自助平台, 但根据扎马克的说法, 数据网格的自服务方面在以下几个关键方面有所不同:

“如今大多数服务或数据平台都是为集中式数据团队构建的——它们的构建是为了帮助数据专家更快地处理backlog. 它们是为一个中央团队服务的他们试图优化来自宇宙各个角落的食物摄入. 

数据平台, 在当前状态下, 通常是为了不同的目的而优化的数据网格. 数据平台 为支持数据网格而构建的数据应该优化,赋予领域团队自主权,并赋予多面手技术人员创建数据产品的能力——从一端到另一端管理他们的数据,并直接服务于他们的数据消费者:数据分析师, 数据科学家, 和其他终端用户.

数据网格是否适用于所有的数据团队?  

而越来越多的组织开始采用或探索数据网格, 扎马克认为,这种模式“仍处于发展初期”.” 

面临数据可靠性扩展问题的组织是采用数据网格最有意义的组织. 早期的采用者倾向于以工程为中心,并对投资“构建和购买技术”持开放态度, 因为不是所有的元素都能买到,”Zhamak说. 

根据Zhamak, 如果您的项目干系人在寻找和使用正确的数据时感到痛苦, 你的创新周期被放慢了, 那么您可能是研究数据网格的合适人选.

2021年,数据团队的规模更早,数据也变得更加普遍. 结果就是, 推荐一个正规滚球网站需要更早地采取行动, 去中心化的方式来管理数据,而不需要重新发明轮子. 数据网格可以提供帮助.

你的团队中是否有人“拥有”数据网格? 

人使用笔记本电脑
正如他们所说,没有一个数据工程师是一座孤岛,尤其是在构建数据网格的时候. (图片由 Grzegorz查克 on Unsplash)

引入数据网格模型需要的不仅仅是技术. 这需要整个组织的文化认同. 

“我认为数据以及所有由数据驱动的举措和数据平台投资在组织中是非常明显的,也是非常政治化的, 特别是大型组织, 必须有自上而下的支持和自上而下的福音,”Zhamak说. 

她证实,当组织有一个首席数据官或首席数据分析官直接向首席执行官报告时, 当涉及到大规模采用数据网格时,它们通常更有效.  仍然, 域是期望对其数据拥有所有权的域, 因此,推荐一个正规滚球网站需要支持这项倡议, 这是否意味着专门的资源或组织间的拉拉队. 

“如果域名没有加入, 推荐一个正规滚球网站所做的就是在一个集中的团队中过度设计数据的分发,”她说.

当您试图在组织中推广数据网格时, 团队应该有一到三个与愿景一致的领域,作为推动设计和实现的倡导者. 通常, 基础设施团队(从业者和工程师)并不是很难说服的人,因为他们通常是感到痛苦的人. 

数据网格会导致数据工程师和数据分析师之间的摩擦吗? 

答案还是否定的. 事实上,往往是相反的! 

因为数据网格要求数据所有权的分散, 采用这种分布式, 面向领域的模型通常能够在历史上存在摩擦的领域中实现健康的协调. 

例如, 当组织有一个负责管道的工程团队时, 数据工程组对下游数据进行建模, 然后是在下游消费数据的分析师, 事件经常会导致相互指责. 但是数据网格的数据治理通用标准确保了数据质量的一致性, 数据发现, 数据产品模式, 以及数据健康和理解的其他关键要素. 

根据Zhamak的说法,任何好的数据网格所固有的自助式功能包括:

  • 对静止和运动中的数据进行加密
  • 数据产品版本控制
  • 数据产品模式
  • 数据产品发现、目录注册和发布
  • 数据治理和标准化
  • 生产数据血统
  • 数据产品监控、警报和日志记录
  • 数据产品质量度量

当打包在一起时,这些功能和标准化提供了一个健壮的层 可观察性 ——和信任.

推荐一个正规滚球网站在操作世界中看到的进化始于推荐一个正规滚球网站自己的特设结构化日志记录, 这是推荐一个正规滚球网站已经在做的一个好的软件工程实践,”Zhamak说. “我真的希望如此, 与沿袭、度量和SLOs, 推荐一个正规滚球网站开发了一些开放的标准,可以用来传递这些质量度量标准, 比如你的信任矩阵, 或者以一种标准化的方式追溯血统,并在此基础上创建一个健康的工具生态系统.”

在我看来, 像数据网格这样的组织结构实际上允许正确的自治和关于治理的讨论, 迫使您的团队回答这样的问题:何时以及如何使用数据? 哪些标准是推荐一个正规滚球网站关心的,推荐一个正规滚球网站希望每个人都能拥有的? 或者甚至:每个域应该拥有哪些责任? 

事实:数据网格是向分权和民主化的转变

无论你站在数据网格的哪个位置, 毫无疑问,这个话题激发了人们对数据专业人士意味着什么的讨论, 以及如何为您的组织真正大规模地推广和操作数据. 

事实上, many companies I talk to have been applying 数据网格 concepts for longer than they realize; they just didn’t have the words to describe it.

经常, 这从数据团队和利益相关者之间更好的沟通开始, 组织排列, 理解数据在公司中的作用. 加上这三根柱子, 即使是最难以理解的网格概念,也要容易得多. 

还有更多关于数据网格的问题吗? 报名参加扎马克·德加尼的演讲 影响:数据可观测性峰会 这个十一月或联系到 巴尔可以玩滚球的正规app队.

记得去看看 数据网格的学习 更多现场活动或加入他们的Slack频道.