数据网格-时尚或Fab?

不管你喜不喜欢,它就在这里. 因此,推荐一个正规滚球网站向其中一位专家请教了一些关于数据领域最热门话题的难题.

在过去的一年里, 数据网格 已经在数据界掀起了一场风暴. 一些 人们喜欢它,其他的 我不太明白很多人已经开始这样做了 迁移到一个 即使他们还不知道. 不管你在哪里摔倒,都很难忽视嗡嗡声.

对于那些不熟悉, 数据网格 是一个跨产品领域团队分配数据所有权的文化和技术概念吗, 拥有集中的数据基础设施和分散的数据产品. 随着分析变得越来越分散,以满足现代的需求, insights-driven组织, 这种模式正变得越来越普遍. 虽然我不能为这个概念的创造者说话, Zhamak Dehghani, 我发现数据网格特别引人注目,因为它雄心勃勃地描绘了数据民主化和自助式工具在数据工程团队中可以实现的目标 没有瓶颈 对于分析来说,通常都是这样.

Zhamak的文章 在我写完之后 我的第一个作品 关于这个话题, 客户问我他们应该如何实现一个数据网格体系结构. 很明显,水里有东西.  

在过去的几个月里,经过数百次交谈, 我发现了四件事 数据网格:

  1. 像任何组织变革一样,数据网格需要自上而下的支持才能成功. 
  2. 数据网格是由多种技术组成的, 作为现代数据平台的一部分,层层叠叠地建立在一起——你不能仅仅通过计算就建立一个数据网格, 存储, 和BI工具. 
  3. 对于大多数数据领导者来说,最重要的是结果(而不是过程). 数据网格作为一个概念尚处于萌芽阶段,只要数据网格的基本原理是完整的,“构建”数据网格的方法就没有对错之分. 和结果? 规模数据民主化. 
  4. 数据网格反映了向数据分析去中心化的更大的运动-我不能更兴奋了. 

也许没有人像他那样热衷于数据网格 Mammad德他是公司的前工程副总裁 直觉 为他们的数据平台团队. mamad在2000年加入雅虎,成为一名高级架构师和开发人员,开始了他在数据基础设施方面的工作. 在 雅虎,他构建了一个分布式云存储和一个完整的端到端分布式监控框架. 2009年,他加入Netflix,在云上建立新的身份和会员平台. 2012年,他加入 LinkedIn 作为分布式数据系统的负责人,他帮助建立了所有实时数据基础设施需求的愿景. 在因纽特的那段时间里,妈妈负责领导这个团队 公司的数据平台在那里,他们现代化了直觉的数据基础设施,并开始实施他们的 数据网格 策略. 

但是什么是数据网格,为什么推荐一个正规滚球网站要关心它? 

最近我和妈妈坐下来讨论数据网格. 以下是妈妈对此感到兴奋的五个原因——他认为你也应该如此.

mama Zadeh谈数据网格

Data Mesh分散了责任——这是一件好事

作为一个多年从事数据工作并处理数据解决方案扩展方法的人, 在我看来,当所有与数据相关的责任都集中在一个中央数据团队时,您所能做的就只有这么多了. 当需要专业技能和专业知识时,推荐一个正规滚球网站通常喜欢将新的和复杂的问题隔离到一个中心团队中. 这在垂直领域中很有效, 在早期, 数据分析也是如此. 但是今天, 数据分析, 机器学习, 而获取良好的数据是推荐一个正规滚球网站所做的一切的核心,并以指数速度增长. 推荐一个正规滚球网站需要一种新的组织方式, 以及一种新的思考架构和基础设施的方式,以满足组织中数据的生产者和消费者的需求. 这意味着要重组中央数据团队的整体结构,并将数据的责任分配到各个工程领域.

在某些方面,我认为,推荐一个正规滚球网站可以看到移动技术之旅的相似之处. 十年前, 推荐一个正规滚球网站经常会看到一个“移动团队”负责所有的移动应用开发工作. 然而今天,移动开发已经成为每个产品开发团队不可或缺的一部分. 这种责任从专业的中心团队转移到领域开发团队的“转移”也可以在运营和质量工程中看到.

这是一件好事,因为它帮助推荐一个正规滚球网站更好地扩展, 更重要的是, it puts accountability in the right place; where the data is produced. 领域团队是自己数据的专家,他们要确保数据的消费者可以获得高质量的数据, 通常是分析师和数据科学家. We, 在中央数据小组, 是否应该确保对数据的生产者和消费者都提供正确的自助基础设施和工具,以便他们能够轻松地完成工作. 用正确的工具装备他们,让他们直接互动,然后让他们离开.

这一切都很好,但推荐一个正规滚球网站还没到那一步. 到目前为止, 工程领导者一直不愿意改变他们围绕数据的传统组织结构, 工程数据, 和数据科学. 部分原因是,这仍是一个相对较新的概念,成功的案例并不多. 另一个主要问题是,推荐一个正规滚球网站离自助服务的水平还很远, 推荐一个正规滚球网站需要易于使用的基础设施即服务,以便将此责任推给领域团队.

数据网格正试图解决这些问题,这给了我很大的希望. 数据网格的主要原则是域所有权, 数据作为产品, 自助数据平台, 和联合治理, 所有这些对于帮助推荐一个正规滚球网站在未来十年扩展数据分析和机器学习是绝对必要的.

数据网格使数据成为一流的公民

去中心化的结果是,数据成为开发团队的头等公民. 数据网格引入了“数据产品”的概念,就像产品的其他功能一样, 它将由领域工程团队拥有和操作. 网格上的节点是这些分散的数据产品.

重要的是要记住,大多数组织仍然处于制定他们的数据网格策略和数据产品的非常早期的阶段. 当推荐一个正规滚球网站重新思考推荐一个正规滚球网站的数据分析方法, 推荐一个正规滚球网站不可避免地需要重新审视一些妨碍推荐一个正规滚球网站的旧习惯. 例如, 从事务性数据库的内部收集分析数据是一种捷径,但引入了很多复杂性. 就像我之前说的, 工具也不是很到位, 这意味着开发和操作这些数据产品仍然需要专业技能. 随着时间的推移,两件事将发生改变:1)新加入工作大军的工程师将更加熟悉数据技术, 2)数据基础设施本身会变得更好, 更容易使用, 和完全自助. 在这一点上, 拥有和操作数据产品类似于拥有和操作功能性微服务.

澄清一下, 当我谈到将数据的责任交给领域团队时, 我并不是说要分配一个单一的联络点,在这个联络点中,某个域中的某个人对其数据了如指掌. 我说的是极端的数据所有权和完全的问责制,以确保他们的数据是相关的, 可消费的, 可访问的, 和可信赖的. 换句话说,将数据视为产品. 如果这没有发生,网格不能起飞.

Data Mesh将改善用户体验的责任推给了供应商

很多人都在问,数据网格是否适合大型组织,因为数据的复杂性和规模是一个大问题. 我认为遵循数据网格的原则是很好的架构,也是正确的做法, 无论你是一家小型初创公司,还是一家拥有海量传统数据的大公司. 

已经说过, 一旦你深入到网格的设计和实现, 您将注意到,当前的工具状态很大程度上假定了一个中央数据整体,并没有很好地与标准开发实践集成, 这使得现有的产品开发人员难以构建和操作他们的数据产品. 对于数据平台提供商来说,这是一个围绕这种新体验重新思考产品的机会. 工程主管可以在推动供应商优先考虑这方面发挥重要作用.

我也希望推荐一个正规滚球网站能在基础设施层面上看到更多开放的标准,以鼓励供应商从他们的“围墙花园”中走出来,构建能够与其他供应商的其他组件互操作的工具. 我认为,为解决方案提供这种可互操作的市场对推荐一个正规滚球网站的行业至关重要.

在我看来, 这种最好的方法将允许工程领导者以最适合他们的方式设计和组成他们的基础设施,而不是被锁定在一个供应商. 随着时间的推移, 基础设施将变得更加智能,允许多面手开发人员自主轻松地构建和操作他们的数据产品. 谁知道, 也许在某种程度上,推荐一个正规滚球网站不会区分功能微服务和数据微服务.e.、数据产品)!

Data Mesh优先考虑整个组织的数据治理

作为其主要原则之一,数据网格要求进行联合治理设计. 这允许每个域为组织范围内的数据策略实现适当的解决方案,以确保可用性, 质量, 诚信, 以及数据的合规性. 

您和您在蒙特卡罗的团队正在做的就是解决这个框架的关键组件 数据可观测性 发挥基础性保障作用 数据质量 在整个网格中. 我认为可观察性需要做好以下几件事: 

  • 它应该能够检测网格中出现的任何异常
  • 它应该是智能的、自动化的、有弹性的、非常可靠的
  • 它应该有实时开放的api,以编程方式与之交互

虽然这听起来很简单,但这些问题很难解决. 有一件事我再怎么强调也不为过,那就是开放实时界面的需求. 作为一个医生, 我希望能够使用可观察性层生成的事件,并构建自动化, self-resiliency, 一旦检测到异常,立即通知. 拥有强大的开放api,工程师可以以前所未有的方式将事情组合在一起,并在出现问题时解决问题, 而不是等待供应商来填补空白.

Data Mesh使数据更接近产品工程

不考虑数据网格, data 和 机器学习 will become part of what everybody does;  it will become ingrained into the DNA of product engineering teams. 这种转变正在顺利进行中,非常令人兴奋——但同时也可能令人不安.

一方面, 在接下来的十年里, 推荐一个正规滚球网站将看到由数据驱动的指数级技术进步. 另一方面,推荐一个正规滚球网站还不知道消费者将如何使用这些数据. 这就是为什么推荐一个正规滚球网站需要确保推荐一个正规滚球网站有正确的范例,可以给推荐一个正规滚球网站提供规模和灵活性来改变. 数据网格正在试图解决这个问题.

数据网格使数据在整体上更符合产品开发, 而不是一个专门化和孤立的活动. 在过去,您拥有“唯一的”数据库,它属于应用程序工程师. 分析师们将不得不乞求和借时间, 通常下班后, 来运行他们的查询,因为这不是一个优先级,它被认为是一个后台活动. 随着数据重要性的增长, 推荐一个正规滚球网站把自己分成交易和分析两个领域, 创建集中的数据团队, 把所有的复杂性和责任都交给他们. 虽然这一模式有一段时间是有效的,但推荐一个正规滚球网站现在所处的位置是,这一模式无法进一步扩展. 这就是为什么我对数据网格的前景感到兴奋.

对数据网格很好奇? 

接触 Mammad德巴尔摩西, or 可以玩滚球的正规app队的其他队员, 了解更多像直觉这样的公司是如何大规模实现数据网格架构的, 考虑到可观察性. 

报名参加扎马克·德加尼的演讲 影响:数据可观测性峰会 来了解更多关于数据网格的信息!