构建你的数据平台的快速指南

推荐一个正规滚球网站从客户那里得到的最常见的问题之一是“我如何构建我的 数据平台?” 

对于大多数组织, 构建数据平台不再是“有就好”,而是“必须有”, 许多公司之所以能在竞争中脱颖而出,是因为他们有能力从数据中收集可行的见解. 

尽管如此,证明所需的预算、资源和时间 搭建数据平台 从零开始说起来容易做起来难. 每家公司的数据旅程都处于不同的阶段, 这让推荐一个正规滚球网站更难分清优先投资平台的哪个部分. 像任何新的解决方案一样, 你需要1)围绕产品能交付什么和不能交付什么设定预期,2)两者都要制定计划 长期和短期投资回报率.

让事情简单点, 推荐一个正规滚球网站列出了你需要在你的数据平台中包含的6个必须拥有的层,以及许多最好的团队选择执行它们的顺序. 

介绍:六层数据平台 

现代数据平台由六个基础层组成, 包括数据摄入, 数据存储 & 处理、数据转换 & 建模、商业智能 & 分析、数据可观察性和数据发现. 图片由蒙特卡罗提供.

第二个问题是“我如何建立我的数据平台”?,我最常被问到的问题是“我从哪里开始?” 

不言而喻,构建数据平台并不是一种放之四海而皆准的体验, 推荐一个正规滚球网站讨论的层次(和工具)只是当今市场上可用的东西的皮毛.  对于5来说,“正确的”数据堆栈看起来会非常不同,相比一家拥有200人的金融科技初创公司,一家拥有5000人的电子商务公司更有竞争力, 但是有几个核心层是所有数据平台必须以某种形式存在的. 

请记住: 就像你建房子不能没有地基一样, frame, 和屋顶, 在一天结束时, 没有这6层,你不可能构建一个真正的数据平台. 但是,如何构建平台完全取决于您自己. 

下面, 推荐一个正规滚球网站分享了“基础”数据平台的样子,并列出了各个领域的一些热门工具(你可能会使用其中一些工具): 

数据摄取 

第一层? 数据摄取. 

除非先摄取数据,否则无法处理、存储、转换和应用数据. 几乎所有现代数据平台都是如此, 需要将数据从一个系统摄取到另一个系统. 随着数据基础设施变得越来越复杂, 数据团队面临着从各种来源获取结构化和非结构化数据的挑战性任务. 这通常被称为提取转换负载(ETL)和提取负载转换(ELT)的提取和加载阶段。. 

数据摄取工具, 像Fivetran, 使数据工程团队能够轻松地将数据移植到他们的仓库或湖泊中. 图片由 Fivetran

下面,推荐一个正规滚球网站概述了空间中一些流行的工具: 

  • Fivetran —领先的企业ETL解决方案,管理从数据源到目的地的数据交付.
  • 歌手 —用于将数据从任何源移动到任何目的地的开源工具.
  • —基于云的开源平台,允许您将数据从任何源快速移动到任何目的地.
  • Airbyte -一个开放的源代码平台,可以轻松地从应用程序同步数据.
  • Apache卡夫卡 -开源 事件流 平台 处理流分析和数据摄取

即使现在市场上已经有了大量的进食工具, 一些数据团队选择构建自定义代码来从内部和外部来源获取数据, 许多组织甚至构建他们自己的自定义框架来处理这个任务.

编排和工作流自动化,具有如下工具 Apache气流, 完善, Dagster,通常也会折叠到摄食层. 编排通过获取竖井数据,进一步推进了摄取, 将其与其他源结合使用, 并使其可用于分析.

我认为, 虽然, 在处理存储之后,可以(也应该)将该业务流程编织到平台中, 处理, 以及业务智能层. 毕竟,如果没有有效的数据组成的管弦乐队,就无法进行编排!     

数据存储与处理

在构建了摄取层之后,您需要一个地方来存储和处理数据. 随着公司将他们的数据场景转移到云上,原生云的出现 数据仓库, 数据的湖泊,甚至 数据湖houses 占领了市场, 相对于许多on-prem解决方案,为存储数据提供更容易访问和负担得起的选项.

是否选择使用数据仓库, 数据湖或两者的某种结合完全取决于您的业务需求. 最近, 关于使用开源还是封闭源码的解决方案有很多讨论 雪花砖的 在建立你的数据栈的时候,营销团队真的会把这一点暴露出来). 

不管你站在哪一边, 如果不投资云存储和计算,就不可能构建一个现代的数据平台.

雪花, 云数据仓库, 当涉及到快速扩展数据平台时,这是数据团队的流行选择吗. 图片由 雪花

下面, 推荐一个正规滚球网站将重点介绍当今云仓库中的一些主要选项, 湖, 或者[插入你自己的变化]景观: 

  • 雪花 —原始云数据仓库, 雪花为数据团队提供了一个灵活的支付结构, 因为用户要为计算和存储数据支付单独的费用.
  • 谷歌BigQuery -谷歌的云仓库, BigQuery, 提供无服务器架构,由于并行处理,该架构允许快速查询, 以及独立存储和比较可伸缩的处理和内存.
  • 亚马逊红移 ——亚马逊红移, 最广泛使用的选项之一, 它位于亚马逊网络服务(AWS)之上,很容易与该领域的其他数据工具集成.
  • 火弩箭 -基于sql的云数据仓库,声称其性能比其他选项快182倍, 由于压缩和数据解析的新技术,数据仓库以更轻松的方式处理数据.
  • 微软Azure -微软的云计算在这个列表中很常见,这些团队都在大量利用Windows集成.
  • Amazon S3 —对象存储服务(兼容openstack swift接口),提供结构化和非结构化数据的对象存储服务, S3为您提供了从头构建数据湖所需的计算资源.
  • ——砖, Apache Spark-as-a-service平台, 是数据湖屋的先驱吗, 为用户提供利用结构化和非结构化数据的选择,并提供数据湖的低成本存储功能.
  • Dremio - Dremio的数据湖引擎提供分析, 数据科学家, 和数据工程师一起集成, 数据湖自助界面.

数据转换和建模

数据转换和建模通常可以互换使用, 但这是两个完全不同的过程.  当您转换数据时, 您需要获取原始数据并使用业务逻辑对其进行清理,以便为分析和报告准备数据. 当你为数据建模时, 您正在创建用于存储在数据仓库中的数据的可视化表示.

印度生物技术部, 哪项运动是一个充满活力的开源社区, 使数据分析师能够熟练使用SQL,轻松地转换和建模数据,以供平台的业务智能层使用.  图片由蒙特卡罗提供.

下面,推荐一个正规滚球网站分享了一些让数据工程师能够转换和建模数据的常用工具:  

  • 印度生物技术部 -数据构建工具的缩写,是开源的领导者 转换数据 等它装进你的仓库. 
  • Dataform ——现在 谷歌云的一部分, Dataform允许您将仓库中的原始数据转换为BI和分析工具可用的数据.  
  • 后续服务器集成服务(SSIS) -由微软主办, SSIS允许您的企业从各种各样的来源提取数据,然后转换这些数据,您可以稍后将这些数据加载到您选择的目的地. 
  • 自定义Python代码和 Apache气流 -在印度生物技术部和Dataform等工具兴起之前, 数据工程师通常用纯Python编写他们的转换. 虽然继续使用自定义代码转换数据可能很诱人, 它确实增加了出错的机会,因为代码不容易复制,而且每次进程发生时都必须重写.

数据转换和建模层将数据转换成更有用的东西, 为下一阶段的发展做准备:分析.

商业智能(BI)和分析

你收集的数据, 改变了, 如果你的员工不能使用存储服务,那么存储服务对你的企业是没有好处的.  

如果数据平台是一本书, BI和分析层将是保护层, 充满了迷人的头衔, 视觉效果, 总结一下这些数据实际上想告诉你什么. 事实上, 这一层通常是终端用户在想象数据平台时想到的, 这是有原因的:它使数据变得可操作和智能, 没有它,, 你的数据缺乏意义. 

表是一个领先的商业智能工具,它为数据分析师和科学家提供了构建仪表板和其他可视化工具的能力,从而推动决策制定. 图片由  

下面,推荐一个正规滚球网站概述了一些顶级数据团队中流行的BI解决方案: 

  • 美人 -针对大数据进行优化的BI平台,允许团队成员轻松协作构建报告和仪表盘.
  • -通常被称为BI行业的领导者,它有一个易于使用的界面.
  • 模式 -整合SQL的协作数据科学平台, R, Python, 和视觉分析在一个单一的UI.
  • 权力BI -一个基于微软的工具,可以轻松地与Excel集成,并为团队中的每个人提供自助分析.

这个列表绝不是广泛的, 但它会让你开始为你的堆栈寻找正确的BI层.

数据可观测性

数据可观察性为团队提供了跨越可观察性的五个关键支柱的数据信任的整体视图, 包括新鲜, 模式, 以及血统(上图). 图片由蒙特卡罗提供

随着数据管道变得越来越复杂,组织依赖数据来驱动决策, 需要消化这些数据, 存储, 加工过的, 分析了, 转变成值得信赖和可靠的人,从未如此之高.  简单地说,组织再也负担不起 数据中断 i.e.,部分的,不准确的,缺失的或错误的.  

通过在推荐一个正规滚球网站的数据平台上应用相同的应用可观察性和基础设施设计原则, 数据团队可以确保数据是可用的和可操作的. 在推荐一个正规滚球网站看来,根据错误的数据做决定往往比没有数据更糟糕. 

你的数据可观察性层必须能够监控和警告以下可观察性支柱: 

  • 新鲜:是最近的数据? 它最后一次生成是什么时候? 包含/省略了哪些上游数据?
  • 分布:表示接受范围内的数据? 格式正确吗? 它是完整的?
  • 体积:所有的数据都到了?
  • 模式模式是什么,它是如何变化的? 谁做出了这些改变,原因是什么?
  • 血统:对于给定的数据资产, 受其影响的上游资源和下游资产有哪些? 谁是生成这些数据的人,谁依赖这些数据做决策?
数据可观察性将提醒数据工程团队注意影响关键数据集的异常, 减少白噪声,并根据历史数据映射事件. 图片由蒙特卡罗提供.

一个有效的, 前瞻性数据可观察性解决方案将快速无缝地连接到您现有的堆栈, 提供端到端沿袭,允许您跟踪下游的依赖项. 另外, 它将自动监控您的数据—不需要从数据存储中提取数据. 这种方法可确保您满足最高级别的安全性和遵从性需求,并可扩展到要求最高的数据量.

数据发现

最好的数据发现解决方案将提供一个自动的, 表和资产所有者的动态概述, 联系, 查询日志, 以及其他元数据,为您的数据提供了丰富的理解和联系. 图片由蒙特卡罗提供.

在构建数据平台时, 大多数领导者的任务是选择(或构建)一个数据目录, 在推荐一个正规滚球网站看来, 这种方法已不再足够. 

不要误会我的意思:数据目录很重要, 而现代数据团队需要一个可靠的, 以可伸缩的方式记录和理解关键数据资产. 但随着数据变得越来越复杂和实时, 平台这一层的流程和技术需要发展, 太. 

在许多传统 数据目录不足 (i.e.,通常是手动的,可伸缩性差,缺乏对非结构化数据的支持,等等.),数据发现填补了空缺. 如果数据目录是一张地图,  数据发现是你智能手机的导航系统, 不断更新和完善最新的见解和信息.  

至少,数据发现应该满足以下需求: 

  • 自助发现和自动化: 数据团队应该能够轻松地利用他们的数据目录,而无需专门的支持团队. 自助服务, 自动化, 数据工具的工作流编排消除了数据管道各阶段之间的竖井, 在这个过程中, 更容易理解和访问数据. 更大的可访问性自然会导致更多的数据采用, 减少数据工程团队的负载.  
  • 随着数据的发展,可扩展性: 随着公司吸收越来越多的数据,非结构化数据成为常态, 扩展以满足这些需求的能力对于数据计划的成功至关重要. 数据发现利用机器学习来获得数据资产的鸟瞰视图, 确保您的理解随着数据的发展而变化. 这种方式, 数据消费者可以做出更智能、更明智的决策,而不是依赖过时的文档或更糟糕的基于直觉的决策.
  • 数据运行状况的实时可见性: 不像传统的数据目录, 数据发现提供了对数据当前状态的实时可见性, 而不是它的“编目”或理想状态. 因为发现包括你的数据是如何被吸收的, 存储, 聚合, 并被消费者使用, 您可以收集诸如哪些数据集是过时的或可以弃用的见解, 给定的数据集是否具有生产质量, 或者当给定的表最后一次更新时.
  • 支持治理和仓库/湖泊优化:从治理的角度来看, 在湖泊中查询和处理数据通常需要使用各种工具和技术(Spark on 砖), 马上用电子病历, 等.), 结果就是, 通常没有一个单身的, 可靠的读和写的真实来源(像仓库提供的). 一个合适的数据发现工具可以作为真相的中心来源.

数据发现使数据团队能够相信他们对数据的假设与现实相符, 支持动态发现和跨数据基础结构的高可靠性, 无论域. 

构建或购买你的6层数据平台? 这取决于.

构建数据平台并非易事, 在这样做的时候,有很多需要考虑的东西不应该被忽视. 推荐一个正规滚球网站的客户面临的最大挑战之一是,他们是否应该只在内部构建某些层, 投资SaaS解决方案, 或者探索开放源码的广阔世界.

推荐一个正规滚球网站的答案? 除非你是Airbnb、Netflix或Uber,否则你通常需要把这三家公司都包括进去. 

这些解决方案各有利弊, 但你的决定将取决于许多因素, 包括但不限于:

  • 数据团队的规模. 数据工程师和分析师已经有足够多的工作要做,他们需要这样做 构建内部工具 花费的时间和金钱可能比你想象的要多. 简单地说,精益数据团队没有时间去获取新的数据 团队成员跟上进度 使用内部工具,更不用说构建它们了. 投资于易于配置的、自动化的或流行的解决方案.e., 开源或低代码/无代码SaaS)在非uber /Airbnb/Netflix数据团队中越来越普遍. •迪奥戈里贝罗, 千眼公司分析部副总裁, 领先的云智能平台, 他对这种权衡的总结比以往任何时候都好:根据他的观点, 当您的数据工程团队有足够的带宽在您的数据之上构建应用程序时,内部工具是值得的. 然而, 如果数据工程师把大部分时间花在构建和维护数据管道上, 购买解决方案可能更有意义,可以减少它们的负载,并将它们释放出来,以便进行更有趣的工作.
  • 组织存储和处理的数据量. 在选择解决方案时,重要的是要选择一个能与您的业务相适应的方案. 机会是, 如果你只需要几行代码就能完成工作,那么在一家只有20人的公司里,一个数据分析师独自一人就能获得每年1万美元的转型解决方案是没有意义的. 
  • 你的数据团队的预算. 如果你的团队预算有限但人手众多, 那么开源选项可能很适合您. 然而, 请记住,当涉及到跨数据堆栈设置和实现开源工具时,您通常是独立的, 经常依赖社区的其他成员或项目创建者自己来构建和维护特性. 当你考虑到这一点 只有大约2%的项目在最初几年之后会有增长在美国,你必须小心你叉的东西.

无论你选择哪条路, 按照正确的顺序构建这些层次,将为你的发展和扩大打下基础, 最重要的是, 提供公司可以信任的见解和产品.  

毕竟,有时候最简单的方法就是最好的方法. 

推荐一个正规滚球网站错过什么了吗? 接触 巴尔摩西 or Lior Gavish 有任何意见或建议.

如果你有兴趣学习更多关于数据可观察性的知识,请联系其他的 可以玩滚球的正规app队.