2021年数据团队必须优先考虑的事项

过去几周, 我与一些世界上最好的数据团队就2021年的工作重点进行了多次对话. 其中很多都专注于升级或扩展现有的基础设施, 有两个“决心”真正打动了我:

  1. 使工程和数据组织更紧密地联系在一起
  2. 直接连接数据生产者和数据消费者

不像其他很多人, 这两个优先事项显然不是技术上的, 不仅需要更智能的工具(比如增强分析), 数据lakehouses, 以及数据平台),同时也是一种全新的构建和扩展数据团队的思维方式. 

让推荐一个正规滚球网站从事实开始. 现代企业正在利用越来越多的数据来保持竞争曲线的领先地位,推动创新. 像这样, 这些公司中越来越多的人正在使用和访问这些数据来驱动关键的业务功能. 

为了使这种面向领域的数据基础设施成为现实,许多数据团队正在采用一种“数据网格的方法,为跨职能团队提供支持“数据即产品”的选项,,每个区域处理自己的管道和分析. 

“数据网格”的概念仍在流行, 虽然我完全支持, 事实是,大多数组织在开始采用它的时候并没有为成功做好准备. 为了在规模上快速移动,工程团队和数据组织需要一起工作. 对于许多公司来说,这两个领域是各自为营的,因此很容易将这种方法“融合”起来.  

话虽这么说, 如果你从这两个优先事项开始, 你正在成功的路上. 下面是如何到达那里: 

对数据应用DevOps思维

第一个, 推荐一个正规滚球网站已经亲眼看到,向数据团队和工作流引入软件工程和DevOps概念是提高数据可靠性和可靠性的可靠方法, 反过来, 跨组织的数据信任. 

具体地说, 数据团队可以将数据可观察性最佳实践应用于监控, 报警, 并对管道中出现的数据事件进行故障排除. 更好的是, 利用沿袭来映射上下游的依赖关系可以使工程团队和数据团队之间的协作变得更加容易.

Pro-tip: 最有影响力的:使用 SLA / SLO框架 (以及用于监视的端到端可观察性!),以确保协调和问责. 这篇文章 由eBay的产品主管,数据服务对此有一些很好的见解.

投资数据发现 

一旦团队对特定的数据域有了明确的所有权和责任, 团队必须转向 数据发现 减少操作数据和见解的摩擦. 

数据发现要求数据所有者对其作为产品的数据负责, 以及促进不同位置的分布式数据之间的通信. 一旦数据被一个给定的域服务和转换, 域数据所有者可以利用数据满足其操作或分析需求. 不像数据目录, 数据发现显示了对数据当前状态的实时理解,而不是理想状态或“编目”状态.

Pro-tip:共享, 自助服务平台,为技术和非技术用户找到他们需要的数据,并更好地理解它(它从哪里来, 它是最新的吗, 等.)是授权数据消费者的关键.

 通过采用DevOps最佳实践和投资自动化, 可伸缩的数据发现, 数据团队可以满足这些优先事项——甚至更多. 如果采用正确的方法,就可以提高数据可靠性和协作.

有兴趣了解更多关于数据可观察性和发现之间的关系? 接触 斯科特 剩下的 蒙特卡罗 团队! 

以下是更多的资源,可以让你更好地了解如何构建现代数据团队: