数据可观察性:如何修复损坏的数据管道

而技术和分析技术, 聚合, 建模数据在很大程度上与现代数据组织的需求保持一致, 推荐一个正规滚球网站处理破损数据管道的能力一直落后. So, 推荐一个正规滚球网站如何识别, 纠正, 甚至要在这个太常见的问题成为一个巨大的头痛之前,预防它? 答案就在数据行业的下一个前沿领域: 数据可观测性.

你在成长的过程中,有没有读过一本 选择你自己的冒险 小说? 你, 主人公, 你是否有责任做出决定你史诗般的旅程的结果的选择, 无论是杀死一条喷火龙还是踏上南极的深海之旅. 如果你是做数据的,这些“冒险”可能看起来有些不同:

数据分析师的探索

这是3.m. 你花了四个小时解决问题 数据消防演习,你已经精疲力尽了. 你需要弄清楚为什么你的团队的Tableau仪表盘没有从Snowflake中提取最新的数据,这样Jane就可以在昨天生成报告.

数据工程大逃亡

您正在迁移到一个新的数据仓库,而无法知道重要数据的存放位置. 红移? Azure? 一个电子表格在谷歌驱动器? 这就像在玩电话游戏,你得弄清楚该往哪儿看, 数据应该是什么样子, 谁拥有它?.

数据科学家的恶作剧

你需要花9个月的时间才能了解公司的“好数据”在哪里. 您已经发现单个数据集的许多“FINAL_FINAL_v3_I_PROMISE_ITS_FINAL”版本,以至于您不再知道什么是起的,什么是坏的, 更不用说知道哪些数据表在生产环境中,哪些数据表应该弃用了.

听起来很熟悉?

在推荐一个正规滚球网站研究如何解决这个问题之前, 让推荐一个正规滚球网站来谈谈数据管道破裂的常见原因: 数据停机时间.

数据停机时间的增加

在互联网的早期, 如果你的网站宕机了, 这没什么大不了的——你可以在几个小时内让它重新启动并运行,而不会对客户造成什么影响(因为, 坦率地说, 没有那么多,推荐一个正规滚球网站对软件的期望也低得多).

快进到那个时代 Instagram, TikTok, 松弛 -现在,如果你的应用程序崩溃了,这意味着你的业务会立即受到影响. 为了满足推荐一个正规滚球网站对5 - 9的正常运行时间的需求,推荐一个正规滚球网站建造了 工具, 框架甚至是致力于解决这个问题的职业.

2020年,数据是新的软件. 

仅仅有一个伟大的产品已经不够了. 每一家严肃对待保持竞争优势的公司都在利用数据做出更明智的决策, 优化解决方案, 甚至改善用户体验. 在许多方面, 监测数据何时“中断”和管道何时被破坏比实现5个9更重要. 正如一家5000人的电子商务公司的数据主管最近告诉我的那样: “在我的公司网站上有错误的数据比没有网站更糟糕.”

为了尊重应用程序停机的概念,推荐一个正规滚球网站称之为这个问题数据停机时间,它指的是你的数据丢失、不准确或有其他错误的一段时间. 数据停机会影响数据工程师, 数据科学家, 和数据分析师, 在你的公司里, 导致浪费时间(北部 30% 数据团队的工作时间!), 沉没成本士气低落,也许最糟糕的是,人们对自己的洞察力缺乏信任.

数据停机通常不被注意,直到为时已晚,对您的数据管道造成严重破坏. 图片由 狄克Tirza范 on Unsplash.

以下是一些常见的数据停机来源——也许它们会引起共鸣:

  • 越来越多的数据正从多个来源收集. 随着企业越来越依赖数据来推动决策, 越来越多的数据正在被吸收, 通常高达千兆字节或兆兆字节! 这些数据资产常常没有得到适当的监控和维护, 在未来会引发问题.
  • 贵公司发展迅速包括合并、收购和重组. 随着时间的推移,不再与业务相关的数据不会被适当地归档或删除. 数据分析师和数据科学家不知道什么数据是好的,什么数据会像渡渡鸟一样.
  • 基础设施升级和 迁移. 随着团队从on-prem仓库转移到云仓库, 甚至在云仓库供应商之间, 为了避免迁移过程中丢失任何数据,复制数据表是很常见的. 当忘记将旧数据资产与新数据资产交叉引用时,问题就出现了, 迁移数据资产.

随着对数据收集的审查增加, 存储, 和应用程序, 这是及时的数据停机处理与它应得的勤勉.

解决方案:数据可观察性

数据可观测性, 这个概念来自DevOps和软件工程中的最佳实践, 指组织完全理解其系统中数据的健康状况的能力. 通过应用软件应用程序的相同原则,数据的可观察性和可靠性, 这些问题是可以确定的, 决心,甚至是预防, 让数据团队对他们的数据有信心,从而提供有价值的见解.

数据可观察性可以分为五个关键支柱:

  • 新鲜: 我的表最后一次更新是什么时候? 我的数据应该多久更新一次?
  • 分布:我的数据是否在可接受的范围内?
  • 体积我的资料完整吗? 2000排突然变成了50排吗?
  • 模式:谁有权使用推荐一个正规滚球网站的营销表格并对其进行修改?
  • 血统我的数据在哪里断线了? 哪些表格或报告受到影响?

数据可观察性提供对数据管道的端到端可见性, 让您知道哪些数据处于生产环境中,哪些数据资产可以弃用, 从而识别和防止停机时间.

一种包含自定义规则生成的数据可观察性方法,用于监视何时违反了数据的特定维度. 图片由蒙特卡罗提供.

一种健壮、全面的数据可观察性方法包括:

  • 元数据聚合 & 编目. 如果你不知道你有什么数据,你肯定不会知道它是否有用. 数据目录通常被纳入最佳的数据可观测性平台, 提供一个集中的, 对您的数据生态系统的玻璃视角,揭示了丰富的血统, 模式, 历史变化, 新鲜, 体积, 用户, 查询, 在单个视图中还有更多.
  • 自动监测 & 数据停机警报. 一个好的数据可观察性方法将确保您是第一个了解和解决数据问题的人, 允许您在数据停机时立即处理其影响, 而不是几个月之后. 除此之外,这样的解决方案需要最少的配置,实际上不需要设置阈值.
  • 血统 跟踪上游和下游的依赖关系. 健壮的, 端到端沿袭使数据团队能够跟踪从A(摄入)到Z(分析)的数据流, 将转换, 建模, 以及过程中的其他步骤.
  • 两个自定义 & ML-generated规则. 推荐一个正规滚球网站建议选择一种方法,利用这两个世界的优点:使用机器学习来历史地监视您的静态数据,并决定应该设置什么规则, 以及设置规则独特的规格您的数据. 不像编写到建模工作流或SQL包装器中的特别查询, 这样的监控不会停止在“表R中的字段T今天的值低于S。.”
  • 数据分析师、数据工程师和数据科学家之间的协作. 数据团队应该能够轻松快速地协作以解决问题, 设定新规则, 更好地了解他们数据的健康状况.
健壮的, 端到端沿袭使数据团队能够从摄取数据开始跟踪数据流, 转换, 和测试, 通过生产, 将转换, 建模, 以及过程中的其他步骤. 图片由蒙特卡罗提供.

遵循这些指导方针, 数据团队可以更有效地管理甚至防止数据停机.

那么,你的数据冒险将带你走向何方呢?

有兴趣为您的组织学习更多关于数据可观察性的知识? 接触 巴尔摩西 剩下的部分 可以玩滚球的正规app队.