如何利用端到端数据可观察性改进数据工程工作流

随着企业越来越多地利用数据驱动的见解来推动创新和保持竞争优势, 重要的是他们的数据是准确和值得信任的. 与 数据可观测性, 数据团队现在可以识别和防止不准确的信息, 失踪, 或者错误的数据破坏了你的分析仪表板, 提供更可靠的见解.

这种情况让你想起什么了吗?

您的市场分析团队使用Looker将纽约市时代广场的新广告牌每天产生的合格销售线索可视化. 在与CEO进行第四季度计划会议前几分钟,营销副总裁提醒你:

“数据都错了……发生了什么。?!”

你打开Looker,意识到这些数字, 通常每15分钟更新一次, 24小时没被碰过了!

而强大的解决方案可以在现有数据的基础上提供数据分析, 许多数据团队都将数据质量和完整性视为关键问题, 花费他们 数百万美元的税收被浪费了 和 高达50% 他们团队的时间. 而不是做那些对公司有帮助的项目, 数据专业人员被迫调试数据管道和被破坏的仪表盘.

为了解决这个非常普遍的现实, 数据分析师, 工程师, 科学家们需要一种简单而合作的方式来监测和提醒他们数据中的异常, 从摄取到分析. 同样重要的是,他们有必要的工具来映射他们的数据谱系, 密切关注数据管道中的变化如何影响下游源, 例如分析和商业智能报告.

图片的文章
数据可观测性仪表板监视数据管道和业务智能仪表板中的数据异常. 图片由巴尔摩西提供.

数据工作流如何中断

坏数据不会放过任何人, 而且会以各种方式突然出现, 不眠之夜, 浪费了资源, 数据信任的侵蚀.

在过去的12个月里,我与数百个数据工程团队进行了交谈, 我注意到,好数据变坏有三个主要原因:1)单一数据生态系统中越来越多的数据源, 2)数据管道日益复杂, 和3)更大的, 更专业的数据团队.

越来越多的数据源

现在, 公司使用数十到数百个内部和外部数据源来生成分析和ML模型. 这些来源中的任何一个都可能以意想不到的方式发生变化,并且不需要通知, 泄露公司用来做决定的数据. 

例如, 工程团队可能会对公司的网站进行更改, 因此,修改数据集的输出是市场分析的关键. 作为一个结果, 关键的营销指标可能是错误的, 导致公司在广告宣传方面做出糟糕的决定, 销售目标, 和其他重要, revenue-driving项目.

日益复杂的数据管道

数据管道越来越复杂,有多个处理阶段和各种数据资产之间的重要依赖关系. 这些依赖关系很少可见, 对一个数据集进行的任何更改都可能产生意想不到的后果,影响相关数据资产的正确性. 

一个系统中简单的单位改变可能会严重影响另一个系统的正确性, 在这个例子中 火星气候轨道器. 美国宇航局的太空探测器, 火星气候轨道飞行器坠毁的原因是数据输入错误,产生的输出是非单位制单位与单位制单位, 让它离地球太近. 像宇宙飞船, 在过程的任何阶段,分析管道都很容易受到最无害的变化的影响.

更大、更专业的数据团队

随着企业越来越依赖数据来推动明智的决策, 他们正在雇佣越来越多的数据分析师, 科学家们, 工程师来建立和维护数据管道, 分析, 以及为他们的服务和产品提供动力的ML模型, 以及他们的业务运作.

沟通不畅或协调不足是不可避免的,并会导致这些复杂的系统在做出改变时崩溃. 例如, 一个团队在数据表中添加的新字段可能会导致另一个团队的管道失败, 导致缺失或部分数据的. 下游, 这些糟糕的数据可能导致数百万美元的收入损失, 客户信任的侵蚀, 甚至合规风险.

破损数据工作流的解决方案? 数据可观测性.

确保具有数据可观察性的可靠见解

数据团队需要一种方法来无缝地监控并提醒仪表板上的数据问题, 让他们全面了解其数据资产的健康和可靠性.

解决这个, 数据可观察性自动监视数据生态系统的关键特性, 包括数据新鲜度, 分布, 体积, 模式, 与血统. 数据可观察性无需手动设置阈值,可回答如下问题:

  • 我的表最后一次更新是什么时候?
  • 我的数据是否在可接受的范围内?
  • 我的数据完整吗?? 2000排突然变成了50排吗?
  • 谁有权使用推荐一个正规滚球网站的营销表格并对其进行修改?
  • 我的数据在哪里泄露了? 哪些表格或报告受到影响?

用正确的方法实现数据的可观测性, 数据团队可以跨整个数据工作流跟踪字段级沿袭, 促进对其数据的健康状况和这些管道提供的见解的更大的可见性. 这样的功能允许数据工程师, 分析师, 科学家们要找出为什么他们的仪表盘不能为利益相关者提供最新的数据.e.,是否有缺失的数据集? 空值? 是否有人使用CSV文件类型而不是XLS?).

指南针如何使用数据可观察性防止破碎的工作流

数据可观察性在理论上是很好的,但是在实践中它是如何工作的呢?

作为数字第一的房地产平台, 指南针 利用数据驱动的技术,为全球代理商和房地产买家提供智能和无缝的搜索和销售体验. Suvayan罗伊, 指南针高级产品经理, 监督数据团队的工作流程,负责建立和维护整个13个分析管道,000人的组织. Keeping tabs on the upstream 和 downstream dependencies for their Looker dashboards is top-of-mind for Suvayan; if data breaks, 他的团队必须是第一个知道并解决问题的人.

“我向Slack提供的数据可观察性监控反馈让我感到安慰,推荐一个正规滚球网站的数据是健康的,一切都按照设计进行. 在出问题的日子里, 我知道我的团队将是第一个知道的,推荐一个正规滚球网站将控制局势,”Suvayan说.

具有自动数据可观察性, 罗伊和他的团队可以在晚上睡个好觉,继续专注于开发产品, 满足客户需求, 在不需要担心数据和分析的情况下彻底革新房地产. 

指南针的故事仅仅是个开始. 就我个人而言,我对这个类别的未来感到兴奋.

可靠的工作流程,推荐一个正规滚球网站来了!

想了解更多关于如何做 数据可观测性 可以帮助你的数据团队吗? 接触 蒙特卡罗 和签出 数据停机博客.