PagerDuty如何应用DevOps最佳实践实现更可靠的数据规模

PagerDuty 帮助在16,全球90个国家的800家企业通过数字化运营管理平台实现了正常运行时间sla, 提供随叫随到管理, 事件的情报, 分析, 和事件响应. 

那么,PagerDuty如何在自己的组织中处理特定于数据的事件管理呢? 我最近接触到的 马努拉吉, 数据平台和分析高级总监(datadduty团队), 了解他的团队在防止“数据停机”和实现更可靠的大规模数据管道方面的策略. 

PagerDuty的数据状况

PagerDuty的商业数据平台团队有一个明确的使命:随时为客户提供可信的数据, 在任何地方, 这很容易理解,并且能够进行有效的决策. 

“其中最关键的部分是数据治理, 数据质量, 安全, 和基础设施的操作,”Manu说. 该团队的客户“几乎包括PagerDuty的所有部门”, 包括金融, 高管, 客户成功, 工程, 销售, 和市场营销.”

就平台本身而言, DataDuty团队使用PagerDuty -“推荐一个正规滚球网站必须吃自己的狗粮”-以及Snowflake作为数据仓库, Fivetran, 段, Mulesoft, AWS, 以及数据科学领域的Databricks. 

该团队最近还集成了蒙特卡罗为ml动力 数据可观测性, 使他们能够通过监视完全了解数据系统的健康状况, 跟踪, 并在管道的每个阶段排除数据事故. 

PagerDuty的数据挑战

像大多数SaaS公司一样, PagerDuty使用了大量SaaS云应用程序(想想Salesforce, mareto的, 和Netsuite),并吸收大量内部和第三方数据. 结构化数据, 非组织性数据, 数据以不同的节奏输入, 和跨不同粒度的实时批处理都是PagerDuty整体数据生态系统的一部分. 

datadute团队的主要挑战是确保数据质量满足最终用户的期望,使他们能够基于准确的数据做出更快的决策. 

Manu说:“业务的动态特性是数据挑战的驱动力. “业务数据需求不断变化, 由季, 准确的决定必须迅速做出. 一切都是数据驱动的,所以推荐一个正规滚球网站必须敏捷.”

使用DevOps最佳实践来扩展数据事件管理

为了完成他们雄心勃勃的任务,datadduty团队实现了许多 DevOps事件管理最佳实践 到他们的数据管道. 

最佳实践#1:确保事件管理覆盖整个数据生命周期.

图片由PagerDuty提供.

在PagerDuty, 数据工程师的事故管理属于他们所谓的数据操作, 哪个是DevOps的扩展. 它包括数据和管道问题的跟踪、响应和筛选.

一旦数据在仓库中,直到它出现在面向客户的报告中, 有各种各样的潜力 数据停机时间从缺失的数据到错误的模型. datadety团队监测数据质量问题,包括异常情况, 新鲜, 模式变化, 指标趋势, 和更多的. 

数据可观测性 监控和确保数据仓库中的数据质量特别重要吗. 您可以通过ETL工具进行自定义数据质量检查,在数据管道级别进行干预, 但随着时间的推移,管理的逻辑, 脚本, 数据生态系统的其他元素也变得很麻烦. 此外,正如Manu所指出的,数据趋势的问题不能通过管道质量检查来识别. 

最佳实践#2:事故管理应包括噪音抑制

图片由寻呼机责任公司提供.

在实现数据监控和异常检测时,数据噪声是一个主要问题, 以及在企业规模上, 你每天都会收到各种各样的“提醒”, 其中许多会显示数据的变化,但不一定是全新的“问题”.“数据团队需要能够对客户进行分类, 企业主, 并及时响应这些警报,同时明确授予数据产品本身的所有权.

Manu的datadut团队使用PagerDuty事件智能来识别类似的数据事件警报, 对于包含多个数据问题的事件,抑制多个警报. 这样,他的团队成员就不会被警报淹没,可以专注于修复 数据问题的根本原因 手头. 

最佳实践#3:对数据资产和事件进行分组,以智能路由警报

蒙特卡罗的事件智商功能允许团队根据根本原因对事件进行分组,并向适当的域名所有者发送警报. 图片由蒙特卡罗提供.

根据马努, 数据可观察性是任何数据事件管理步骤之前的第一步, 包括事件处理和升级, 可能发生. 毕竟, 与异常趋势或指标相比,“我的数据没有刷新”是一个完全不同的问题. 团队需要能够识别这个数据问题随着时间的推移而存在.

当datadute团队开始 将蒙特卡罗与PagerDuty集成在一起 通过他们自己的数据平台, 它们遵循DataOps的最佳实践, 包括将数据问题分组在一起,从而基于360度视图实现更容易的路由和警报, 包括:  

  1. 将类似的数据管道问题与数据可观察性组合在一起,并在此工作流之上实现PagerDuty,确保这些警报被正确地路由到datadute团队. 由于他们使用“气流”进行调度,团队也会通过“呼叫任务”收到“气流”警报.
  1. 确定公司最关键的数据资产, 包括高管级报告和财务报告级数据, 通过蒙特卡罗. 现在, 与这些资产相关的警报通过带有升级策略的PagerDuty发送,并自动发送到其他涉众和商业智能团队.
  1. 利用PagerDuty和蒙特卡罗来监视BI指标的健康状况, 如客户的数量, 客户流失率, 账户数量, 以及数据事件的数量. 然后将这些警报发送到业务智能团队,以便他们进行监视并根据需要采取行动.

通过这些最佳实践, PagerDuty的平台团队履行了他们的使命,从DevOps的角度来处理数据事件管理 数据可观测性原则

作为集成合作伙伴, 推荐一个正规滚球网站的平台共同帮助企业识别和解决数据事件, 授权领导者快速、自信地做出数据驱动的决策.

对集成蒙特卡罗与PagerDuty为您的数据团队感到好奇? 接触!