数据可观察性:Clearcover如何将英语教学的质量覆盖率提高了70%

随着组织继续从更多的来源吸收更多的数据, 保持高质量, 可靠的数据资产成为一个关键的挑战. 这就是Clearcover与蒙特卡罗合作以确保跨elt和超越elt的端到端数据可观察性的原因.

芝加哥的团队 Clearcover, 领先的科技驱动保险提供商, 他们以提供快捷而自豪, 全美范围内的汽车保险费率透明化.S. 他们也为自己的数据感到自豪, 他们认为这是一种竞争优势,可以让他们兑现对消费者的承诺:在享受快速索赔的同时省钱, 容易支付, 和特殊服务. 

推荐一个正规滚球网站最近采访了布劳恩·雷耶斯, 数据工程高级经理, 讨论Clearcover在保持信任和质量的同时扩展自助服务数据平台的过程,以实现数据驱动的任务,以及当数据可靠性问题开始出现时他们如何应对.

Clearcover的数据状况

当布劳恩加入Clearcover的时候, 他是一个只有一个人的数据工程团队,并将数据堆栈描述为一种“用于分析的数据”方法. 他使用亚马逊 RDS 后端, Alooma 对于数据复制到 红移,并有一个 Apache气流 栈上运行 Kubernetes. 布劳恩还负责创建准备好的数据集. 

Clearcover的第一个数据栈依赖于分析师直接查询数据源, 一个数据工程师(布劳恩)负责清洁, 处理, 并存储准备好的数据. 这导致了周期性的瓶颈,减缓了分析和洞察的时间. 图片由布劳恩·雷耶斯提供.

但他的数据工程团队一人负责这么多层面, 瓶颈开始出现. 布劳恩花在维护工具上的时间比实际使用这些工具传递数据的时间要多. 由于存在这些瓶颈和数据缺乏可访问性(因此缺乏信任), 许多数据消费者通过直接查询源数据找到了变通办法. 

“我在这个数据栈上做的所有投资都是徒劳的,”布劳恩说. 

因此,随着数据工程团队的成长,他们迁移到现代的分布式ELT数据栈. 他们从“气流”切换到 完善 并开始使用 AWS Fargate 降低计算机的总拥有成本. 该团队还使用了 Fivetran雪花,为他们提供了红移所缺乏的可访问性. 

Clearcover的“现代数据栈”发展到包括雪花, 完善, 印度生物技术部, 和Fivetran, 以及独立的分析工程和数据工程层. 图片由布劳恩·雷耶斯提供.

现在, 数据工程层要小得多,并且专注于处理原始数据, 当一个独立的分析工程团队使用他们交付的工具和原始数据为业务生成准备好的数据时,这有助于消除那些早期的瓶颈. 

问题:对源数据缺乏信任

而分布式数据堆栈使得将更多数据源集成到雪花中更加容易, 布劳恩的团队遇到了一个新问题: 数据的可靠性

随着数据源的激增, 对于数据工程师来说,手动扩展跨管道的数据质量测试变得越来越困难. 所以当他们在数据上获得了操作上的信任时, 他们现在必须处理数据质量和信任问题. 

当团队开始将数据源复制到雪花以加速分析工程工作流程时, 他们遇到了两种途径:手动编写数据质量检查(一个时间密集且不可扩展的过程)或投资于自动覆盖. 图片由布劳恩·雷耶斯提供.

布劳恩说:“英语教学很好,但总有一个折衷。. “例如, 当您将数据从CRM复制到雪花时, 你的数据工程团队不一定要成为CRM或营销系统领域的专家. 因此,对推荐一个正规滚球网站来说,在所有这些来源中定制数据质量测试是非常困难的.”

当数据质量问题出现时,数据工程团队通常会感到意外. 他们将从数据消费者那里收到Slack信息, 问为什么某桌几天都没换过菜. 

“你的管道正在运行, 一切看起来不错, 但随后您会意识到,您正在交付的数据要么不正确,要么根本就没有到达,”布劳恩说. “你一直专注于管道建设的运营方面, 交付他们, 测试代码可能没有足够的带宽来考虑数据本身的健康状况.”

Braun和他的团队知道,他们需要一套基本的常识性检查,以提供建立数据信任所需的覆盖范围. 但是在他们的backlog中,添加覆盖率却不断下降, 因为他们忙于处理业务请求的新数据源. 

因此,他们开始探索一种更快、更全面的解决方案:可以玩滚球的正规app. 蒙特卡罗地址端到端 data 可观察性, 允许用户通过自动监控来查看和了解数据的整体健康状况, 报警, 与血统. 为了布劳恩和他的团队, 通过可观察性的五大支柱——新鲜度来衡量数据健康度的概念, 体积, 分布, 模式, 和lineage-instantly共鸣. 

Braun说:“推荐一个正规滚球网站的数据工程团队都很简单. “以这种方式提出问题对推荐一个正规滚球网站来说意义重大.”

解决方案:自动覆盖关键的ELT管道

加上可以玩滚球的正规app, 提供数据运行状况问题的自动监视和警报, 布劳恩和他的团队立即覆盖了他们所有的桌子. 

“推荐一个正规滚球网站不再需要针对每个特定的数据资产定制特定的测试. 推荐一个正规滚球网站所要做的就是报名, 添加安全实现,以给予蒙特卡罗所需的访问权限, 推荐一个正规滚球网站可以开始得到问题的提醒. 可以玩滚球的正规app给了推荐一个正规滚球网站现成的证据.”

关键步骤:用印度生物技术部伪影减少白噪声 

有超过50个来源,提供了大量的数据, Braun还想确保他的团队不会因为那些对业务无关紧要的数据事件而受到警告或分心. 

为了减少自动化监控带来的噪音, 他们围绕着解析DBT构件构建自动化,以确定准备好的数据包正在使用哪些原始表. 然后, 他们使用蒙特卡罗GraphQL API来围绕标记这些表和将与这些关键资产相关的事件转发到一个专用通道来构建自动化. 

通过使用蒙特卡罗和印度生物技术部构件隔离关键资产, Clearcover能够减少白噪声,专注于对他们业务最重要的数据. 图片由布劳恩·雷耶斯提供.

布劳恩说:“推荐一个正规滚球网站希望把注意力集中在那些正在被企业使用的东西上。. “通过将这些关键资产隔离在一个特定的Slack渠道, 这样我的团队就能专注于这些特殊事件.”

这种监控策略立即产生了影响. 与蒙特卡罗, 布劳恩的团队能够主动识别出这些无声的失败, 发起与利益相关者的对话, 并更快地提前解决问题,而不是从分析团队或业务团队那里收到关于丢失或错误数据的恐慌信息.

蒙特卡罗的Slack集成使得布劳恩的团队可以很容易地将事件及其影响传达给更广泛的数据组织. 图片由布劳恩·雷耶斯提供.

Braun和他的团队也能够开始防止数据问题影响业务. 

“例如,推荐一个正规滚球网站不是Zendesk的领域专家,”Braun说. 但如果蒙特卡罗提醒推荐一个正规滚球网站,该数据源中的某些模式从数字变成了字符串, 推荐一个正规滚球网站可以联系BI团队,并通知他们,这样当他们准备好的数据包早上运行时, 它们不会出现任何停机时间.”

解决方案:自动化, 端到端沿袭将解决数据事件的时间缩短了50%

蒙特卡罗也提供自动血统, 让数据团队能够全面了解上下游依赖关系,从吸收到BI仪表板. 这有助于数据工程团队理解模式更改或新集成的影响, 并且使得进行根本原因分析和在出现问题时通知相关涉众变得更加简单. 

蒙特卡罗的“事件智商”为布劳恩和他的团队提供了一个“基准点”,在数据问题影响下游消费者之前找到问题的根源, 减少检测和解决数据停机时间. 图片由布劳恩·雷耶斯提供.

当数据工程团队收到关于关键资产的Slack警报时,他们可以直接进入 事件智商仪表板 在蒙特卡罗.

 “这是我最喜欢的功能之一,因为当推荐一个正规滚球网站调查特定事件时,它真的是零起点,”布劳恩说. “事件智商为你如何着手调查一个问题奠定了基础. 我可以查看像新鲜度这样的属性,看看是否有超出标准的间隙, 为我的团队添加评论, 并更新事件的状态,以便任何前来查看的人都能知道它是否正在被处理.”

Lineage还可以帮助数据工程师了解潜在的下游影响,并揭示隐藏的依赖关系, 都在事件智商范围内. 然后, 他们能够接触到任何可能对这些数据进行查询或将其拉入Looker报告的人. 

解决方案:随着数据生态系统的发展,使用代码来扩展、自动化和自定义监控

Clearcover数据团队利用了数据的可观察性(特别是蒙特卡罗的) 监视器作为代码特性) 通过代码扩展沿袭和监视. Braun和他的团队可以编写自定义监控脚本,并在CI工作流中轻松构建自动化,从而向蒙特卡罗中添加更多的关系信息和上下文. 

“推荐一个正规滚球网站确实有定制的管道和流程,或者像JSON模式这样的东西,需要额外的覆盖范围,而不是现成的机器学习监视器所提供的,”布劳恩说. “因此,推荐一个正规滚球网站可以添加定制的字段健康监视器,提供更多的上下文,甚至为推荐一个正规滚球网站最重要和复杂的资产和管道交付sla.” 

这些定制的监控器在自动化监控器之上, 这使得数据团队可以很容易地设置新的sli,并密切关注sla. 使用这些JSON模式监控器, 再一次, 它使推荐一个正规滚球网站能够将常识性的数据质量应用于JSON变体, 发起对话, 让推荐一个正规滚球网站随时了解任何可能导致停机的潜在事故.”

结果:原始数据资产的质量覆盖率提高了70%

与可以玩滚球的正规app合作后,Clearcover发现 质量覆盖率提高70% 所有原始数据资产. 这导致了更积极主动的对话, 更快的根本原因分析, 数据事件的减少. 对团队来说,整合来自50多个数据源的数据不再是一个问题——他们知道,当重复或其他异常出现时,这些数据已经被覆盖了. 

“现在, 推荐一个正规滚球网站可以开始进行这些主动对话,在涉众受到影响之前防止停机, 而不是在发现有东西坏了之后才急着去修理,”布劳恩说. “所以,至少这些数据在今天结束前仍然可以公布.”

团队一直在考虑构建他们自己的根本原因分析和异常检测工具, 由于所需的数据工程资源,他们从未能够对其进行优先排序. 与蒙特卡罗, 他们有两种车, 在不增加技术债务和减少对定制代码的需求的情况下.

Clearcover数据的下一步是什么?

Braun希望推动数据可观察性在数据工程团队之外得到更广泛的应用, 将其应用扩展到分析工程团队,甚至是精明的商业用户. 他相信通过共同成长, Clearcover和蒙特卡罗将继续提高整个组织对数据的信任水平. 

布劳恩说:“蒙特卡罗对推荐一个正规滚球网站的建议和要求非常响应。. 他们对推荐一个正规滚球网站如何看待数据停机、数据操作和监控非常感兴趣. 他们让推荐一个正规滚球网站参与到潜在的新功能中. 推荐一个正规滚球网站真的觉得这更像是一种合作关系,而不是供应商关系. 随着推荐一个正规滚球网站作为一个数据组织的成熟,蒙特卡罗是一个可以成长的产品.”

想知道蒙特卡罗如何帮助您的组织实现数据质量覆盖和建立跨团队的数据信任? 联系 给推荐一个正规滚球网站做个演示 了解更多.