解决数据质量问题时需要知道的4件事

随着数据管道变得越来越复杂, 对于现代数据团队来说,投资于数据质量解决方案正变得越来越重要. 但是你应该建造它还是购买它? 

在这篇文章中, Stephen Guerguy斯科特·奥利里, 蒙特卡罗的解决方案工程师, 讨论4个主要挑战, 机会, 在考虑这两种选择时要权衡利弊. 

随着企业吸收越来越多的数据,数据生态系统也变得越来越复杂——从存储非结构化数据开始 数据的湖泊 让更多的内部消费者能够自由接触,这是责任所在 数据质量 从来没有这么高过. 

毕竟, 如果不能依赖提供给数据的数据平台,那么无论你的数据平台有多先进,或者你生产了多少仪表盘,都没有关系. 

确保数据的新鲜、准确和可靠至关重要,但这并不容易. 数据工程师和分析师花费在 40%或更多 他们的时间用来处理数据质量问题, 分散他们的注意力,让他们无法专注于真正能对公司业务产生影响的项目. 

数据团队内部构建自己的数据质量解决方案并不罕见, 分层的测试, 生产管线监控, 设置sla来跟踪可靠性 管理利益相关者的期望. 对于那些刚刚开始的人来说? 灵感就在那里,主要是以作者写的文章的形式 超级, Airbnb, Spotify, 网飞公司以及其他科技巨头的数据质量之旅. 

任何新兴技术都是如此, 一个哲学(和金融)的问题很快就出现了: 您应该构建还是购买数据质量解决方案?

在过去的一年里,我和数百家公司谈过, 推荐一个正规滚球网站了解到,大多数组织的数据堆栈结合了定制的混合, SaaS, 以及开源解决方案. 在这些对话中, 头的数据, 首席数据官, 产品经理也和我分享了他们在构建和购买核心产品时所犯的错误. 

根据专家的说法, 以下是在构建或购买数据质量解决方案时必须做的4件事:

理解您的解决方案的预期价值时间

就像任何内部解决方案一样, 设计, 建筑, 扩展, 维护内部数据质量解决方案需要时间, 钱, 和员工. 对于你的优步、airbnb和网飞公司,这不是问题. 如果你有一个庞大的数据工程和数据科学团队,手上有大量的额外时间, 那样的话,建设可能是有意义的——但在大多数公司, 缺乏数据团队的工作很少是一个问题. 

If, 像大多数公司, 在可预见的未来,你不会有5个以上的数据工程师和1个产品经理不知疲倦地工作在这个问题上, 然后,您可以考虑寻找内部解决方案以外的方法来满足您的数据质量需求. 

在决定是否构建或购买解决方案时, 它有助于了解您的团队用于构建上述解决方案的新员工的预算. 图片由蒙特卡罗提供.

当一家领先的保险技术提供商的数据团队调查构建一个 数据可观测性 解决方案, 他们意识到需要30%的数据工程团队才能建立一个全面的异常检测算法, 这一解决方案将花费450美元以上,000美元/年建造和维护. 他们选择购买.

类似的, 推荐一个正规滚球网站采访过的一家医疗保健初创公司的数据工程副总裁指出,如果他20多岁, 他会想要建造. 但现在,在他快40岁的时候,他几乎会全部购买.

“我理解这种热情,”他说, “可是我才没有时间呢, 能源, 以及从头开始建立一个数据平台的资源. 我现在长大了,也更聪明了,我知道不应该相信专家.”

它还有助于了解构建或购买(以及集成)解决方案将花费您的组织多少时间. 图片由蒙特卡罗提供.

底线是,在从头构建解决方案时,不要低估了价值的时间. 在大多数情况下, 数据工程的时间太宝贵了,不应该花在构建一个可能需要1年以上时间才能启动和运行的解决方案上. 当涉及到数据质量和可靠性时, 大多数公司都没有这个时间, 资源, 或牺牲名誉. 

机会成本因素

当您的数据工程师花费时间手工构建数据测试,以考虑任何和所有可能的边缘情况时, 这些时间本可以用来解决客户问题, 改善你的产品, 或推动创新. 

考虑到这一点 即使是世界上最强大的测试 不会造成80%的数据问题, 考虑构建和维护这些测试的机会成本,而不是致力于那些实际上会对您的业务产生影响的项目,是值得的.

除了直接的机会成本, 当问题出现时,使用数据质量半成品解决方案的数据工程师也可能花费更多的时间来解决问题, 进一步耗尽他们的精力,从这些关键的努力. 事实上, we found that 数据工程师 spend about 40 percent of their time manually firefighting data issues; if time is 钱, 这可不是一笔小数目. 

当涉及到需要花费时间和金钱的地方时,购买一个可靠的、由专门团队支持的解决方案通常是有意义的,它可以帮助您的数据工程师排除任何停机故障.

比如后直接面向消费者的床垫品牌 居民 通过蒙特卡罗实现数据质量, 他们发现数据问题减少了90%缩短了剩余10%的检测时间

正如他们的数据工程主管Daniel Rimon告诉推荐一个正规滚球网站的那样, “在可以玩滚球的正规app, 我总是小心翼翼,害怕自己会错过什么. 我无法想象现在没有它的工作……我认为每个数据工程师都必须拥有这种级别的监控,以便以一种高效和良好的方式完成这项工作.” 

采取主动(而不是被动)的方法来解决这个问题

数据必然会在某一点或另一点中断, 是什么导致团队采取反应性的方法来修复错误, 而不是更加勤奋和积极主动. 随着数据管道变得越来越复杂, 仅用反应性的方法解决数据质量问题是不够的. 

测试(一种重要的主动方法)可以帮助验证您对数据的假设. 您可以手动设置阈值, 测试空值和数据问题的其他常见指标, 甚至使用测试来确定数据是否超出预期范围.

不过,尽管 测试可以发现和预防许多问题, 数据工程师不太可能在开发过程中预测到所有的可能性, 即使他们可以, 这将需要大量的时间和精力. 依赖测试的数据团队可能会发现你可以很容易预测但却会错过的问题。”未知的未知——诸如分布异常、模式更改、数据不完整或过时等问题.

这就是为什么为了真正的取一个 积极的方法 为了解决数据质量问题,最好的数据团队利用双重方法, 将数据测试与整个管道的持续监控和可观察性结合起来.

帮助数据团队识别的集中式仪表板, 警惕, 并且快速和协作地修复数据质量问题,提供了一种主动的方法,以确保高数据可靠性和在管道的所有阶段的理解. 图片由蒙特卡罗提供.

当物流公司 Optoro 需要解决客户是第一个注意和标记数据问题的问题, 他们考虑构建一个自主开发的解决方案来解决客户和不良数据之间的问题. 他们的选项包括开发定制SQL完整性检查器或构建源和目标检查, 他们的数据团队最终认定这太耗时了 对于Optoro的众多管道来说,覆盖范围将过于有限. 

最终, Optoro选择收购蒙特卡罗, 数据团队发现端到端自动化沿袭, 不需要手动映射吗, 是对他们的数据平台的重要补充,并导致了数据质量的改善. 

根据你现在和将来的需要,正确地审视问题

在构建或购买任何数据质量解决方案之前, 你应该准确地了解自己的目标,不仅是明天,而且是未来, 12, 甚至是18个月.

推荐一个正规滚球网站谈到的许多公司都在他们的数据基础设施的特定方面考虑数据质量, 而不是端到端. 解决管道中特定部分的数据质量问题(i.e., 转换或建模层), 数据工程师编写了一些测试,以解决团队当前面临的即时且易于理解的痛点. 

虽然这种方法可能短期有效, 当写作时,它会使组织失败, 部署, 维护测试成为数据工程师的全职工作. 这就引出了一个问题,这真的是对数据工程师时间的最佳利用吗?

一个更全面的, 解决数据质量问题的端到端方法结合了沿袭性,既映射了上游和下游的依赖关系,又强调了哪些数据资产直接受到数据事件的影响. 图片由蒙特卡罗提供.

在决定是内部构建工具还是与托管供应商合作之前,你应该能够回答以下几个关键问题: 

谁将是这个工具的主要用户? 

这个工具会被数据工程师使用吗? 或数据科学家? 那么数据分析师呢?? 在回答这些问题之前,先理解一下是有帮助的 在您的组织中谁拥有数据质量, 推荐一个正规滚球网站的意思是:当管道破裂或仪表盘失效时,谁将负责解决和报告数据问题? 如果15个以上的数据工程师对数据的特定需求和行为进行了调整,那么他们就是主要用户, 内部建设可能是最有意义的. 如果你正在处理大量的数据角色,或支持一个由工程师和/或分析师组成的精简团队, 购买一个用户友好的解决方案, 合作界面可能是一条可行之路. 

使用SasS解决方案的另一个好处是,它可以作为数据健康状况的单一真实来源.  在我接触过的很多组织里, 数据工程师, 分析师, 科学家们都有自己的数据质量流程, 导致数据事件的多个警报, 没有单一的UI将所有内容联系在一起.

您希望您的工具解决哪些数据问题? 

当一个内部构建可能是门票

这些数据问题是针对您的业务的吗? 这是一种 数据停机时间 第三方供应商可能不会优先考虑的事情? 如果是这种情况,那么最好是在开源解决方案的基础上构建. 

然而, 如果你走这条路, 我建议您的数据工程和数据分析团队保持密切的联系. 当涉及到内部建设时, 沟通是确保重复不会出现在组织的不同部分的关键.  一次又一次, 我看到数据工程团队为他们的ETL管道构建了一个监视工具, 而分析团队(工作在几个隔间或Zoom电话之外)则构建出一个数据质量仪表盘. 每个解决方案都需要花费数百个小时和少量团队成员来构建, 但只解决了具体问题, 短期问题,而不是从数据堆栈的分析师和工程师两方面战略性地处理数据质量. 

当第三方供应商可能是最好的选择

这个问题在你的行业很常见吗? 在这种情况下, 最好的SaaS解决方案将是您的最佳选择,因为他们的工具将作为数据的单一真实来源,并且可以支持未来的用例,而无需为您的团队提供任何额外的投资, 假设与你合作的供应商继续投资一个 以客户为中心的 产品路线图.

您的数据治理需求是什么? 

数据规则,例如 CCPAGDPR 改变了企业处理个人身份信息的方式. 一些公司建立了自己的公司 数据目录 确保符合国家、国家甚至经济联盟的规定. 无论您选择构建还是购买数据质量解决方案, 治理将是一个关键的考虑因素, 你应该确保你的解决方案能够满足你的业务需求, 特别是 如果IPO或任何其他重要公司的里程碑即将到来. 注意:如果您选择第三方供应商的路线, 重要的是要确保你的投资选择是正确的 SOC 2认证. 你以后会感谢推荐一个正规滚球网站的.

选择权在你

虽然没有一个神奇的公式告诉您是构建还是购买数据质量解决方案, 盘点谁在使用你的产品, 数据组织的成熟度, 你的数据目标 能揭示一些明显的迹象吗. 

在那之前,希望您不会出现数据停机!


想了解更多关于福克斯数据团队的信息, 直觉, PagerDuty通过蒙特卡罗实现了更好的数据质量? 接触 Stephen Guerguy, 斯科特·奥利里, 团队的其他人.