如何解决数据质量问题

数据质量是每个数据专业人员最关心的问题——这是有充分理由的. 错误数据 浪费公司宝贵的时间,资源,最重要的是,收入. 那么,为什么推荐一个正规滚球网站中有这么多人在相信自己的数据时还在挣扎呢? 难道没有更好的办法吗?

数据领域正在不断演变, 在每一个环节都创造新的机会,让你的见解更加丰富. 新旧数据源混杂在相同的数据湖和仓库中, 有供应商可以满足你的一切需求, 帮助你做得更好 数据目录 产生令人垂涎的视觉效果(让《推荐一个正规滚球网站》来美化抵押贷款吧).

毫不奇怪,客户最常问我的问题之一是“你推荐什么数据工具?

更多的数据意味着对你的业务有更多的了解. 与此同时,更多的数据会增加错误和不确定性的风险. 难怪数据行业的领导者们都在争先恐后地这么做 采购解决方案 建立团队,使决策更加明智,并管理数据的内在复杂性.

但我认为有必要问推荐一个正规滚球网站自己一个稍微不同的问题. 相反,考虑: “推荐一个正规滚球网站的组织需要什么才能最好地利用和信任推荐一个正规滚球网站的数据。?”

数据质量并不总是解决坏数据的问题

用你不信任的数据做决定是一件可怕的事情, 然而,即使是最有能力和经验的数据团队,这也是一种非常常见的做法. 许多团队首先将数据质量视为数据健康和可靠性的奇闻轶事. 推荐一个正规滚球网站喜欢说"垃圾输入,垃圾输出.这是一个真实的说法,但在当今世界,这就足够了吗?

企业花时间, 钱, 资源购买解决方案和组建团队来管理所有这些基础设施,梦想有一天成为一个良好的石油管道(管道), 数据驱动的机器——但是 数据问题可能发生在管道的任何阶段,从吸收到洞察. 简单的行计数, 特别的脚本, 即使是标准的数据质量标准也无法满足这一要求.

与我交谈的一家大型运输公司的数据主管告诉我, 平均, 他的团队有45名工程师和分析师 每周140小时手动检查管道中的数据问题. 即使你有一个10人的数据团队, 这整整5天可以用来做创收活动.

图片的文章
数据质量问题可能发生在管道的任何地方, 导致错误的决定, 浪费了资源, 和沉没成本. 虽然数据质量对识别此类问题很有用,但它只能帮到您这么多. (图片由 蒙特卡罗).

再多花哨的工具也没用, 训练有素的工程师, 执行买进可以防止坏数据破坏您的管道. 当组织在构建伟大的基础设施上投入如此之多的时候, 当涉及到整个系统的完整性时,他们经常发现自己不知所措, 或:数据停机时间.

数据停机时间, 换句话说, 你的数据丢失的时刻, 错误的, 或妥协, 您的数据生态系统是最大的痛点,也是完全了解您的数据质量的关键吗. 数据停机可能会导致时间浪费、决策失误,也许最重要的是, 收入和客户信任的损失.

如果不跟踪数据停机时间,那么无论您的工具有多先进都没有意义. (为了帮助我的客户解决这个问题,我创建了 一个简单的KPI 它将数据停机时间作为更好地理解数据可靠性的函数来度量.

而基于直觉的决策有时是有用的, 我的公司相信,使用坏的或损坏的数据比没有数据更糟糕.

数据可观察性即数据质量2.0

有很多解决方案把自己包装成魔术盒, 毫不费力地消耗原始数据,吐出可操作的见解, 但在我看来, “数据”和“魔术”是两个永远不应该出现在同一个句子中的术语, 也许只是在某些情况下……). 而不是, 重要的是,要将数据视为应该经常跟踪和监控的东西,作为数据管理的“玻璃面板”方法的一部分.

为了释放数据的真正价值,推荐一个正规滚球网站需要超越数据质量. 推荐一个正规滚球网站需要确保推荐一个正规滚球网站的数据是可靠和值得信赖的,无论它在哪里. 而实现这一目标的唯一途径就是创造可观察性——从资源到消费的所有途径. 数据可观测性, 组织完全理解其系统中数据健康状况的能力, 通过将DevOps的最佳实践应用到数据管道中,消除了这种神奇的感觉.

是的,数据可能因为各种不同的原因而变得“糟糕”. 但根据我的经验,通过专注于 数据可观察性的5大支柱——新鲜, 体积, 模式, 分布, 沿袭——你不仅可以主动发现数据中的问题, 但实际上从一开始就阻止了它们的发生. (查看 我最近的一篇关于数据可观察性的文章 对于一些可行的策略,以及对这5个支柱的更深入的解释.)

数据的可观察性可能不会告诉你接下来该购买哪种新奇的数据工具, 但它可以让您避免使用数据做出糟糕(且可能代价高昂)的决定.