如何解决“你正在使用那个表??!”的问题

随着企业越来越依赖数据来推动决策和创新, 重要的是这些数据是及时的, 准确的, 和可靠的. 当你考虑到这只是一小部分 超过7.5百万的七乘方(7700000000000,000,000,000) GB的数据 每天在世界范围内生成的都是可用的, 关注哪些数据资产是重要的只会变得更加困难. 在本文中,推荐一个正规滚球网站将介绍“关键资产”, 一种由最好的数据团队采取的新方法,以显示您最重要的数据资产,以获得快速和可靠的洞察力.   

你有没有想出最奇怪的方法来命名“相关”表,比如 “IMPT” or “使用THIS_V2”? 您是否已经完成了数据仓库迁移的四分之三,却发现不知道哪些数据资产是正确的,哪些是错误的? 你的分析团队是否迷失在电子表格的海洋中,看不到救生衣? 

如果你对以上任何一个问题的回答是肯定的,那么你并不孤单. 在过去的几年里, 我与数百个数据团队交谈过,他们都被公司数据资产的潜力所激励和震撼, 负责维护不断变化的数据资产生态系统. 

推荐一个正规滚球网站称之为“你正在使用那张桌子”?!这个问题比你想象的更常见. 

以下是你可能正在经历这种情况的三个迹象: 

您正在迁移到一个新的数据仓库

就像穿越塞伦盖蒂平原的水牛一样, 迁移到新的数据仓库可能是一个混乱而乏味的过程, 让你的团队意识到不再适合或可用的数据(或水牛). 图片由 简·里克斯在Shutterstock报道.

随着数据团队越来越多地从on-prem数据仓库转向Snowflake数据仓库, 红移, 与其他云仓库或云仓库之间, 知道哪些数据是有价值的,哪些数据会像渡渡鸟一样消亡的能力变得越来越重要.

不幸的是, 数据验证和交叉引用通常是手工处理的, 这是昂贵的, 耗时, 而且很难缩放. 一个客户, 一家全球金融服务公司的数据团队负责人目前正跳槽到雪花, 透露他们“正在手动将红移表映射到Tableau的报告中,这样推荐一个正规滚球网站就知道应该迁移到Snowflake和Looker。.”

通常当数据团队从红移迁移到雪花时, 他们最终求助于在两个数据仓库中相同表的副本之间进行手工差距分析,因为“知道哪些报告位于表的下游将帮助推荐一个正规滚球网站确定迁移并对迁移进行优先级排序。, 或者弃用一个不再需要的表.” 

你公司的数据分析师和数据科学家不知道使用什么数据

第二个也是数据团队常见的痛点是不知道什么数据最有用, 更别说有用了. 

如果你和你的团队问了以下任何一个问题, 他们可能正处于一个连史酷比都无法解开的谜团之中. 下面是一些常见的数据发现问题. 也许他们会产生共鸣: 

  • 我应该使用什么数据呢? 
  • 我找不到我需要的数据了,我该怎么办呢?
  • 很难理解什么是推荐一个正规滚球网站的“重要数据”……帮助?
  • 谁在用这张桌子? 这些数据重要吗? 

当人们经常问这些问题时, 你的公司明显缺乏数据信任和数据发现, 是什么影响了你们公司利用数据作为竞争优势的能力. 

你有大量的“数据债务”

Data debt is more than just costly; it erodes user trust and leads to poor decision making. 图片由 baranq 在上面.

像技术债务, 数据债是指过时的数据资产, 不准确的, 否则会占用数据仓库中宝贵的存储空间. 这种情况太常见了,甚至会让最先进的数据团队陷入困境, 使其难以及时呈现相关的见解.

数据债在实践中是什么样子的? 以下是三个强有力的指标: 

  • 你有一些过时的数据秘密(包括过时的), 不准确的表, 以及遗留数据类型),团队可能会错误地使用. 
  • 您会收到关于不同作业和系统检查失败的警报,但它们被忽略了,因为“一直都是这样的”.” 
  • 你更新了你的技术堆栈, 迁移到雪花, 并且正在使用最新的工具, 但不再使用相同的数据格式, 数据表甚至数据源.

介绍:关键资产

数据团队的任务是通过数据驱动的洞察创建业务的可见性, 但当涉及到他们自己的业务时, 他们经常是盲目的. 而不是, 团队需要一个查看数据运行状况的单一视图, 关键资产,用于识别数据仓库中最关键的数据表和数据集. 

幸运的是, 最好的数据可靠性和可发现性(目录)解决方案已经将它们整合到他们的产品中. 通过利用机器学习, 这些解决方案在静止时智能地映射公司的数据资产,而不需要从数据存储中提取数据, 生成“关键资产仪表板”.”

关键资产可能是: 

  • 经常被许多人查询的表
  • ETL进程大量使用的数据集来派生其他数据集
  • 提供给许多或经常使用的仪表盘的表
  • 具有重要下游依赖关系的外部源

但是团队如何识别他们的关键资产呢? 在其他变量中,我建议团队寻找以下表格和数据集: 

  • 经常访问的(我.e.AVG_READS_PER_DAY)
  • 频繁更新(我.e.AVG_WRITES_PER_DAY)
  • 大量用户使用
  • 更新/定期(我使用.e., < 1-5 days since latest update) 
  • 大量ETL流程的利用
  • 支持连通性,换句话说就是对许多其他数据资产进行读写
  • 数据事故率高(天/周/月) 
  • 最近/经常被BI工具查询

此外,关键资产应该包括每个单独的数据资产的“重要性评分”. 这个分数是关于数据使用的关键指标的组合,表明哪些资产对您的组织最重要. 得分越高,资产就越有可能成为团队的重要资源.

而简单的, 这个关键资产仪表板的呈现提供了一个搜索功能,允许用户查找特定的资产, 同时,还要根据每天读取表的平均次数和使用表的总人数等统计数据,明确哪些资产是重要的,哪些资产可以折旧或清理.

使用关键资产解锁数据信任和发现

As 数据架构 变得越来越孤立和分散, 关键资产可以通过以下方式帮助您优化数据发现和恢复对数据的信任, 和其他很多:

促进更平稳的仓库迁移

带头 数据仓库迁移 这是一项既令人兴奋又令人畏缩的任务吗. 通常情况下,数据团队被迫手动处理数据验证. 与关键资产, 团队可以自动识别正在使用和依赖的表, 哪些可以弃用, 让这个过程更快.

更容易找到重要数据进行智能决策

通过关键资产的“重要性评分”和测量数据资产使用的各种元素,可以很容易地搜索和理解哪些数据对您的组织重要.

很可能整个公司的分析师都在做v1, v2, v3, 和太阳下所有数据集的v4(或者更确切地说, in your warehouse); finding and knowing which ones are actually relevant and important will make all the difference when you’re putting together critical analysis. 如果用户还可以搜索特定的数据资产,就会加分. 关键资产支持这两种功能.

减少数据债务

关键资产使清理“垃圾”表和管道变得更容易, 通过突出显示哪些数据表广泛使用,哪些数据表过时甚至不准确,允许您减少数据仓库或湖泊中的数据债. 传统的数据债务减少方法严重依赖于代码密集型集成(i.e.或者围绕工作流编排工具的特别SQL查询. 关键资产提供了一种更简单、更快的方法来获取这些指标和更多.

实现端到端数据可观察性

从摄取到分析,端到端数据可观测性 是任何严肃的数据工程团队的必备工具吗. 通过了解你的重要数据在哪里,以及它在管道的所有阶段是如何被使用的, 已弃用的表和数据集可以被忽略,而关键表则会浮出水面.

通过机器学习自动生成关键资产

在我看来, 一个智能但安全的关键资产仪表板应该自动生成, 利用机器学习算法,通过获取数据生态系统的历史快照来学习和推断您的数据资产, 不需要实际访问数据本身.

通过消除数据停机来提高数据可靠性

一个自动生成的, 单一的真实来源,例如Key Assets,是理解如何使用表的逻辑结论, 预防…的影响 数据停机时间 从显示在你的数据管道.

与关键资产, 用户可以搜索和确定哪些数据资产需要密切监视,以发现可能出现的异常或问题, 哪些可以暂时搁置. 这样的解决方案可以帮助团队自动消除过时数据的嘈杂警报,并只监视业务活跃使用的数据资产.

我不知道你怎么想,但我等不及看到“你正在使用那张桌子”?!“问题已经成为过去.

希望确定您自己的数据组织的关键资产? 可以玩滚球的正规app可以帮上忙.