数据目录到底怎么了?

好像每次我刷新推特的时候, 一家新公司推出了“世界上最伟大的数据目录”.这是令人兴奋的! 

如果一家公司能够打造出下一个最好的产品目录, 数据世界肯定会集体松一口气. 不要误会我的意思:这里有很多创新,也有明显的进步. 支持数据工程师和软件开发人员直接在数据治理报告和仪表盘检查中工作的集成. 数据科学工作手册,以促进更大的合作-检查. ML支持自动数据分析检查.

但数据目录之所以如此受欢迎,并不是因为推荐一个正规滚球网站对它满意. 因为他们有身份危机. 

一个数据工程师或分析师走进一家酒吧……

想象你走进你最喜欢的酒吧. 推荐一个正规滚球网站称之为数据挖掘. 这是当地运动队的海报, 提基火把(用电火点燃的), 当然), 还有一个宽敞的舞池. 

你走到酒保面前.

“这将是什么?”她问. 

你说:“请给我喷点Aperol喷雾剂。. 距离上次疫情已经有一段时间了(或许是在大流行之前?),但你记得它味道很好,尤其是在像今天这样的热天. 

酒保拿起一个杯子放在你面前. 

“配料在吧台后面. 在它.” 

听起来很熟悉? 可能不会,但是在数据的上下文中,也许这种“自助服务”的方法会给你一些启发. 

《推荐一个正规滚球网站》联合创始人兼首席分析官Benn Stancil表示, 写了一篇文章 最近,该公司对自助数据工具的挑战充满了诗意. 

根据Stancil, 理论上,人们可以提出的问题越多, 他们就越少能自食其力. 随着您添加更多的选项, 自用工具不再像疯狂的Libs, 然后开始看起来像一个空白的文件,要求人们完整地写下自己的故事. 虽然这是分析师们想要的,但并不是所有人都想要的.”

当Stancil在谈论度量提取的“自以为是的简单性”时. 一种通用的测量数据的方法,推荐一个正规滚球网站可以将这种方法应用到数据目录上. 太多的选择,却很少有关于如何让他们成功的意见. 

作为一个例子, 他指出,英语教学提供商提供的课程有限, 明确定义他们能(不能)向数据工程师提供什么:很简单, 快速数据摄入.

现在, in 2021, 数据目录也处于类似的十字路口:尝试为所有人提供所有内容,或者真正做一到两件事, 很好. 

选择你自己的冒险:数据目录版

简·奥斯丁的话, 这是一个普遍公认的真理,一个幸运的数据工程师, 必须需要一个数据目录.” 

在过去,我写过 数据目录是如何失败的 有三个关键原因: 

  • 自动化需求增加: 传统的数据目录和治理方法通常依赖于数据团队来完成繁重的手工数据输入工作, 让他们负责随着数据资产的发展更新目录. 这种方法不仅耗费时间, 但这需要大量的人工工作,而这些工作本来可以自动化, 为数据工程师和分析师腾出时间,让他们专注于那些真正能带来重大进展的项目.
  • 随数据变化而伸缩的能力: 当数据被结构化时,数据目录工作得很好,但在2021年,情况并非总是如此. 随着机器生成数据的增加和公司对ML计划的投资, 非结构化数据变得越来越普遍, 占所有新产生数据的90%以上. 
  • 缺乏分布式架构: 尽管现代数据体系结构分布广泛(见: 数据网格),以及将半结构化和非结构化数据作为标准的趋势, 大多数数据目录仍然将数据视为一维实体. 当数据被聚合和转换时, 它流经数据堆栈的不同元素, 几乎不可能记录下来.

我还分享了为什么团队需要通过应用数据发现原则来创造性地思考数据目录. 简而言之, 数据发现指的是拥有特定于领域的数据, 根据数据的摄入方式对数据进行动态理解, 存储, 聚合, 由一组特定的消费者使用. 数据发现是推荐一个正规滚球网站能力的核心, 作为数据从业者, 为了弄清楚推荐一个正规滚球网站正在处理什么,并将这种“意识”传达给推荐一个正规滚球网站的利益相关者. 

那么,好的数据发现的结果是什么呢? 这取决于你问谁. 

我建议你检查所有适用的选项: 

  • 数据质量
  • 数据治理 & 合规
  • 协作
  • 理解
  • 讨论
  • 可视化
  • 安全
  • 可靠性
  • 报道
  • 可用性
  • 世界和平

这个列表让人不知所措. 这并不是说一个优秀的数据目录不能勾选多个复选框. 他们可以——而且确实这样做了. 但如果推荐一个正规滚球网站没有明确的目标, 推荐一个正规滚球网站怎么可能追踪推荐一个正规滚球网站是如何与他们相比的呢? 

下面是推荐一个正规滚球网站看到的一些用于跟踪数据目录性能的度量方法.  同样,检查所有适用的选项:

  • 数据的准确性
  • 数据新鲜度
  • 使用量度
  • 访问数据的速度
  • 编目数据的数量

但这里还缺少一些东西:这些指标跟踪“基于解决方案”的结果, 但是这些能告诉你这些数据是否有用吗? 什么是可靠的? 还是值得信赖的? 这正是数据目录经常丢失的地方. 

现代的数据目录经常没有一个明确的身份:换句话说,就是一个用户故事.

数据目录能找到自己的方式吗? 

在过去的生活中,推荐一个正规滚球网站的一位前同事花了两年时间构建了一个没有人使用的数据字典. 为什么? 当他的团队完成时,需求就过时了,解决方案也不再相关. 

不幸的是,他的经历往往是常态,而不是例外. 而产品愿景为任何好的解决方案铺平了道路, 当推荐一个正规滚球网站为解决实际的客户问题而构建时,推荐一个正规滚球网站开发出了更强大的技术,并取得了更大的成果. 现在, 无论你往哪里看,数据都需要以光速移动, 这种以客户为中心的方法比以往任何时候都更加重要.

数据目录非常重要,因为它们是推荐一个正规滚球网站如何衡量世界的文字索引. 但推荐一个正规滚球网站不认为他们真的会 有用的 直到它们被设计成有目的性的. 

但也许这只是推荐一个正规滚球网站的问题……无论如何, 推荐一个正规滚球网站渴望看到伟大的数据目录身份危机如何发展.

你是? 

你知道数据目录到底是怎么回事吗? 推荐一个正规滚球网站都是耳朵. 接触 巴尔摩西 or 戈登黄.