推荐一个正规滚球网站对数据治理的误解

数据治理是最重要的 对我的许多客户来说, 特别是根据GDPR, CCPA, 新型冠状病毒肺炎, 当涉及到保护用户数据时,数据管理的重要性越来越大.

在过去的几年里, 数据目录已经成为一种强大的数据治理工具,我非常高兴. 随着公司数字化和数据操作民主化, 这对数据栈的所有元素都很重要, 从仓库到商业智能平台, 现在, 目录, 参与合规最佳实践.

但是数据目录是推荐一个正规滚球网站建立一个强大的数据管理程序所需要的全部吗?

数据治理的数据目录?

类似于图书馆的实体目录, 数据目录 作为元数据清单,为投资者提供评估数据可访问性所需的信息, 健康, 和位置. 这样的公司Alation, Collibra, Informatica提供的解决方案不仅可以监视你的数据, 但也要与机器学习和自动化相结合,使数据更容易被发现, 协作, 现在, 符合组织的, 全行业的, 甚至是政府法规.

因为数据目录提供了关于公司数据源的单一真实来源, 利用数据目录来管理管道中的数据非常容易. 数据目录可用于存储元数据,从而使涉众更好地理解特定数据源的沿袭, 从而灌输对数据本身更大的信任. 另外, 数据目录可以很容易地跟踪个人身份信息(PII)可以存放和向下游扩散的位置, 以及组织中谁有权限通过管道访问它.

这对我的组织是正确的?

那么,哪种类型的数据目录对您的组织最有意义呢? 让你的生活轻松点, 我与现场的数据团队交谈,了解他们的数据目录解决方案, 把它们分成三个不同的类别:内部, 第三方, 和开源.

内部

一些B2C公司,我说的是 airbnb, 网飞公司, 超级 对世界-建立自己的数据目录,确保数据符合状态, 国家, 甚至是经济联盟(我看的是GDPR)级别的规定. 内部解决方案的最大好处是能够快速旋转可定制的仪表盘, 去你的团队最需要的地方.

Uber的Databook可以让数据科学家轻松搜索表格. 图片由 超级工程.

而内部工具可以快速定制, 随着时间的推移, 这样的黑客行为会导致缺乏可见性和协作性, 特别是在理解数据沿袭方面. 事实上, 我在一家外卖初创公司采访的一位数据主管指出,她的内部数据目录中明显缺少“一层玻璃”.如果她有一个真实的来源,可以让她了解她的团队的桌子是如何被其他业务部门利用的, 确保合规很容易.

在这些战术考虑之上, 花费工程时间和资源来建立一个数百万美元的数据目录对绝大多数公司来说是没有意义的.

第三方

自2012年成立以来, Alation 在很大程度上为自动化数据目录的崛起铺平了道路. 现在,市场上有很多基于ml的数据目录,包括 Collibra, Informatica, 和其他人, 许多具有付费工作流程和面向存储库的法规遵循管理集成. 一些云提供商, 像谷歌, AWS, 和Azure, 还提供额外成本的数据治理工具集成.

在我和数据领导者的谈话中, 这些解决方案的一个缺点是:可用性. 尽管几乎所有这些工具都具有强大的协作功能, 我采访过的一位数据工程副总裁特别提到了他的第三方产品目录的非直觉UI.

如果数据工具不容易使用, 推荐一个正规滚球网站如何期望用户理解甚至关心他们是否兼容?

开源

2017年,Lyft通过开放其数据发现和元数据引擎,成为行业领导者, 阿蒙森以著名的南极探险家命名. 其他开源工具,如 Apache阿特拉斯, 玛格达CKAN, 提供类似的功能, 这三种方法都可以让精明的开发团队很容易地创建一个软件实例并开始工作.

阿蒙森是一个开源的数据目录,用户可以通过它了解模式的使用情况. 图片由 米哈伊尔·伊万诺夫.

而这些工具中的一些 允许团队标记元数据 用于控制用户访问, 这是一个密集且通常是手工的过程,大多数团队都没有时间去处理. 事实上, 一家领先的运输公司的产品经理分享说,他的团队特意选择不使用开源数据目录,因为他们没有现成的对所有数据源和数据管理工具的支持, 使数据治理更具挑战性. 简而言之,开源解决方案还不够全面.

仍然, 对于合规,有一些关键的东西是即使是最先进的目录也无法解释的: 数据停机时间.

缺失的环节:数据停机

最近,我发达 一个简单的指标 为帮助测量的客户 数据停机时间, 换句话说, 当你的数据是部分的时候, 错误的, 失踪, 或者不准确. 当应用于数据治理时, 数据停机时间可以让您全面了解组织的数据可靠性. 没有数据可靠性来增强可发现性, 不可能知道您的数据是否完全兼容和可用.

数据目录解决了部分(但不是全部)数据治理问题. 开始, 减轻治理缺口是一项艰巨的任务, 如果不完全了解您的公司实际上正在访问哪些数据资产,就不可能对这些数据进行优先级排序. 数据可靠性填补了这一空白,并允许您释放数据生态系统的全部潜力.

另外, 没有实时血统, 推荐一个正规滚球网站不可能知道PII或其他受监管的数据是如何蔓延的. 考虑一下:即使您使用的是市场上最奇特的数据目录, 治理的好坏取决于您对数据去向的了解程度. 如果您的管道不可靠,那么您的数据目录也不可靠.

由于它们的特点互补, 数据目录数据可靠性解决方案 携手合作,提供数据治理的工程方法, 不管你需要用到什么缩写词.

就我个人而言,我对即将到来的下一波数据目录感到兴奋. 相信我:这不仅仅是数据.

如果你想了解更多,联系 巴尔摩西.