管理一个伟大的分布式数据团队的4个基本策略

COVID-19迫使几乎所有组织都适应了一个新的劳动力现实:远程团队. 推荐一个正规滚球网站分享四种关键策略,将您的分布式数据团队转变为整个公司的力量倍增器. 

现在是第6个月(还是第72个月)? 很难说)的全球流行病, 尽管从卧室到餐桌的路程很短, 你还在适应这种新常态.

您的团队负责所有相同的任务(处理特别查询), 修复破损的管道, 实施新的规则和逻辑, 等.),但排除故障的数据只会变得更加困难. 确定一个问题的根本原因已经很困难了 数据停机时间 incident when you’re all 5 feet away from each other; it’s 10 times harder when you’re working on different time zones.

分布式团队并不是什么新鲜事, 事实上, 在过去的几十年里,它们变得越来越普遍, 但在大流行期间工作对每个人来说都是新的. 这一转变扩大了人才的地域范围, 如此规模的合作必然会遇到意想不到的障碍, 特别是在处理实时数据时. 

你每天的单口相声也就到此为止了. 以下是管理优秀分布式数据团队的4个基本步骤: 

记录所有的东西 

当团队分布时,关于哪些表和列是“好还是坏”的信息被分解了.  推荐一个正规滚球网站采访了一家领先电子商务公司的一位数据科学家,他告诉推荐一个正规滚球网站,一个团队要花9个月的时间,才能对数据存在于何处形成一种蜘蛛般的感觉, 哪些表是“正确的”表, 哪些列是健康的. 实验.

这个问题的答案? 考虑投资于数据目录或沿袭解决方案. 这些技术提供了团队数据资产的真实来源, 并使其易于理解数据输入的格式和样式准则. 当数据治理和遵从性开始发挥作用时,数据目录变得尤为重要, 金融服务行业的数据团队最关心的是什么, 医疗保健, 还有很多其他行业.

设置数据的sla和SLOs

重要的是,不仅要确保数据团队成员之间的一致,还要确保数据消费者之间的一致.e.营销、高管或运营团队). 为此,推荐一个正规滚球网站建议从 网站可靠性工程 为数据预订、设置和对齐明确的服务水平协议(sla)和服务水平目标(SLOs). sla用于对数据新鲜度、容量和分布以及其他方面的期望 柱子的可观测性这一点至关重要. 

凯蒂·鲍尔, Reddit的数据科学经理, 建议分布式数据团队为重要项目维护一个包含预期交付日期的中心文档, 每周回顾一下这份文件. 

“而不是在涉众提出问题时,每周都向我的团队汇报最新情况, 我可以很容易地访问这个文件寻求答案,”她说. “这让推荐一个正规滚球网站专注于交付推荐一个正规滚球网站的工作,并避免不必要的分心.”

投资自助工具

投资自助式数据工具(包括Snowflake和Redshift这样的云仓库), 以及数据分析解决方案, 像模式, 表, 和Looker)将简化数据民主化,无论数据用户的位置或身份.

类似的, 自助版本控制系统帮助每个人在更大的工作流上进行协作时保持一致, 当涉及跨越时区的实时数据时,哪一个变得极其重要. 

优先考虑数据的可靠性 

负责管理PII和其他敏感客户信息的行业, 比如医疗保健和金融服务, 对错误的容忍度低. 数据团队需要对数据的安全性和准确性有信心, 从消费到产出. 有关数据可靠性的正确处理和程序可以防止这种情况的发生 数据宕机事件 并恢复对数据的信任.

多年来, 数据质量监控是数据团队捕获破损数据的主要方式, 但这已经不够了, 特别是当实时数据和分布式团队成为标准时. 推荐一个正规滚球网站的“远程优先”世界需要更全面的解决方案,可以无缝跟踪 数据可观察性的五大支柱 以及其他适合组织需要的重要数据运行状况度量. 

记住:不被认可是可以的

推荐一个正规滚球网站希望这些技巧能帮助你接受甚至拥抱数据世界的新常态. 

然而,在这个更有策略的建议之上,记住不被接受也没关系,这永远不会有坏处. 艾米莉Schario, GitLab的第一位数据分析师,现在是一名内部战略顾问, 最好的解释是:“这不是普通的远程工作. 在全球大流行期间,要想在强制远程工作期间取得成功,需要的是与往常远程工作不同的东西.”