每周ETL:你如何“薄片”一个数据管道?

在蒙特卡罗的每周ETL(通过Lior的解释)系列, Lior Gavish, 可以玩滚球的正规app的联合创始人, 首席技术官在Reddit上回答了一个关于数据工程最热门话题的热门问题. 

可以找到Reddit线程 在这里

Reddit用户/ ous_tim问道 如何“thin slice”数据管道?是否有人曾经面临过这种挑战? 

第一个, 我认为数据工程师现在遵循DevOps和软件工程的最佳实践是件好事, 在这种情况下, 从一个 最有价值球员 在您投资构建更大的系统或服务之前,您的解决方案. 参与并领导软件工程团队将近20年, 我明白尽快让产品运转起来是多么重要,这样才能在一开始就显示出产品的价值. 

在构建数据管道的情况下,您需要“切片”您的数据,而不是解决方案. 我建议建立一个在数据子集上运行的数据管道, 也许只有一个来源, 提取它, 将其转换, 并将其以所要求的格式传输到您可以开始分析和可视化它的地方. 这是最好的开始方式,因为您可以尽快生成对分析师和数据科学家有用的内容. 关键是管理范围,问问自己——推荐一个正规滚球网站如何开始回答业务问题, 至少部分, 用更简单的分析和数据? 然后,您可以添加额外的来源、额外的粒度和精度,以便随着时间的推移更全面地回答问题. 从富人中提炼出最重要的需求, 您通常可以从与分析师和数据科学家的合作中获益.