如何像老板一样迁移到雪花

告诉我你想起来了吗:你的老板就是 相信雪花 is 数据的未来 并通知您的团队,您需要从您的数据仓库迁移到这个闪亮的新解决方案,而不是您生活中曾经需要的任何东西. 将存储与计算隔离将为您的公司节省很多钱, 除此之外, 你的副总裁可以生成新奇的仪表盘,供你的CEO追踪.

雪花云是一个云数据仓库平台,可以方便数据团队存储和使用数据. 与传统存储解决方案不同, 雪花支持大量的数据类型和业务智能工具,并使内部和外部团队能够轻松地在整个ETL管道中进行协作. 作为一个关系数据库,雪花还可以支持大多数结构化和非结构化数据类型.

喜欢你的副总裁, 我的许多客户对迁移到像雪花这样的云存储和计算解决方案的前景感到兴奋,但他们不知道从哪里开始. 没错,我找到了 几个 文章 关于从红移到雪花的迁移, 但很少提到如何从其他解决方案中解决极地问题.

像雪花一样,没有两个数据堆栈是相同的,每个堆栈都有自己的资产、复杂性和 需求. 雪花使得跨广泛的数据库和数据类型进行管理和协作变得容易. 图片由 亚伦的负担 在Unsplash

在实地和几位迁徙者交谈之后, 对于团队迁移到雪花,我列出了一些较少讨论的考虑因素, 无论你从哪里开始:

1. 跟分区和索引说再见吧.

与其他数据仓库不同, 雪花不支持分区或索引. 相反,雪花会自动将大的表划分为多个表 微分区非常相似,用于计算每个列包含的值范围的统计信息. 这些见解然后决定实际需要运行查询的数据集的哪些部分.

对于大多数从业者, 从索引到微分区的范式转换实际上不应该是一个问题(事实上, 许多人选择迁移到雪花,因为这种方法减少了查询延迟). 仍然, 如果您在当前的生态系统中有分区和索引,并且正在迁移到“集群”模型, 你需要一个合理的方法. 安全迁徙的几点建议:

  1. 记录当前数据模式和沿袭. 当您必须将旧数据生态系统与新数据生态系统进行交叉引用时,这将非常重要.
  2. 分析你当前的模式和传承. 下一个, 确定这个结构及其相应的上游源和下游消费者对于数据迁移到雪花后的使用方式是否有意义.
  3. 选择合适的群集键. 这将确保团队的访问模式具有最佳的查询性能.

只要您能够看到数据,就不必担心分区和索引的问题.

2. 预料(并接受)语法问题.

与我反复交谈的几个数据团队指出,语法问题是任何云仓库迁移都不可避免的组成部分, 雪花的迁移也不例外.

一位数据分析师特别指出了将用于处理ETL的SSIS包从她的SQL Server转换到雪花的困难, 哪一个 承认 SSIS包不容易与其解决方案集成. 这样的错误不仅令人沮丧, 但却大大减缓了迁徙的速度, 导致不可预见的成本和资源限制.

而像DBT这样的建模解决方案有助于验证数据集, 函数的格式化,比如哈希, 时间戳, 和日期是 经常不一致 新旧版本的数据之间.

另外, 雪花是区分大小写的, 所以在查询中检查比较问题是很重要的. 由于这些问题,一些公司可以预期 检查和重构SQL的所有行 被迁移.

对于传统行业的公司来说,语法错误是一个更大的痛点, 例如金融服务或医疗保健(ICD10代码(比如,我说的是你),长期以来都依赖于传统的解决方案和手动的、容易出错的数据输入. 简单地迁移到云并不能解决这些问题. 正如一家公共部门咨询公司的数据分析师告诉我的那样: “即使你雇佣了很棒的人,把最好的数据字典放在他们面前, 他们可能无法告诉你这一切意味着什么.”

越早接受语法错误是处理过程的一部分, 越容易识别这些不一致的趋势和模式,就越能加速它们的解决.

3. 经常监控你的数据.

类似于语法错误, 数据问题甚至可能导致最平稳的雪花迁移失败, 一旦连接上商业智能工具,就会产生错误或误导性的分析. 这些通常会导致无声错误,直到下游的消费者在报告或仪表板中发现问题时才会被注意到. 如果你够幸运, 它是一个内部用户——如果你不是, 这可能只是你上周刚加入的重要新客户,你正试图给他们留下深刻印象.

推荐一个正规滚球网站采访的另一位数字营销咨询公司的分析师指出,很难确保新旧数据仓库之间的全面数据定义. 在她公司新的雪花仓库出现了一些数据错误之后, 她决定通过演化两个并行的数据分析层来测试数据的可靠性, 一个是她的遗产仓库,另一个是雪花. 使用Looker生成两个堆栈的指标, 他们很快就确定有, 事实上, 两个仓库之间的不一致, 每一组指标表示不同的数据量.

升级数据仓库时, 确保你同时也在提升团队的运作方式, 从像语法并发这样的小事情一直到 数据质量 和可靠性.

您在这次迁移中投入了太多(这是理所当然的!),如果数据本身不可信,那么让它白白浪费就太愚蠢了.

大师您的迁移

如果从索引和分区开始, 希望语法问题, 优先考虑数据质量, 您将实现更无缝的雪花迁移, 促进更容易的协作并为您的组织交付真正的业务价值.

迁移到雪花意味着您的团队具有更大的灵活性和可伸缩性, 以及更快, 如果你做得对,你的客户会有更可靠的见解, 它可以成为整个组织的力量倍增器, 太.

别担心:你也会给你的老板留下好印象. 我保证它.

如果你想了解更多,联系 巴尔摩西.