蒙特卡罗通过新的数据块集成为数据湖带来数据可观测性

随着企业利用越来越多的数据来推动决策并保持竞争优势, 这些数据的准确性和可靠性至关重要. 与蒙特卡罗的新Databricks集成, 通过端到端数据可观察性和整个数据生态系统的自动化传承,在数据湖中工作的团队最终可以信任他们的数据. 

在过去的几年里, 数据的湖泊 已经成为现代数据栈的必备产品. 它们通常比传统的数据仓库提供更多的灵活性和定制, 但数据工程师知道,在数据组织和管理方面,通常是有权衡的. 而且,这些问题可能代价高昂:过去几年的研究表明,企业的确是如此 浪费了数百万美元的收入 而数据团队 浪费了他们将近50%的时间 修复破损的管道和其他数据质量问题. 

这个问题的核心是 数据停机时间,即数据丢失、陈旧、不完整或不准确的情况. 这就是为什么推荐一个正规滚球网站兴奋地宣布,推荐一个正规滚球网站将通过蒙特卡罗的新Databricks集成为数据湖带来数据可观测性——数据停机时间的解决方案.

什么是数据可观察性?

受到DevOps中应用可观察性的最佳实践的启发, 数据可观察性是一个组织完全理解其系统中数据的健康状况的能力. 数据可观测性, 就像它的DevOps对手一样, 使用自动监控, 报警, 鉴别和评估数据质量问题. 

在蒙特卡罗,推荐一个正规滚球网站从五个方面来研究数据的可观察性: 

  • 新鲜-你的数据表是最新的
  • 分布-你的数据是否在可接受的范围内
  • 体积-数据表的完整性
  • 模式-改变数据的组织
  • 血统——上游资源, 下游ingestors, 以及在整个生命周期中与数据的交互

推荐一个正规滚球网站的 可观察性数据平台 使用机器学习来推断和了解组织的数据,以便提前确定数据停机时间, 评估其影响, 通知那些负责修理的人, 并能更快地分析和解决根本原因. 

数据湖可观测性的独特挑战

对于使用Databricks来管理他们的数据池、运行ETL和分析的团队, 数据质量问题尤其具有挑战性. 数据湖几乎总是包含更大的数据集,通常包含大量的非结构化数据. 它们通常还需要许多需要协同工作的组件和技术, 这为管道破裂提供了更多的潜在机会. 而在其他技术领域工作的数据工程师可以利用dbt和Great Expectations等数据测试工具, 将这些解决方案扩展到典型的数据湖的大型数据集可能是一个挑战. 

数据湖中数据质量问题的后果可能是严重的, 特别是当涉及到机器学习时. ML是一个庞大的数据湖应用程序, 但如果提供给这些模型的数据不准确和不可信, 输出将受到影响. 作为毫升领袖 吴恩达最近说“机器学习项目的整个周期并不仅仅是建模. 而是寻找正确的数据, 部署它, 监控它, 将数据反馈[到模型], 展示安全性——为部署模型做所有需要做的事情. 这不仅仅是在测试中取得好成绩, 幸运的是,还是不幸的是,推荐一个正规滚球网站在机器学习中最擅长的是什么.”

确保数据质量对于任何ML实践者来说都是至关重要的, 适用于任何数据驱动的组织. 现在, 与蒙特卡罗的Databricks集成, 可以减少甚至消除数据湖上的数据停机时间. 

蒙特卡罗的Databricks集成是如何工作的

推荐一个正规滚球网站的新集成使得在Databricks工作的数据团队能够在他们的数据技术栈之上分层自动监控和警报, 包括在他们的数据湖中. 推荐一个正规滚球网站的集成设计可以轻松地扩展到包含数十万个表的环境, 以及任何大小的数据集. 蒙特卡罗也提供自动化, 可扩展数据沿袭, 在整个生命周期中交付组织数据的整体地图,团队可以使用它来快速识别和解决数据停机的根本原因和潜在影响. 还有可以玩滚球的正规app的 SOC-2认证, Databricks的客户可以放心,他们的数据是安全的,所有的最佳实践将得到满足. 

像砖创始人之一 Matei Zaharia告诉推荐一个正规滚球网站 最近, “人工智能和机器学习真的应该被称为‘数据外推’之类的东西,, 因为这基本上就是机器学习算法的定义:以某种方式从已知数据中归纳, 经常使用某种统计模型. 所以如果你这么说的话, 那么我认为很明显,你输入的数据是最重要的元素.”

对于未来的数据湖,推荐一个正规滚球网站感到无比兴奋. 和推荐一个正规滚球网站新的Databricks集成, 驱动这个未来的数据变得更加可靠和值得信赖. 

准备实现包含您的数据湖的端到端数据可观察性? 联系伊塔Bleier,了解更多可以玩滚球的正规app和Databricks如何合作.