为云计算带来可靠的数据和人工智能&和砖的马泰Zaharia合作

说你的公司是数据驱动的是一回事. 从你的数据中获得有意义的见解是另一回事.

问问 马泰Zaharia,最初的创造者 Apache火花. 自2010年由马泰和美国导演首次发行以来.C. 伯克利AMPLab, Apache火花已经成为世界领先的开源集群计算框架之一, 给数据团队一个更快的速度, 以更高效的方式处理和协作大规模数据分析.

与 , Matei和他的团队将他们的愿景扩展, 通过构建一个平台,帮助数据团队更有效地管理他们的管道和生成ML模型,将可靠的数据传输到云端. 毕竟,正如Matei所指出的那样:“你的AI的好坏取决于你输入的数据.”

推荐一个正规滚球网站和Matei坐下来讨论了Apache火花背后的灵感, 在过去的十年里,数据工程和分析领域是如何发展的, 以及为什么数据可靠性是行业的头等大事.

2010年,作为美国大学的研究员,您发布了《可以玩滚球的正规app》.C. 从那时起,它就成为了现代数据栈中应用最广泛的技术之一. 最初是什么激发了你的团队开发这个项目?

马泰Zaharia (MZ): 十年前, 人们对使用大型数据集进行分析很感兴趣, 但你通常必须是一名软件工程师,了解Java或其他编程语言,才能为他们编写应用程序. 在Apache火花之前,有 MapReduce Hadoop作为处理和生成大数据集的开源实现, 但我在伯克利的团队 AMPLab 想要找到一种方法,让全职软件工程师以外的用户更容易访问数据处理, 比如数据分析师和数据科学家.

具体地说, 数据科学家, 推荐一个正规滚球网站构建的第一个功能是SQL引擎开销,它允许用户将SQL与可以用另一种编程语言(如Python)编写的函数组合在一起.

另一个早期目标是 Apache火花 是为了方便用户建立现有的大数据计算吗, 通过设计模块化的编程接口来开放源代码库, 这样用户就可以在应用程序中轻松地组合多个库. 这导致为Spark构建了数百个开源包.

是什么鼓励了你和你在U.C. 将您的研究项目转变为企业数据团队的解决方案?

在研究项目的早期, 有一些技术公司对使用Apache火花很感兴趣, 例如, 雅虎!该公司雇佣了当时使用Hadoop的最大团队之一,以及几家初创公司. 所以推荐一个正规滚球网站很兴奋能不能满足他们的需求, 通过这次合作, 为新的研究问题提出想法,因为这仍然是一个新的领域.

因此,推荐一个正规滚球网站在早期花了大量时间使企业可以访问Apache火花. 然后, in 2013, 这个项目的核心研究团队即将完成推荐一个正规滚球网站的博士学位,推荐一个正规滚球网站想继续研究这项技术. 推荐一个正规滚球网站认为,以一种可持续且易于使用的方式将它带给更多用户的最佳方式就是通过云计算, 砖诞生了.

七年后,你的愿景成真了. 2020年,越来越多的数据团队开始使用云技术来构建自己的数据平台. 在设计数据栈时,企业数据团队应该记住哪些注意事项?

首先,重要的是要考虑您希望谁访问您的数据平台. 谁将会使用它所生产的东西, 你需要什么样的治理工具? 如果你没有实际使用数据的许可, 或者,如果你需要另一个团队来写一份数据工程的工作. 只是运行一个简单的SQL命令, 这样你就不能轻易地访问现有的数据或与公司的其他利益相关者分享结果, 这就成了一个问题.

另一个问题是:数据可用性的目标是什么? 无论你是在构建一个简单的报告还是一个机器学习模型,或者两者之间的任何东西, 你希望它们能够随着时间的推移不断更新. 理想情况下,您不会花费大量时间处理应用程序的停机时间.

So, 在设计平台时,评估满足公司数据用户的数据可用性需求所需的特性非常重要. 这就是 数据可观测性 进来.

过去,你说过 “人工智能的好坏取决于你输入的数据.” 我完全同意. 你能详细?

我甚至会说人工智能或机器学习应该被称为“数据外推”之类的东西, 因为这基本上就是机器学习算法的定义:以某种方式从已知数据中归纳, 经常使用某种统计模型. 所以如果你这么说的话, 那么我认为很明显,你输入的数据是最重要的元素, 正确的?

现在, 越来越多的人工智能研究表明,运行这个或那个新模型只需要很少的代码. 如果你所做的训练模型的其他一切都是标准的, 这就意味着你放入这个模型的数据非常重要. 为此,需要考虑数据准确性和可靠性的几个重要方面.

例如,你输入的数据是否正确? 这可能是错误的,因为你收集它的方式, 也可能是软件的缺陷. 问题是当你在生产的时候, 你知道, 将1 tb或1 pb的数据放入这些训练应用程序中, 你经常需要逐个检查,看它是否有效.

同样的, 您放入的数据是否涵盖了足够多的条件集,或者您是否错过了您的模型需要良好运行的关键现实世界条件?

为了达到这个目的,数据团队可以采取哪些步骤来获得高度可靠的数据?

在高层次上,我看到了几种不同的方法,它们都可以组合在一起. 其中一种方法非常简单,只要有一个模式和关于将进入表或报告的数据类型的期望. 例如,在砖平台中,推荐一个正规滚球网站使用的主要存储格式是 三角洲湖, 这基本上是一个功能更丰富的Apache Parquet版本,具有版本控制和表上的事务. 推荐一个正规滚球网站可以强制什么样的数据进入表格.

我看到的另一种数据质量方法是,在生成数据并发出警报时运行检查数据的作业. 理想情况下,您希望有一个非常容易生成自定义检查的接口,并且可以集中查看正在发生的事情, 就像你的数据健康状况的一扇玻璃.

我要注意的最后一件事与如何设计数据管道有关. 基本上是更少的数据拷贝, ETL, 还有运输步骤, 系统越可靠,因为出错的东西就越少. 例如, 你可以把一个三角洲湖表当作一个流来对待,并有工作被列出到更改,所以你不需要复制更改到一个消息总线. 您还可以使用像Tableau这样的商业智能工具直接查询这些表,这样就不必将数据复制到其他系统中进行可视化和报告.

数据的可靠性 是一个快速发展的领域,我知道 蒙特卡罗 这里有很多有趣的东西吗.

当你与他人共同创立砖时,云计算还处于初级阶段. 现在,许多最好的数据公司都在为云服务而建. 是什么导致了基于云的现代数据栈的崛起?

我认为这是一个时机和易用性的问题. 对于大多数企业来说,云使得大规模采用技术变得容易得多. 与云, 你可以买, 安装, 并且无需昂贵的设置和管理成本就可以自己运行一个高度可靠的数据栈.

管理是维护数据管道中最困难的部分之一, 但有云数据仓库和数据湖, 它是内置的. 云服务也是如此, 你购买的不仅仅是一堆必须安装在服务器上的CD-ROM上的比特. 您所拥有的管理质量直接影响您在其上构建关键应用程序的可能性. 如果你有个东西每个周末都需要维护它必须要停机一周才能升级, 你不太可能想要使用它.

另一方面, 如果你有云供应商正在管理的东西, 具有超高可用性的东西, 然后您就可以实际构建这些更关键的应用程序了. 最后, 在云上, 供应商向客户发布更新并获得即时反馈的速度也快得多.

这意味着云供应商必须非常善于在不破坏工作负载的情况下实时更新内容, 但是对于用户来说, 它基本上意味着你能更快地得到更好的软件: 想象一下,您现在可以从本地供应商那里访问到未来一两年内才可以访问的软件.

这些都是云产品在市场上取得成功的重要因素.

了解更多关于 马泰的研究Apache的火花, or .

有兴趣学习更多关于数据可靠性的知识? 接触 巴尔摩西 和 蒙特卡罗 团队.