介绍新的数据基础知识

现在你已经知道了基本知识,下次和我一起做ETL好吗?

In 2020, it’s simply not enough to collect data about your company to be “data-driven”; to stay relevant, 你也必须知道如何去做 应用 it. 从基于直觉的决策到数据驱动的分析,这一演变的基础是在整个业务中智能地推理这些数据的关键需求. 

在许多方面, 数据行业正处于与软件工程类似的阶段, 更具体地说, 开发人员操作DevOps)大约是十年前的事了. 现在,数据团队正在理解自动化工具的重要性,消除 数据停机时间, 也许,最重要的是,确保高数据可靠性. 事实上, 在过去的几年里, 推荐一个正规滚球网站发现,最好的数据组织都在应用软件工程思维来保持他们的竞争优势.  

在这篇文章中, 推荐一个正规滚球网站通过数据的基础知识, 提供当今数据团队需要了解的主要术语和概念的概述: 

数据分析让整个公司的团队了解他们的职能组织是如何执行的. 图片由 Franki Chamaki on Unsplash.

数据分析 

(n.)[明显an-l-it-ks):. 看:数据分析师. 这是一门新兴的收藏学科, 集成, 分析, 以及用于生成商业智能的大型信息集的表示. 数据分析允许公司各职能部门利用数据做出更明智的决策.

数据分析师

(n.) 看:数据分析. A data team member responsible for supporting the data scientist and engineer; data analyst roles vary depending on your industry and the size of the company, 但它们通常负责执行数据建模, 识别数据中的模式, 和设计/创建报告.

商业智能(BI)

(n.) 看:数据分析. 收集的方法和技术, 商店, 分析组织数据,帮助公司做出更好的决策. 一般来说,商业智能指的是数据分析的输出(i.e.、商业智慧). 

与图书馆目录一样,数据目录告诉您数据存储在哪里以及如何访问它. 图片由 美元吉尔 on Unsplash.

与图书馆目录一样,数据目录告诉您数据存储在哪里以及如何访问它. 图片由 美元吉尔 on Unsplash.

数据目录

(n.元数据目录,为用户提供评估数据可访问性所必需的信息, 健康, 和位置. 许多现代数据目录都是自助式的, 使数据团队能够很容易地提取有关他们数据的信息,并管理谁可以访问这些数据.

数据停机时间

(n.) 词源: 由数据可靠性公司创造 蒙特卡罗. 数据不完整、错误、丢失或不准确的一段时间. 数据停机是由错误的数据引起的, 数据异常, 以及其他可能破坏原本良好的数据管道的问题.

数据工程师 

(n.负责准备数据的数据小组成员. 数据工程师导入/清理/操作原始数据, 开发/测试/维护基础设施, 结婚系统一起, 并进行数据库管理. 数据工程师越来越多地从软件工程师(特别是DevOps团队)那里复制最佳实践,以协作进行数据管理,并在数据管理员和下游数据消费者之间实现自动化流程.

提取、转换、加载(ETL)

(n.将原始数据从一个或多个数据源复制到呈现不同数据的目标系统的一般过程, 通过:

  • 提取:查找数据源,复制数据,然后将数据加载到内存中
  • 变换:将数据重新组织成适合最终用户需要的形式(报告), 指示板, 毫升)清理, 格式总结, 连接来自多个源的记录, 和更多的
  • 负载:将数据移动到目的地(数据仓库、数据湖等).)
这个数据流图描述了国家癌症注册和分析服务的数据流. 图像 礼貌 维基共享下, GNU自由文档License.

数据流图 

(n.)表示数据在其生命周期中的路径的一种可视化方法, 通常跨越不同的解决方案或步骤的ETL过程. 这个视频 在解释什么是数据流图以及如何设计数据流图方面,SmartDraw做了非常出色的工作.

数据治理

(n.)[发音:哒-tuh guhv-er-nuhns]管理可用性的过程, 可用性, 以及组织中的数据安全, 通常基于内部政策和外部法规,有关上述数据的应用. 由于GDPR,这是数据领域的一个热门术语, CCPA, 以及其他关于数据合规的重要立法. 

数据中心

(n.从多个来源收集数据的一种数据体系结构,类似于数据湖. 不像数据湖, 然而, 数据中心可以同质化数据,并可以通过各种格式提供数据.

数据摄取

(n.)[明显: -tuh ĭn-jĕs 'chən]获取和导入数据以供使用的过程, 不管是现在还是将来. 数据可以实时摄取,也可以批量摄取. 

数据连接

(n.合并两个数据集的过程, 并排, 这样,每个数据集中至少有一列是相同的.

知识

(n.) 看:商业智能. 将ETL应用于数据,作为一种基于原始信息生成可操作和可理解的见解的手段的结果. 数据、信息、知识和智慧(DIKW) 层次理论阐述了数据与知识的区别和联系. 数据团队负责将数据转换为知识,供更广泛的企业使用. 

数据湖

(n.)用于尚未定义的目的的大量原始数据, 通常存储为对象块或文件.

数据库管理系统(DBMS)

(n.)[明显: -tuh-beys 男人。-ij-muhnt 姐姐-tuhm]用来管理数据库中的数据的软件应用程序或包, 包括数据的格式, 字段名称, 记录结构, 和文件结构. 根据用户的行业或学科,DBMS有各种不同的风格. 

数据集市

(n.数据仓库的一种形式,侧重于单一的功能领域(i.e.、销售、财务、市场营销等.).

数据网格

(n.)[明显: -tuh网) 词源:起源于扎马克·德加尼的 具有里程碑意义的ThoughtWorks的文章 分布式数据网格. 一种类型的数据平台体系结构,通过利用面向领域的方法,在企业中包含无处不在的数据, 自助服务设计. 依赖于确保普遍性 数据的可靠性 在整个体系结构的所有点和数据生命周期的各个阶段. 

图片由 蒙特卡罗.

数据可观测性

(n.)[明显: -tuh uhb -这苏珥是-vuh-buh-luh-tee] 词源:受软件工程可观察性实践的启发. An organization’s a基本脉冲电平ity to fully understand the 健康 of their data over its entire life cycle and surface 数据停机时间 incidents as soon as they arise; includes a基本脉冲电平ity to understand 数据可观察性的五大支柱:

  • 新鲜:数据表的更新速度以及表更新的节奏
  • 分布:如果数据的可能值在可接受的范围和格式内
  • 体积:数据表的完整性和对数据源健康状况的了解
  • 模式:数据组织的变化和数据生态系统的健康
  • 血统:哪些上游和下游的摄取者受到影响,哪些团队正在生成和访问数据

数据操作(DataOps)

(n.将数据工程和数据科学结合起来以支持组织的数据需求的一门学科, 就像开发人员操作(DevOps)帮助扩展软件工程领域(版本控制)一样, 迭代敏捷开发, 协作, 等.). 自动化在数据处理实践中扮演着越来越重要的角色 数据停机时间,类似于自动化工具如何帮助DevOps团队确保高的应用正常运行时间和最小化停机时间.

数据平台

(n.)所有数据的中央存储库, 处理集合, 清洗, 转换, 并应用数据来产生业务洞察力. 一个必须要回答的问题:大型数据组织的可伸缩性和可持续性. 

数据质量问题在组织中无处不在, 数据ops团队通常负责解决这些问题. 图片由 蒙特卡罗.

数据质量

(n.)数据在其生命周期的任何阶段的健康状况. 数据团队可以通过数据质量来衡量 一个简单的KPI 计算数据停机时间. 数据质量问题可能发生在数据管道的任何阶段.

Data QA测试

(n.) 看:数据质量.为给定的服务或产品维持所需的数据质量水平. 

数据的可靠性

(n.)[明显: -tuh ri-lahy-uh -基本脉冲电平对数据在整个生命周期的准确性和一致性有充分的信心. 简而言之:如果数据不可靠,那么它就不能被信任. 现代数据组织依靠数据可靠性来增加收入, 节省时间, 利用他们的数据做出明智的决定, 确保客户的信任. 

数据科学家

(n.) 负责分析和解释数据的数据团队成员. 数据科学家通过定量手段为关键的业务问题提供见解和答案. 越来越多地, 数据科学家的任务是构建ML算法,对业务进行预测.

数据源

(n.)的位置 数据来源于哪里(文件、API提要、数据库、SaaS应用程序等).).

数据表

(n.) 一种以类似网格的行和列格式显示数据的方法, 通常与X轴和Y轴相关. 

用户界面(UI)

(n.) [明显: - z in用户与计算机系统相互作用的方式. 在数据分析的背景下, UI为用户提供了一种易于理解的方式来理解数据, 的见解, 和知识在一个给定的数据存储.

约翰霍普金斯大学的COVID-19仪表板是2020年最著名的数据可视化技术之一. 图片由 克莱银行 在Unsplash.

数据可视化

(n.)[明显: -tuh vi-zhoo-uh-lai -zei之-shn]数据的图形表示, 通常合并图像来传达数据点之间的关系. A 数据沿袭 对于上游和下游数据源之间的映射连接,这是一种有用且越来越流行的数据可视化形式吗, i.e.在数据停机的情况下. 

数据仓库

(n.)一个中央 库的结构, 已处理的过滤数据, 通常是为了一个特定的目的.

x值

(n.) 看:数据表. 一对坐标中的水平值, 谁的值是通过平行于x轴测量来确定的.

y值

(n.) 看:数据表. 一对坐标中的垂直值, 谁的值是通过与y轴平行测量来确定的.

数据区

(n.)不要与"危险区域,“数据区指的是数据湖的子区域,对应于数据的格式(i.e.、原始的、结构化的、变形的等等.). 

数据团队的下一步是什么? 

数据是一个快速发展的领域, 当涉及到利用你的公司可以真正信任的数据时,提供了丰富的机会. 图片由 托马斯弗兰kowski Unsplash上.

推荐一个正规滚球网站预计在接下来的十年里, 数据行业将见证DataOps领域的爆炸性增长. 和New Relic的情况差不多, DataDog, 蜂窝状结构的可靠性和可观测性受到了广泛的关注, DataOps围绕数据可靠性和可观察性这两个核心概念进行移动的时机已经成熟. 

随着组织产生越来越多的数据, 数据基础设施和工作流只会增加复杂性, 需要能够确保整个公司数据信任的数据团队. 

您最感兴趣的数据趋势是什么? 让推荐一个正规滚球网站知道!