ETL和数据仓库有什么区别

目录:

Anonim

主要区别 ETL 和数据仓库之间的区别在于 ETL 是提取、转换和加载数据以将其存储在数据仓库中的过程,而数据仓库是用于存储来自多个数据源的合并数据的中心位置。

数据仓库是一个帮助分析数据、报告和可视化数据以做出业务决策的系统。它是面向主题的、集成的、时变的和非易失性的。但是,在将数据存储到数据仓库之前,需要遵循几个步骤。这个过程称为 ETL。它涉及提取数据、转换,最后将它们加载到数据仓库。因此,ETL 和数据仓库的区别源于这个基本概念。

数据仓库,ETL

什么是ETL

ETL代表 提取、转换和加载.在这个过程中,首先从多个数据源中提取数据。然后,它被转换并加载到数据仓库中。 ETL 表示整个过程。 IBM Data stage、Informatica 和 Microsoft 集成服务是一些企业级 ETL 工具。现在让我们更详细地了解 ETL 的每个步骤。

萃取

提取是第一步。它涉及从各种数据源(例如数据库)中提取数据。执行提取时要注意的一个主要事实是它不应影响原始数据源的性能或响应时间。因此,存在各种数据提取策略。

完全提取 – 这涉及从所有数据源中提取所有数据。该策略的主要用途是在初始阶段加载数据仓库或在难以识别更改的数据时加载。

部分提取(带更新通知) – 这种策略比完全提取更容易、更快。它只涉及提取修改后的数据。

部分提取(无更新通知) – 它涉及根据某些关键特征提取数据。例如,如果已经提取到昨天的数据,则可以提取今天的数据并识别其中的变化。

转型

提取的数据是原始数据,所以用处不大。因此,下一步将进行数据转换。它涉及清理、映射和转换数据。基本转换任务如下:

选择 – 选择所需的数据

映射 – 从各种查找文件中查找数据并匹配需要转换的数据

数据清理 – 清理数据以使其标准化

总结 – 聚合和整合数据

主要的数据转换任务如下。

标准化 – 由于数据来自各种来源,因此需要标准化

字符集转换和编码处理 – 将数据转换为定义的编码

计算值 – 从现有列计算和派生新列。

溢出和合并字段 – 根据需求将一个字段拆分为多个字段或将多个字段合并为一个字段。

测量单位的转换 – 涉及数据时间转换等。

总结 – 汇总和整合数据。

删除重复 – 删除从多个来源收到的重复数据。

加载中

这是获取准备好的数据并将其存储在数据仓库中的过程。有多种加载技术。

初始负载 – 首次加载数据仓库。

增量负载 – 定期应用必要的持续变化。

完全刷新 – 完全擦除一个或多个表的内容并重新加载新数据。

什么是数据仓库

数据仓库是支持商业智能过程的系统。它将数据转换为用于分析业务的有意义的信息。因此,它是组织管理层决策的宝贵资源。

此外,数据仓库中的数据被划分为数据集市。它们中的每一个都包含特定用户的数据。它们提高了安全性和数据完整性。通常,数据仓库位于与正常操作数据库不同的位置。

ETL和数据仓库的区别

定义

ETL 是在数据仓库环境中提取、转换和加载数据的过程。相比之下,数据仓库是企业各种操作系统收集的所有数据的联合存储库。因此,这是 ETL 和数据仓库之间的基本区别。

用法

ETL 是一个过程,用于在将数据存储到数据仓库之前对其进行修改。数据仓库用于做出业务决策。此外,它还提高了数据质量和一致性,并改进了商业智能。因此,根据个人使用情况,ETL 和数据仓库之间存在差异。

结论

简而言之,ETL 和数据仓库之间的基本区别在于,ETL 是提取、转换和加载数据以将其存储到数据仓库中的过程,而数据仓库是用于存储来自多个数据仓库的合并数据的中心位置。数据源。

参考:

1. “3 – ETL 教程 |提取转换和加载”,Vikram Takkar,2015 年 9 月 8 日,在此处提供。2。 “什么是数据仓库? – 来自 WhatIs.com 的定义。”搜索数据管理,可在此处获得。

图片提供:

1. Kkristangel 的“KrisangelChap2-ETL”——自己的作品(CC BY-SA 4.0),来自 Commons Wikimedia2。 “数据仓库概述” 作者 Hhultgren – 通过 Commons Wikimedia 自己的作品(公共领域)

ETL和数据仓库有什么区别