Do You Know ETL ?

简介: ETL是数据的提取、转换和加载; ETL是指获取原始大数据流,然后对其进行解析,并产生可用输出数据集的过程。从数据源中提取(E)数据,然后经过各种聚合、函数、组合的转换(T),使其变为可用数据。最终数据会被加载(L)到对它进行具体分析的环境中。这就是ETL流程。 MapReduce是一种并行的编程架构,它不是数据库,而是对现有技术的补充。 MapReduce里内置了两个主要的处理

ETL是数据的提取、转换和加载;

ETL是指获取原始大数据流,然后对其进行解析,并产生可用输出数据集的过程。从数据源中提取(E)数据,然后经过各种聚合、函数、组合的转换(T),使其变为可用数据。最终数据会被加载(L)到对它进行具体分析的环境中。这就是ETL流程。


MapReduce是一种并行的编程架构,它不是数据库,而是对现有技术的补充。

MapReduce里内置了两个主要的处理过程:映射过程“map”以及归纳过程“reduce”,这就是MapReduce的名字来源。MapReduce会在一系列的工作节点上并发执行这些处理过程,会把数据分配到不同通用设备上运行处理。每一个MapReduce节点都会使用同样的代码对自己的管理的那部分数据进行处理。MapReduce里的节点之间不会发生信息的交互,甚至不知道彼此的存在,这是它和MPP系统的区别。

MapReduce环境的一个突出特点是处理各种非结构化文本的能力。MapReduce的核心理念是,让许多机器一起来共同承担海量数据带来的处理压力,当数据的处理逻辑可以在不同的数据子集上独立进行时,使用MapReduce进行并处理可以先出提升处理速度。


目录
相关文章
|
数据采集 SQL 分布式计算
常用的数据集成ETL工具有哪些?
六种常用的数据集成ETL工具
常用的数据集成ETL工具有哪些?
|
7月前
|
存储 监控 应用服务中间件
日志服务之数据清洗与入湖
本教程介绍如何使用日志服务接入NGINX模拟数据,通过数据加工对数据进行清洗并归档至OSS中进行存储。
110 0
|
8月前
|
消息中间件 分布式计算 BI
ETL和ELT到底有啥区别???
ETL和ELT到底有啥区别???
|
存储 数据采集 移动开发
日志服务之数据清洗与入湖-1
日志服务之数据清洗与入湖-1
93 0
日志服务之数据清洗与入湖-1
|
数据采集 存储 监控
日志服务之数据清洗与入湖-4
日志服务之数据清洗与入湖-4
88 0
日志服务之数据清洗与入湖-4
|
存储 数据采集 移动开发
日志服务之数据清洗与入湖-3
日志服务之数据清洗与入湖-3
104 0
日志服务之数据清洗与入湖-3
|
存储 数据采集 移动开发
日志服务之数据清洗与入湖-2
日志服务之数据清洗与入湖-2
89 0
日志服务之数据清洗与入湖-2
|
存储 SQL 数据采集
ETL 为什么经常变成 ELT 甚至 LET?
ETL是将数据从来源端经过清洗(extract)、转换(transform)、加载(load)至目的端的过程。正常的 ETL 过程应当是 E、T、L 这三个步骤逐步进行,也就是先清洗转换之后再加载进目标端(通常是数据库),最后在数据库中的只是合理的结果数据。这个过程本来很合理,但实际过程中经常被执行成ELT甚至LET,即源端数据先装载进目标库再进行清洗和转换。
140 0
ETL 为什么经常变成 ELT 甚至 LET?
|
存储 分布式计算 大数据
你真的了解ELT和ETL吗?
你真的了解ELT和ETL吗?
468 0
|
存储 运维 OLAP
【实时数仓篇】(02)基于 Flink 的典型 ETL 场景实现1
【实时数仓篇】(02)基于 Flink 的典型 ETL 场景实现1
431 0
【实时数仓篇】(02)基于 Flink 的典型 ETL 场景实现1