备案控制台

开发者社区

开发者社区大数据文章正文

大数据分析处理框架——离线分析（hive，pig，spark）、近似实时分析（Impala）和实时分析（storm、spark streaming）

2017-11-15 3899

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

大数据分析处理架构图

数据源： 除该种方法之外，还可以分为离线数据、近似实时数据和实时数据。按照图中的分类其实就是说明了数据存储的结构，而特别要说的是流数据，它的核心就是数据的连续性和快速分析性；

计算层： 内存计算中的Spark是UC Berkeley的最新作品，思路是利用集群中的所有内存将要处理的数据加载其中，省掉很多I/O开销和硬盘拖累，从而加快计算。而Impala思想来源于Google Dremel，充分利用分布式的集群和高效存储方式来加快大数据集上的查询速度，这也就是我上面说到的近似实时查询；底层的文件系统当然是HDFS独大，也就是Hadoop的底层存储，现在大数据的技术除了微软系的意外，基本都是HDFS作为底层的存储技术。上层的YARN就是MapReduce的第二版，和在一起就是Hadoop最新版本。基于之上的应用有Hive，Pig Latin，这两个是利用了SQL的思想来查询Hadoop上的数据。

本文转自张昺华-sky博客园博客，原文链接：http://www.cnblogs.com/bonelee/p/6351722.html ，如需转载请自行联系原作者

文章标签：

分布式计算

存储

大数据

Spark

流计算

SQL

资源调度

Hadoop

HIVE

Web App开发

关键词：

apache spark streaming

云原生大数据计算服务 MaxCompute spark

云原生大数据计算服务 MaxCompute分析

云原生大数据计算服务 MaxCompute离线

云原生大数据计算服务 MaxCompute框架

桃子红了呐

目录

相关文章

诸葛子房

|

4月前

|

SQL HIVE

Hive LAG函数分析

Hive LAG函数分析

诸葛子房

36 0 0

Maynor

|

4月前

|

SQL 数据采集数据挖掘

大数据行业应用之Hive数据分析航班线路相关的各项指标

大数据行业应用之Hive数据分析航班线路相关的各项指标

Maynor

99 1 1

程序猿～厾罗

|

3月前

|

机器学习/深度学习 SQL 分布式计算

介绍 Apache Spark 的基本概念和在大数据分析中的应用。

介绍 Apache Spark 的基本概念和在大数据分析中的应用。

程序猿～厾罗

71 0 0

热烈的马

|

4月前

|

SQL 存储大数据

【大数据技术Hadoop+Spark】Hive基础SQL语法DDL、DML、DQL讲解及演示（附SQL语句）

【大数据技术Hadoop+Spark】Hive基础SQL语法DDL、DML、DQL讲解及演示（附SQL语句）

热烈的马

75 0 0

热烈的马

|

4月前

|

SQL 分布式计算数据库

【大数据技术Spark】Spark SQL操作Dataframe、读写MySQL、Hive数据库实战（附源码）

【大数据技术Spark】Spark SQL操作Dataframe、读写MySQL、Hive数据库实战（附源码）

热烈的马

96 0 0

热烈的马

|

4月前

|

SQL 存储分布式计算

【大数据技术Hadoop+Spark】Hive数据仓库架构、优缺点、数据模型介绍（图文解释超详细）

【大数据技术Hadoop+Spark】Hive数据仓库架构、优缺点、数据模型介绍（图文解释超详细）

热烈的马

175 0 0

Want595

|

6月前

|

SQL 存储大数据

黑马程序员-大数据入门到实战-分布式SQL计算 Hive 语法与概念

黑马程序员-大数据入门到实战-分布式SQL计算 Hive 语法与概念

Want595

76 0 0

长梦

|

13天前

|

SQL 分布式计算 Hadoop

利用Hive与Hadoop构建大数据仓库：从零到一

【4月更文挑战第7天】本文介绍了如何使用Apache Hive与Hadoop构建大数据仓库。Hadoop的HDFS和YARN提供分布式存储和资源管理，而Hive作为基于Hadoop的数据仓库系统，通过HiveQL简化大数据查询。构建过程包括设置Hadoop集群、安装配置Hive、数据导入与管理、查询分析以及ETL与调度。大数据仓库的应用场景包括海量数据存储、离线分析、数据服务化和数据湖构建，为企业决策和创新提供支持。

长梦

54 1 1

阿甘兄

|

6月前

|

分布式计算 API 流计算

22MyCat - Spark/Storm 对join扩展（简略）

22MyCat - Spark/Storm 对join扩展（简略）

阿甘兄

30 0 0

源码星辰

|

3月前

|

人工智能自然语言处理大数据

AI大数据智能导诊系统源码 Springboot框架

智能导诊系统是在医院中使用的引导患者自助就诊挂号，在就诊的过程中有许多患者不知道需要挂什么号，要看什么病，通过智慧导诊系统，可输入自身疾病的症状表现，或选择身体部位，再经由智能导诊系统多维度计算，AI智能引擎分析、准确推荐科室，引导患者挂号就诊，实现科学就诊，不用担心挂错号。

源码星辰

56 0 0

热门文章

最新文章

【Flink】Flink跟Spark Streaming的区别？

阿里云 MaxCompute MaxFrame 开启免费邀测，统一 Python 开发生态

数据之势丨从“看数”到“用数”，百年制造企业用大数据实现“降本增效”

Azure Databricks实战：在云上轻松进行大数据分析与AI开发

大模型开发：你如何使用大数据进行模型训练？

【Flume】Flume在大数据分析领域的应用

大数据处理架构Hadoop

基于Python的数据可视化技术在大数据分析中的应用

大数据定义详解

【Hive】Hive的函数：UDF、UDAF、UDTF的区别？

【Hive】请说明hive中 Sort By，Order By，Cluster By，Distrbute By各代表什么意思？

【Hive】Hive的两张表关联，使用MapReduce怎么实现？

【Hive】Hive优化有哪些？

【Hive】数据倾斜怎么解决？

Hive【基础知识 05】常用DDL操作（数据库操作+创建表+修改表+清空删除表+其他命令）

【Hive】sort by 和 order by 的区别

Hive【基础知识 04】【Hive 属性配置的三种方式及配置的优先级说明】

Hive【基础知识 02-2】【Hive CLI 命令行工具使用】【详细举例-包含测试脚本文件】

【Hive】Hive有索引吗？

相关课程

更多

2020版大数据实战项目之DMP广告系统（第二阶段）

2020版大数据实战项目之DMP广告系统（第三阶段）

2020版大数据实战项目之DMP广告系统（第四阶段）

2020版大数据实战项目之DMP广告系统（第五阶段）

2020版大数据实战项目之DMP广告系统（第六阶段）

2020版大数据实战项目之DMP广告系统（第七阶段）

相关电子书

更多

大数据AI一体化的解读

极氪大数据 Serverless 应用实践

大数据&AI实战派第2期

相关实验场景

更多

基于OpenSearch向量检索版和MaxCompute快速搭建图搜服务

倚天大数据电商数据分析快速实践

基于Hologres+Flink搭建GitHub实时数据大屏

玩转MaxCompute SQL! 30分钟搞定数据分析挖掘

基于Flink+Tair搭建实时监控大屏

5分钟上手Flink MySQL连接器

下一篇

部署LAMP环境（Alibaba Cloud Linux 3）