备案控制台

开发者社区

开发者社区华章出版社文章正文

《Spark大数据分析实战》——3.5节本章小结

2017-05-02 1111

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本节书摘来自华章社区《Spark大数据分析实战》一书中的第3章，第3.5节本章小结，作者高彦杰　倪亚宇，更多章节内容可以访问云栖社区“华章社区”公众号查看

3.5　本章小结
本章主要介绍了BDAS中广泛应用的几个数据分析组件。SQL on Spark提供在Spark上的SQL查询功能。让用户可以基于内存计算和SQL进行大数据分析。通过Spark Streaming，用户可以构建实时流处理应用，其高吞吐量，以及适合历史和实时数据混合分析的特性使其在流数据处理框架中突出重围。GraphX充当Spark生态系统中图计算的角色，其简洁的API让图处理算法的书写更加便捷。最后介绍了MLlib——Spark上的机器学习库，它充分利用Spark内存计算和适合迭代的特性，使分布式系统与并行机器学习算法实现了完美的结合。相信随着Spark生态系统的日臻完善，这些组件还会取得长足发展。

文章标签：

SQL

算法

分布式计算

Spark

关键词：

apache spark实战

apache spark大数据

apache spark大数据分析

apache spark大数据分析实战

apache spark大数据分析本章小结

华章计算机

目录

相关文章

疯狂的猿

|

3月前

|

机器学习/深度学习 SQL 分布式计算

Apache Spark 的基本概念和在大数据分析中的应用

介绍 Apache Spark 的基本概念和在大数据分析中的应用

疯狂的猿

157 0 0

桃李春风一杯酒

|

4天前

|

分布式计算 Hadoop 大数据

大数据技术与Python：结合Spark和Hadoop进行分布式计算

【4月更文挑战第12天】本文介绍了大数据技术及其4V特性，阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce，Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop，可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop，以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。

桃李春风一杯酒

14 1 1

程序猿～厾罗

|

3月前

|

机器学习/深度学习 SQL 分布式计算

介绍 Apache Spark 的基本概念和在大数据分析中的应用。

介绍 Apache Spark 的基本概念和在大数据分析中的应用。

程序猿～厾罗

70 0 0

xleesf

|

1月前

|

存储分布式计算 Spark

实战|使用Spark Streaming写入Hudi

实战|使用Spark Streaming写入Hudi

xleesf

38 0 0

jerrywangsap

|

2月前

|

分布式计算大数据 Java

Spark 大数据实战：基于 RDD 的大数据处理分析

Spark 大数据实战：基于 RDD 的大数据处理分析

jerrywangsap

120 0 0

晓之以理的喵~~

|

3月前

|

分布式计算监控大数据

Spark RDD分区和数据分布：优化大数据处理

Spark RDD分区和数据分布：优化大数据处理

晓之以理的喵~~

142 0 0

Maynor

|

4月前

|

分布式计算大数据 Linux

Python大数据之PySpark(三)使用Python语言开发Spark程序代码

Python大数据之PySpark(三)使用Python语言开发Spark程序代码

Maynor

96 0 0

Maynor

|

4月前

|

SQL 分布式计算大数据

Hudi数据湖技术引领大数据新风口(三)解决spark模块依赖冲突

Hudi数据湖技术引领大数据新风口(三)解决spark模块依赖冲突

Maynor

100 0 0

Maynor

|

4月前

|

分布式计算资源调度大数据

大数据开发岗面试复习30天冲刺 - 日积月累，每日五题【Day30】——Spark数据调优(文末附完整文档)

大数据开发岗面试复习30天冲刺 - 日积月累，每日五题【Day30】——Spark数据调优(文末附完整文档)

Maynor

62 0 0

Maynor

|

4月前

|

SQL 机器学习/深度学习分布式计算

大数据开发岗面试复习30天冲刺 - 日积月累，每日五题【Day17】——Spark4

大数据开发岗面试复习30天冲刺 - 日积月累，每日五题【Day17】——Spark4

Maynor

41 0 0

华章出版社

热门文章

最新文章

Spark学习---SparkSQL（概述、编程、数据的加载和保存、自定义UDFA、项目实战）

图解大数据 | 使用Spark分析新冠肺炎疫情数据@综合案例

spark和kafka jar包冲突NoSuchMethodError: net.jpountz.lz4.LZ4BlockInputStream

大数据开发！Pandas转spark无痛指南！⛵

Spark 源码分析 -- BlockStore

sparkRDD 算子的创建和使用

BR-MLP基于spark+Hadoop分布式数据挖掘解决方案功能剖析

Spark RDD类源码阅读

7月24日晚Spark社区直播：【Apache Spark 基于 Apache Arrow 的列式存储优化】

地铁译：Spark for python developers --- 搭建Spark虚拟环境3

Spark学习---SparkSQL（概述、编程、数据的加载和保存、自定义UDFA、项目实战）

Spark环境搭建与使用

Spark学习---day07、Spark内核（Shuffle、任务执行）

Spark读取变更Hudi数据集Schema实现分析

实战|使用Spark Streaming写入Hudi

adb spark的lakehouse api访问内表数据，还支持算子下推吗

Spark学习---day06、Spark内核（源码提交流程、任务执行）

Spark学习--day05、SparkCore电商网站实操、SparkCore-工程代码

Spark【Spark学习大纲】简介+生态+RDD+安装+使用（xmind分享）

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第一阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第二阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第四阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第六阶段

大数据实时计算框架Spark快速入门

相关电子书

更多

Hybrid Cloud and Apache Spark

Scalable Deep Learning on Spark

Comparison of Spark SQL with Hive

相关实验场景

更多

倚天大数据电商数据分析快速实践

Github实时数据分析与可视化

基于Kibana Lens进行数据可视化，灵活分析航班信息

使用Flink实时发现最热Github项目

基于MaxCompute的热门话题分析

实时数据及离线数据上云方案

下一篇

部署LAMP环境（Alibaba Cloud Linux 3）