备案控制台

开发者社区

开发者社区华章出版社文章正文

《Spark与Hadoop大数据分析》——3.7　小结

2017-09-01 1085

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本节书摘来自华章计算机《Spark与Hadoop大数据分析》一书中的第3章，第3.7节，作者 [美]文卡特·安卡姆（Venkat Ankam），译吴今朝，更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.7　小结

RDD 是 Spark 中基本的数据单元，Spark 编程就是围绕创建和执行 RDD 上的操作（如变换和动作）进行的。Apache Spark 程序可以在 shell 中交互式执行或通过提交应用程序来执行。它的并行度是由 RDD 中的分区数量决定的。而分区的数量则由 HDFS 文件中的区块数或资源管理器的类型以及用于非 HDFS 文件的配置属性决定。

在内存中缓存 RDD 对于在同一 RDD 上执行多个动作是有用的，因为它提供了更高的性能。当使用 MEMORY_ONLY选项缓存 RDD 时，没有放入内存中的分区将在需要时重新计算。如果重新计算的开销比较大，最好还是选择 MEMORY_AND_DISK 作为持久化的级别。

Spark 的应用程序可以在客户端或集群模式下提交。客户端模式用于开发和测试，而集群模式用于生产部署。Spark 有三种不同的资源管理器可供选择：Standalone、Yarn 和 Mesos。对集群资源管理器的选择取决于资源共享和预期性能的级别。在所有情况下，Spark 默认的 Standalone 资源管理器都会提供更高的性能，因为它的调度成本低。

下一章将使用 Spark SQL、DataFrame和 Dataset来介绍大数据分析。

文章标签：

资源管理

分布式计算

Spark

Hadoop

关键词：

hadoop spark

apache spark Hadoop

apache spark大数据分析

hadoop大数据分析

spark hadoop大数据分析

华章计算机

目录

相关文章

岁岁种桃花儿

|

4月前

|

SQL 分布式计算 Hadoop

干翻Hadoop系列文章【02】：Hadoop、Hive、Spark的区别和联系

干翻Hadoop系列文章【02】：Hadoop、Hive、Spark的区别和联系

岁岁种桃花儿

61 0 0

桃李春风一杯酒

|

12天前

|

分布式计算 Hadoop 大数据

大数据技术与Python：结合Spark和Hadoop进行分布式计算

【4月更文挑战第12天】本文介绍了大数据技术及其4V特性，阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce，Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop，可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop，以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。

桃李春风一杯酒

31 1 1

程序猿～厾罗

|

3月前

|

机器学习/深度学习 SQL 分布式计算

介绍 Apache Spark 的基本概念和在大数据分析中的应用。

介绍 Apache Spark 的基本概念和在大数据分析中的应用。

程序猿～厾罗

71 0 0

热烈的马

|

4月前

|

消息中间件分布式计算大数据

【大数据技术Hadoop+Spark】Flume、Kafka的简介及安装（图文解释超详细）

【大数据技术Hadoop+Spark】Flume、Kafka的简介及安装（图文解释超详细）

热烈的马

72 0 0

热烈的马

|

4月前

|

SQL 分布式计算大数据

【大数据技术Hadoop+Spark】Spark SQL、DataFrame、Dataset的讲解及操作演示（图文解释）

【大数据技术Hadoop+Spark】Spark SQL、DataFrame、Dataset的讲解及操作演示（图文解释）

热烈的马

55 0 0

热烈的马

|

4月前

|

分布式计算大数据 Scala

【大数据技术Hadoop+Spark】Spark RDD创建、操作及词频统计、倒排索引实战（超详细附源码）

【大数据技术Hadoop+Spark】Spark RDD创建、操作及词频统计、倒排索引实战（超详细附源码）

热烈的马

91 1 1

桃李春风一杯酒

|

3月前

|

分布式计算 Hadoop 大数据

什么是 Hadoop 和 Spark？在 Python 中如何使用它们进行大数据处理？

【1月更文挑战第11天】

桃李春风一杯酒

81 0 0

晓之以理的喵~~

|

3月前

|

SQL 分布式计算 Hadoop

Spark与Hadoop的关系和区别

Spark与Hadoop的关系和区别

晓之以理的喵~~

172 0 0

极客李华

|

3月前

|

分布式计算 Hadoop 数据处理

Spark与Hadoop的区别是什么？请举例说明。

Spark与Hadoop的区别是什么？请举例说明。

极客李华

53 0 0

wux_labs

|

4月前

|

分布式计算资源调度搜索推荐

《PySpark大数据分析实战》-02.了解Hadoop

大家好！今天为大家分享的是《PySpark大数据分析实战》第1章第2节的内容：了解Hadoop。

wux_labs

48 0 0

《PySpark大数据分析实战》-02.了解Hadoop

华章出版社

热门文章

最新文章

【Flink】Flink跟Spark Streaming的区别？

利用Hive与Hadoop构建大数据仓库：从零到一

Hadoop【基础知识 05】【HDFS的JavaAPI】（集成及测试）

Hadoop【基础知识 03+04】【Hadoop集群资源管理器yarn】（图片来源于网络）（hadoop fs + hadoop dfs + hdfs dfs 使用举例）

Hadoop【hadoop学习大纲完全总结01+02+03+04+05】【自学阶段整理的xmind思维导图分享】【点击可放大看高清】

大数据处理架构Hadoop

大数据技术与Python：结合Spark和Hadoop进行分布式计算

Hadoop【问题记录 02】【hadoop-3.1.3 单机版】ResourceManager无法启动NodeManager启动后过自动关闭 javax/activation/DataSource

Hadoop【基础知识 04】【HDFS常用shell命令】（hadoop fs + hadoop dfs + hdfs dfs 使用举例）

Hadoop节点资源扩展环境部署

Hadoop节点资源扩展硬件选择

Hadoop的NameNode的监控与副本管理

Hadoop集群节点添加

hadoop的伪分布式搭建-带网盘

Hadoop的运行模式

Hadoop【hadoop学习大纲完全总结01+02+03+04+05】【自学阶段整理的xmind思维导图分享】【点击可放大看高清】

Hadoop【基础知识 05】【HDFS的JavaAPI】（集成及测试）

Hadoop【基础知识 03+04】【Hadoop集群资源管理器yarn】（图片来源于网络）（hadoop fs + hadoop dfs + hdfs dfs 使用举例）

Hadoop【基础知识 04】【HDFS常用shell命令】（hadoop fs + hadoop dfs + hdfs dfs 使用举例）

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第一阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第四阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第五阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第六阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第七阶段

大数据实时计算框架Spark快速入门

相关电子书

更多

Hybrid Cloud and Apache Spark

Scalable Deep Learning on Spark

Comparison of Spark SQL with Hive

相关实验场景

更多

使用Flink实时发现最热Github项目

通过FastMR自动拉起大数据集群并运行TPCDS任务

搭建Hadoop环境

下一篇

部署LAMP环境（Alibaba Cloud Linux 3）