备案控制台

开发者社区

开发者社区华章出版社文章正文

《Spark大数据分析实战》——第2章Spark开发与环境配置

2017-05-02 1617

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本节书摘来自华章社区《Spark大数据分析实战》一书中的第2章Spark开发与环境配置，作者高彦杰　倪亚宇，更多章节内容可以访问云栖社区“华章社区”公众号查看

第2章
Spark开发与环境配置
用户进行Spark应用程序开发，一般在用户本地进行单机开发调试，之后再将作业提交到集群生产环境中运行。下面将介绍Spark开发环境的配置，如何编译和进行源码阅读环境的配置。
用户可以在官网上下载最新的AS软件包，网址为：http://spark.apache.org/。

文章标签：

分布式计算

Spark

Apache

关键词：

云原生大数据计算服务 MaxCompute spark

apache spark开发

apache spark实战

apache spark大数据分析

华章计算机

目录

相关文章

疯狂的猿

|

3月前

|

机器学习/深度学习 SQL 分布式计算

Apache Spark 的基本概念和在大数据分析中的应用

介绍 Apache Spark 的基本概念和在大数据分析中的应用

疯狂的猿

159 0 0

桃李春风一杯酒

|

12天前

|

分布式计算 Hadoop 大数据

大数据技术与Python：结合Spark和Hadoop进行分布式计算

【4月更文挑战第12天】本文介绍了大数据技术及其4V特性，阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce，Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop，可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop，以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。

桃李春风一杯酒

31 1 1

程序猿～厾罗

|

3月前

|

机器学习/深度学习 SQL 分布式计算

介绍 Apache Spark 的基本概念和在大数据分析中的应用。

介绍 Apache Spark 的基本概念和在大数据分析中的应用。

程序猿～厾罗

71 0 0

xleesf

|

1月前

|

存储分布式计算 Spark

实战|使用Spark Streaming写入Hudi

实战|使用Spark Streaming写入Hudi

xleesf

39 0 0

jerrywangsap

|

2月前

|

分布式计算大数据 Java

Spark 大数据实战：基于 RDD 的大数据处理分析

Spark 大数据实战：基于 RDD 的大数据处理分析

jerrywangsap

121 0 0

晓之以理的喵~~

|

3月前

|

分布式计算监控大数据

Spark RDD分区和数据分布：优化大数据处理

Spark RDD分区和数据分布：优化大数据处理

晓之以理的喵~~

149 0 0

Maynor

|

4月前

|

分布式计算大数据 Linux

Python大数据之PySpark(三)使用Python语言开发Spark程序代码

Python大数据之PySpark(三)使用Python语言开发Spark程序代码

Maynor

105 0 0

Maynor

|

4月前

|

SQL 分布式计算大数据

Hudi数据湖技术引领大数据新风口(三)解决spark模块依赖冲突

Hudi数据湖技术引领大数据新风口(三)解决spark模块依赖冲突

Maynor

102 0 0

Maynor

|

4月前

|

分布式计算资源调度大数据

大数据开发岗面试复习30天冲刺 - 日积月累，每日五题【Day30】——Spark数据调优(文末附完整文档)

大数据开发岗面试复习30天冲刺 - 日积月累，每日五题【Day30】——Spark数据调优(文末附完整文档)

Maynor

65 0 0

李世龙ing

|

分布式计算算法大数据

大数据实战之spark安装部署

楔子我是在2013年底第一次听说Spark，当时我对Scala很感兴趣，而Spark就是使用Scala编写的。一段时间之后，我做了一个有趣的数据科学项目，它试着去预测在泰坦尼克号上幸存。

李世龙ing

3032 0 0

华章出版社

热门文章

最新文章

【Flink】Flink跟Spark Streaming的区别？

阿里云 MaxCompute MaxFrame 开启免费邀测，统一 Python 开发生态

数据之势丨从“看数”到“用数”，百年制造企业用大数据实现“降本增效”

利用Hive与Hadoop构建大数据仓库：从零到一

Azure Databricks实战：在云上轻松进行大数据分析与AI开发

大模型开发：你如何使用大数据进行模型训练？

【Flume】Flume在大数据分析领域的应用

大数据处理架构Hadoop

基于Python的数据可视化技术在大数据分析中的应用

一文解析 ODPS SQL 任务优化方法原理

大数据中的人为数据

数据之势丨从“看数”到“用数”，百年制造企业用大数据实现“降本增效”

大数据技术与Python：结合Spark和Hadoop进行分布式计算

大数据处理架构Hadoop

大数据项目管理：从需求分析到成果交付的全流程指南

Azure Databricks实战：在云上轻松进行大数据分析与AI开发

大数据定义详解

利用Hive与Hadoop构建大数据仓库：从零到一

数字太大了，计算加法、减法会报错，结果不正确？怎么办？用JavaScript实现大数据（超过20位的数字）相加减运算。

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第一阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第二阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第四阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第五阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第七阶段

大数据实时计算框架Spark快速入门

相关电子书

更多

Hybrid Cloud and Apache Spark

Scalable Deep Learning on Spark

Comparison of Spark SQL with Hive

相关实验场景

更多

搭建Hadoop环境

通过FastMR自动拉起大数据集群并运行TPCDS任务

基于函数计算快速搭建Zblog等传统应用框架

基于MaxCompute的热门话题分析

RocketMQ的常规运维实践应用

如何将 PolarDB-X 与大数据等系统互通

下一篇

部署LAMP环境（Alibaba Cloud Linux 3）