备案控制台

开发者社区

开发者社区华章出版社文章正文

《Spark与Hadoop大数据分析》——第2章 Apache Hadoop和Apache Spark入门

2017-09-01 1176

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本节书摘来自华章计算机《Spark与Hadoop大数据分析》一书中的第2章，作者 [美]文卡特·安卡姆（Venkat Ankam），译吴今朝，更多章节内容可以访问云栖社区“华章计算机”公众号查看。

第2章

Apache Hadoop和Apache Spark入门

在本章，我们将学习 Hadoop 和 Spark 的基本知识，了解 Spark 与 MapReduce 有哪些不同，并开始安装集群和设置分析所需的工具。

本章分为以下几个子主题：

文章标签：

Apache

分布式计算

Spark

Hadoop

关键词：

apache spark Hadoop

hadoop spark

云原生大数据计算服务 MaxCompute hadoop

云原生大数据计算服务 MaxCompute spark

大数据hadoop

华章计算机

目录

相关文章

疯狂的猿

|

3月前

|

机器学习/深度学习 SQL 分布式计算

Apache Spark 的基本概念和在大数据分析中的应用

介绍 Apache Spark 的基本概念和在大数据分析中的应用

疯狂的猿

157 0 0

桃李春风一杯酒

|

7天前

|

分布式计算 Hadoop 大数据

大数据技术与Python：结合Spark和Hadoop进行分布式计算

【4月更文挑战第12天】本文介绍了大数据技术及其4V特性，阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce，Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop，可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop，以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。

桃李春风一杯酒

23 1 1

程序猿～厾罗

|

3月前

|

机器学习/深度学习 SQL 分布式计算

介绍 Apache Spark 的基本概念和在大数据分析中的应用。

介绍 Apache Spark 的基本概念和在大数据分析中的应用。

程序猿～厾罗

70 0 0

穿过生命散发芬芳

|

1月前

|

资源调度分布式计算 Hadoop

Apache Hadoop YARN基本架构

【2月更文挑战第24天】

穿过生命散发芬芳

23 0 0

xleesf

|

1月前

|

分布式计算大数据 Apache

大数据技术变革正当时，Apache Hudi了解下？

大数据技术变革正当时，Apache Hudi了解下？

xleesf

25 0 0

xleesf

|

1月前

|

消息中间件分布式计算 Serverless

CDC一键入湖：当 Apache Hudi DeltaStreamer 遇见 Serverless Spark

CDC一键入湖：当 Apache Hudi DeltaStreamer 遇见 Serverless Spark

xleesf

51 2 2

建模sister

|

2月前

|

分布式计算资源调度监控

Spark学习--1、Spark入门（Spark概述、Spark部署、Local模式、Standalone模式、Yarn模式）（一）

Spark学习--1、Spark入门（Spark概述、Spark部署、Local模式、Standalone模式、Yarn模式）（一）

建模sister

85 1 1

建模sister

|

2月前

|

数据采集分布式计算 Linux

Spark实时（数据采集）项目小知识点--sed -i命令详解及入门攻略

Spark实时（数据采集）项目小知识点--sed -i命令详解及入门攻略

建模sister

106 0 0

洛神灬殇

|

2月前

|

SQL 并行计算大数据

【大数据技术攻关专题】「Apache-Flink零基础入门」手把手+零基础带你玩转大数据流式处理引擎Flink（基础加强+运行原理）

关于Flink服务的搭建与部署，由于其涉及诸多实战操作而理论部分相对较少，小编打算采用一个独立的版本和环境来进行详尽的实战讲解。考虑到文字描述可能无法充分展现操作的细节和流程，我们决定以视频的形式进行分析和介绍。因此，在本文中，我们将暂时不涉及具体的搭建和部署步骤。

洛神灬殇

496 3 9

【大数据技术攻关专题】「Apache-Flink零基础入门」手把手+零基础带你玩转大数据流式处理引擎Flink（基础加强+运行原理）

jerrywangsap

|

2月前

|

分布式计算大数据 Java

Spark 大数据实战：基于 RDD 的大数据处理分析

Spark 大数据实战：基于 RDD 的大数据处理分析

jerrywangsap

120 0 0

华章出版社

热门文章

最新文章

Hadoop【基础知识 05】【HDFS的JavaAPI】（集成及测试）

Hadoop【基础知识 03+04】【Hadoop集群资源管理器yarn】（图片来源于网络）（hadoop fs + hadoop dfs + hdfs dfs 使用举例）

Hadoop集群基本测试

Hadoop【hadoop学习大纲完全总结01+02+03+04+05】【自学阶段整理的xmind思维导图分享】【点击可放大看高清】

Hadoop【问题记录 02】【hadoop-3.1.3 单机版】ResourceManager无法启动NodeManager启动后过自动关闭 javax/activation/DataSource

Hadoop【基础知识 03】【Hadoop集群资源管理器yarn】（图片来源于网络）

【Hadoop】HDFS 读写流程

Hadoop【基础知识 04】【HDFS常用shell命令】（hadoop fs + hadoop dfs + hdfs dfs 使用举例）

官宣｜阿里巴巴捐赠的 Flink CDC 项目正式加入 Apache 基金会

【Hadoop Yarn】Yarn 工作机制

数据仓库(13)大数据数仓经典最值得阅读书籍推荐

大数据计算MaxCompute等长时间没有查出来结果的原因可能有以下几点：

DataWorks常见问题之dataworks100g大小的csv文件上传到odps失败如何解决

DataWorks报错问题之dataworks同步rds数据到maxcompute时报错如何解决

漫谈大数据时代的个人信息安全（四）——“位所欲为”

漫谈大数据时代的个人信息安全（三）——“点赞之交”

漫谈大数据时代的个人信息安全（二）——“逢脸造戏”

漫谈大数据时代的个人信息安全（一）——“按图索骥”

DataWorks报错问题之DataWorks报错odps-0433121: User is not added in the list - Only users in the operator account white list have permission to do that如何解决

DataWorks常见问题之dataworks弹外申请odps相关权限失败如何解决

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第二阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

Apache Flink 入门到实战 - Flink开源社区出品

大数据Hadoop快速入门

大数据实时计算框架Spark快速入门

Apache Flink 入门

相关电子书

更多

Apache Flink技术进阶

Apache Spark: Cloud and On-Prem

Hybrid Cloud and Apache Spark

相关实验场景

更多

搭建Hadoop环境

自然语言入门：NLP数据读取与数据分析

库仓一体实时数据分析

通过FastMR自动拉起大数据集群并运行TPCDS任务

助力游戏运营数据分析

基于MaxCompute的热门话题分析

推荐镜像

更多

apache

packman

CPAN

下一篇

阿里云oss简介和使用流程