备案控制台

开发者社区

开发者社区华章出版社文章正文

《Spark与Hadoop大数据分析》——第2章 Apache Hadoop和Apache Spark入门

2017-09-01 1176

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本节书摘来自华章计算机《Spark与Hadoop大数据分析》一书中的第2章，作者 [美]文卡特·安卡姆（Venkat Ankam），译吴今朝，更多章节内容可以访问云栖社区“华章计算机”公众号查看。

第2章

Apache Hadoop和Apache Spark入门

在本章，我们将学习 Hadoop 和 Spark 的基本知识，了解 Spark 与 MapReduce 有哪些不同，并开始安装集群和设置分析所需的工具。

本章分为以下几个子主题：

文章标签：

Apache

分布式计算

Spark

Hadoop

关键词：

大数据hadoop

hadoop spark

云原生大数据计算服务 MaxCompute spark

云原生大数据计算服务 MaxCompute hadoop

apache spark Hadoop

华章计算机

目录

相关文章

听风de歌

|

11天前

|

存储分布式计算 Hadoop

大数据处理架构Hadoop

【4月更文挑战第10天】Hadoop是开源的分布式计算框架，核心包括MapReduce和HDFS，用于海量数据的存储和计算。具备高可靠性、高扩展性、高效率和低成本优势，但存在低延迟访问、小文件存储和多用户写入等问题。运行模式有单机、伪分布式和分布式。NameNode管理文件系统，DataNode存储数据并处理请求。Hadoop为大数据处理提供高效可靠的解决方案。

听风de歌

33 2 2

桃李春风一杯酒

|

11天前

|

分布式计算 Hadoop 大数据

大数据技术与Python：结合Spark和Hadoop进行分布式计算

【4月更文挑战第12天】本文介绍了大数据技术及其4V特性，阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce，Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop，可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop，以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。

桃李春风一杯酒

28 1 1

嘿嘿就是写

|

2月前

|

数据采集存储数据可视化

Python数据分析从入门到实践

Python数据分析从入门到实践

嘿嘿就是写

34 0 0

长梦

|

13天前

|

SQL 分布式计算 Hadoop

利用Hive与Hadoop构建大数据仓库：从零到一

【4月更文挑战第7天】本文介绍了如何使用Apache Hive与Hadoop构建大数据仓库。Hadoop的HDFS和YARN提供分布式存储和资源管理，而Hive作为基于Hadoop的数据仓库系统，通过HiveQL简化大数据查询。构建过程包括设置Hadoop集群、安装配置Hive、数据导入与管理、查询分析以及ETL与调度。大数据仓库的应用场景包括海量数据存储、离线分析、数据服务化和数据湖构建，为企业决策和创新提供支持。

长梦

50 1 1

叫个什么名字

|

16天前

|

机器学习/深度学习数据可视化数据挖掘

利用Python进行数据分析与可视化：从入门到精通

本文将介绍如何使用Python语言进行数据分析与可视化，从基础概念到高级技巧一应俱全。通过学习本文，读者将掌握Python在数据处理、分析和可视化方面的核心技能，为实际项目应用打下坚实基础。

叫个什么名字

26 4 4

疯狂的猿

|

30天前

|

消息中间件 SQL 分布式计算

大数据Hadoop生态圈体系视频课程

熟悉大数据概念，明确大数据职位都有哪些；熟悉Hadoop生态系统都有哪些组件；学习Hadoop生态环境架构，了解分布式集群优势；动手操作Hbase的例子，成功部署伪分布式集群；动手Hadoop安装和配置部署；动手实操Hive例子实现；动手实现GPS项目的操作；动手实现Kafka消息队列例子等

疯狂的猿

20 1 1

大数据Hadoop生态圈体系视频课程

穿过生命散发芬芳

|

1月前

|

资源调度分布式计算 Hadoop

Apache Hadoop YARN基本架构

【2月更文挑战第24天】

穿过生命散发芬芳

23 0 0

xleesf

|

1月前

|

消息中间件分布式计算 Serverless

CDC一键入湖：当 Apache Hudi DeltaStreamer 遇见 Serverless Spark

CDC一键入湖：当 Apache Hudi DeltaStreamer 遇见 Serverless Spark

xleesf

51 2 2

嘿嘿就是写

|

2月前

|

机器学习/深度学习数据可视化数据挖掘

Python数据分析：从入门到实践

Python数据分析：从入门到实践

嘿嘿就是写

49 2 2

桃李春风一杯酒

|

3月前

|

分布式计算 Hadoop 大数据

什么是 Hadoop 和 Spark？在 Python 中如何使用它们进行大数据处理？

【1月更文挑战第11天】

桃李春风一杯酒

80 0 0

华章出版社

热门文章

最新文章

LAMP架构调优（十）——Apache禁止指定目录PHP解析与错误页面优化

SpringBoot启动报错：org.apache.catalina.LifecycleException: Protocol handler start failed

ZooKeeper【基础 03】Java 客户端 Apache Curator 基础 API 使用举例（含源代码）

linux下apache2更换目录

【Python】python天气数据抓取与数据分析（源码+论文）【独一无二】

上网行为监控管理：利用R编写的数据分析和可视化代码示例

Apache服务器安装SSL证书

org.apache.jasper.JasperException...(line: 15, column: 16) quote symbol expected和处理办法

Python 数据分析（PYDA）第三版（三）（1）

【python】Python航空公司客户价值数据分析（代码+论文）【独一无二】

【Flink】Flink跟Spark Streaming的区别？

大数据技术与Python：结合Spark和Hadoop进行分布式计算

bigdata-36-Spark转换算子与动作算子

Paimon 与 Spark 的集成（二）：查询优化

阿里云 EMR Serverless Spark 版免费邀测中

Spark学习---SparkSQL（概述、编程、数据的加载和保存、自定义UDFA、项目实战）

Spark环境搭建与使用

Spark学习---day07、Spark内核（Shuffle、任务执行）

相关课程

更多

2020版大数据实战项目之DMP广告系统（第二阶段）

2020版大数据实战项目之DMP广告系统（第三阶段）

2020版大数据实战项目之DMP广告系统（第四阶段）

2020版大数据实战项目之DMP广告系统（第五阶段）

2020版大数据实战项目之DMP广告系统（第六阶段）

2020版大数据实战项目之DMP广告系统（第七阶段）

相关电子书

更多

大数据AI一体化的解读

极氪大数据 Serverless 应用实践

大数据&AI实战派第2期

相关实验场景

更多

搭建Hadoop环境

自然语言入门：NLP数据读取与数据分析

库仓一体实时数据分析

通过FastMR自动拉起大数据集群并运行TPCDS任务

助力游戏运营数据分析

基于MaxCompute的热门话题分析

推荐镜像

更多

apache

packman

CPAN

下一篇

部署LAMP环境（Alibaba Cloud Linux 3）