产品
解决方案
文档与社区
权益中心
定价
云市场
合作伙伴
支持与服务
了解阿里云
备案
控制台
开发者社区
首页
探索云世界
探索云世界
云上快速入门,热门云上应用快速查找
了解更多
问产品
动手实践
考认证
TIANCHI大赛
活动广场
活动广场
丰富的线上&线下活动,深入探索云世界
任务中心
做任务,得社区积分和周边
高校计划
让每位学生受益于普惠算力
训练营
资深技术专家手把手带教
话题
畅聊无限,分享你的技术见解
开发者评测
最真实的开发者用云体验
乘风者计划
让创作激发创新
阿里云MVP
遇见技术追梦人
直播
技术交流,直击现场
下载
下载
海量开发者使用工具、手册,免费下载
镜像站
极速、全面、稳定、安全的开源镜像
技术资料
开发手册、白皮书、案例集等实战精华
插件
为开发者定制的Chrome浏览器插件
探索云世界
新手上云
云上应用构建
云上数据管理
云上探索人工智能
云计算
弹性计算
无影
存储
网络
倚天
云原生
容器
serverless
中间件
微服务
可观测
消息队列
数据库
关系型数据库
NoSQL数据库
数据仓库
数据管理工具
PolarDB开源
向量数据库
热门
Modelscope模型即服务
弹性计算
云原生
数据库
物联网
云效DevOps
龙蜥操作系统
平头哥
钉钉开放平台
大数据
大数据计算
实时数仓Hologres
实时计算Flink
E-MapReduce
DataWorks
Elasticsearch
机器学习平台PAI
智能搜索推荐
人工智能
机器学习平台PAI
视觉智能开放平台
智能语音交互
自然语言处理
多模态模型
pythonsdk
通用模型
开发与运维
云效DevOps
钉钉宜搭
支持服务
镜像站
码上公益
开发者社区
华章出版社
文章
正文
《Spark与Hadoop大数据分析》——第2章 Apache Hadoop和Apache Spark入门
2017-09-01
1176
版权
版权声明:
本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《
阿里云开发者社区用户服务协议
》和 《
阿里云开发者社区知识产权保护指引
》。如果您发现本社区中有涉嫌抄袭的内容,填写
侵权投诉表单
进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
简介:
本节书摘来自华章计算机《Spark与Hadoop大数据分析》一书中的第2章,作者 [美]文卡特·安卡姆(Venkat Ankam),译 吴今朝,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
第2章
Apache Hadoop和Apache Spark入门
在本章,我们将学习 Hadoop 和 Spark 的基本知识,了解 Spark 与 MapReduce 有哪些不同,并开始安装集群和设置分析所需的工具。
本章分为以下几个子主题:
文章标签:
Apache
分布式计算
Spark
Hadoop
关键词:
apache spark Hadoop
hadoop spark
云原生大数据计算服务 MaxCompute hadoop
云原生大数据计算服务 MaxCompute spark
大数据hadoop
华章计算机
目录
相关文章
疯狂的猿
|
3月前
|
机器学习/深度学习
SQL
分布式计算
Apache Spark 的基本概念和在大数据分析中的应用
介绍 Apache Spark 的基本概念和在大数据分析中的应用
疯狂的猿
157
0
0
桃李春风一杯酒
|
7天前
|
分布式计算
Hadoop
大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。
桃李春风一杯酒
23
1
1
程序猿~厾罗
|
3月前
|
机器学习/深度学习
SQL
分布式计算
介绍 Apache Spark 的基本概念和在大数据分析中的应用。
介绍 Apache Spark 的基本概念和在大数据分析中的应用。
程序猿~厾罗
70
0
0
穿过生命散发芬芳
|
1月前
|
资源调度
分布式计算
Hadoop
Apache Hadoop YARN基本架构
【2月更文挑战第24天】
穿过生命散发芬芳
23
0
0
xleesf
|
1月前
|
分布式计算
大数据
Apache
大数据技术变革正当时,Apache Hudi了解下?
大数据技术变革正当时,Apache Hudi了解下?
xleesf
25
0
0
xleesf
|
1月前
|
消息中间件
分布式计算
Serverless
CDC一键入湖:当 Apache Hudi DeltaStreamer 遇见 Serverless Spark
CDC一键入湖:当 Apache Hudi DeltaStreamer 遇见 Serverless Spark
xleesf
51
2
2
建模sister
|
2月前
|
分布式计算
资源调度
监控
Spark学习--1、Spark入门(Spark概述、Spark部署、Local模式、Standalone模式、Yarn模式)(一)
Spark学习--1、Spark入门(Spark概述、Spark部署、Local模式、Standalone模式、Yarn模式)(一)
建模sister
85
1
1
建模sister
|
2月前
|
数据采集
分布式计算
Linux
Spark实时(数据采集)项目小知识点--sed -i命令详解及入门攻略
Spark实时(数据采集)项目小知识点--sed -i命令详解及入门攻略
建模sister
106
0
0
洛神灬殇
|
2月前
|
SQL
并行计算
大数据
【大数据技术攻关专题】「Apache-Flink零基础入门」手把手+零基础带你玩转大数据流式处理引擎Flink(基础加强+运行原理)
关于Flink服务的搭建与部署,由于其涉及诸多实战操作而理论部分相对较少,小编打算采用一个独立的版本和环境来进行详尽的实战讲解。考虑到文字描述可能无法充分展现操作的细节和流程,我们决定以视频的形式进行分析和介绍。因此,在本文中,我们将暂时不涉及具体的搭建和部署步骤。
洛神灬殇
496
3
9
jerrywangsap
|
2月前
|
分布式计算
大数据
Java
Spark 大数据实战:基于 RDD 的大数据处理分析
Spark 大数据实战:基于 RDD 的大数据处理分析
jerrywangsap
120
0
0
华章出版社
热门文章
最新文章
1
Hadoop【基础知识 05】【HDFS的JavaAPI】(集成及测试)
2
Hadoop【基础知识 03+04】【Hadoop集群资源管理器yarn】(图片来源于网络)(hadoop fs + hadoop dfs + hdfs dfs 使用举例)
3
Hadoop集群基本测试
4
Hadoop【hadoop学习大纲完全总结01+02+03+04+05】【自学阶段整理的xmind思维导图分享】【点击可放大看高清】
5
Hadoop【问题记录 02】【hadoop-3.1.3 单机版】ResourceManager无法启动NodeManager启动后过自动关闭 javax/activation/DataSource
6
Hadoop【基础知识 03】【Hadoop集群资源管理器yarn】(图片来源于网络)
7
【Hadoop】HDFS 读写流程
8
Hadoop【基础知识 04】【HDFS常用shell命令】(hadoop fs + hadoop dfs + hdfs dfs 使用举例)
9
官宣|阿里巴巴捐赠的 Flink CDC 项目正式加入 Apache 基金会
10
【Hadoop Yarn】Yarn 工作机制
1
数据仓库(13)大数据数仓经典最值得阅读书籍推荐
157
2
大数据计算MaxCompute等长时间没有查出来结果的原因可能有以下几点:
18
3
DataWorks常见问题之dataworks100g大小的csv文件上传到odps失败如何解决
40
4
DataWorks报错问题之dataworks同步rds数据到maxcompute时报错如何解决
24
5
漫谈大数据时代的个人信息安全(四)——“位所欲为”
12
6
漫谈大数据时代的个人信息安全(三)——“点赞之交”
23
7
漫谈大数据时代的个人信息安全(二)——“逢脸造戏”
22
8
漫谈大数据时代的个人信息安全(一)——“按图索骥”
18
9
DataWorks报错问题之DataWorks报错odps-0433121: User is not added in the list - Only users in the operator account white list have permission to do that如何解决
20
10
DataWorks常见问题之dataworks弹外申请odps相关权限失败如何解决
31
相关课程
更多
大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop框架搭建)第二阶段
大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop框架搭建)第三阶段
Apache Flink 入门到实战 - Flink开源社区出品
大数据Hadoop快速入门
大数据实时计算框架Spark快速入门
Apache Flink 入门
相关电子书
更多
Apache Flink技术进阶
Apache Spark: Cloud and On-Prem
Hybrid Cloud and Apache Spark
相关实验场景
更多
搭建Hadoop环境
自然语言入门:NLP数据读取与数据分析
库仓一体实时数据分析
通过FastMR自动拉起大数据集群并运行TPCDS任务
助力游戏运营数据分析
基于MaxCompute的热门话题分析
推荐镜像
更多
apache
packman
CPAN
下一篇
阿里云oss简介和使用流程