Spark快速入门(72集视频+源码+笔记)

  1. 云栖社区>
  2. 博客>
  3. 正文

Spark快速入门(72集视频+源码+笔记)

好程序员 2019-11-23 14:56:21 浏览784
展开阅读全文

Spark快速入门(72集视频+源码+笔记)
1、什么是Spark?
Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

2、Spark具有哪些优点?
(1)高级 API 剥离了对集群本身的关注,Spark 应用开发者可以专注于应用所要做的计算本身。
(2)Spark 很快,支持交互式计算和复杂算法。
(3)Spark 是一个通用引擎,可用它来完成各种各样的运算,包括 SQL 查询、文本处理、机器学习等,而在 Spark 出现之前,我们一般需要学习各种各样的引擎来分别处理这些需求。

3、Spark计算方法
(1)Bagel: Pregel on Spark,可以用Spark进行图计算,这是个非常有用的小项目。Bagel自带了一个例子,实现了Google的PageRank算法。
(2)当下Spark已不止步于实时计算,目标直指通用大数据处理平台,而终止Spark,开启SparkSQL或许已经初见端倪。
(3)近年来国内外开始关注在 Spark 平台上如何实现各种机器学习和数据挖掘并行化算法设计。为了方便一般应用领域的数据分析人员使用所熟悉的 R 语言在 Spark 平台上完成数据分析,Spark 提供了一个称为 SparkR 的编程接口,使得一般应用领域的数据分析人员可以在 R 语言的环境里方便地使用 Spark 的并行化编程接口和强大计算能力。

4、2019好程序员大数据教程-如何快速入门Spark?(72集视频+源码+笔记)
(1)本课适用人群:
具有一定大数据基础的人群
(2)学完本视频能掌握什么?
本节课能够掌握Spark的环境搭建,任务调度流程,以及RDD代码的应用。
(3)课程目录:
第1章 Spark知识讲解
01_为什么学习Spark
02_Spark和MapReduce的对比
03_Spark框架体系
04_Spark下载
05.Spark运行模式介绍
06.Spark集群安装
07.Spark程序执行流程
08.Spark相关名词解释
09_SparkShellLocal
10_SparkShellCluster
11_Spark2.2和Spark1.6Shell对比

第2章 Maven和IDEA
12_Maven和IDEA下载
13_Maven安装
14_IDEA安装
15_IDEA中配置Maven
16_Scala环境安装和IDEA中配置Scala插件
17_IDEA创建Spark工程
18_Spark开发WordCount程序
19_Spark程序打包
20_Spark集群运行打包程序

第3章 RDD知识讲解
21_RDD概念
22_RDD执行流程
23_RDD属性
24_RDD弹性
25_RDD的两种创建
26_RDD编程API

第4章 Transformation算法
27_Transformation算法
28_Action算法
29_Map
30_filter
31_flatMap
32_sample
33 union
34 intersection
35 distinct
36 join
37_leftOuterJoin
38_rightOuterJoin
39_cartesian
40_groupBy
41_mapPartition
42_mapPartitionWithIndex
43_sortby
44_sortbykey
45_repartition
46_coalesce
47_partitionBy
48_repartitionAndSortWithinPartitions
49_reduce
50_reduceByKey
51_aggregateByKey
52_combineByKey

第5章 Action算法
53_collect
54_count
55_top
56_take
57_takeOrdered
58_first
59_saveAsTextFile
60_foreach
61_其他算子之countByKey
62_其他算子之countByValue
63_其他算子之filterByRange
64_其他算子之flatMapValues
65_其他算子之foreachPartition
66_其他算子之keyBy
67_其他算子之keys和values
68_其他算子之collectAsMap
69_RDD函数传递
70_RDD的依赖关系
71_RDD任务划分
72_Lineage血统

网友评论

登录后评论
0/500
评论
好程序员
+ 关注