Spark初窥

  1. 云栖社区>
  2. 博客>
  3. 正文

Spark初窥

尊渊 2019-02-18 11:27:26 浏览998
展开阅读全文

标签(空格分隔): Spark


[toc]

intro

dataset和operation

Spark对数据集合的基本抽象叫做Dataset。Dataset可以从文件直接创建,也可以从其他dataset经过transform变换而来。具体变换操作比如:

textFile.map(line => line.split(" ").size).reduce((a, b) => if (a > b) a else b)

这个transform会将数据映射为数字并计算最大值。这里有map操作,有reduce操作,每个操作后都会转换为一个新的Dataset。而这就是Spark支持的MapReduce模型的data flow。

cache

Spark也支持把数据集拉倒cluster-wide下的内存cache中进行缓存。这对于数据重复读取非常

网友评论

登录后评论
0/500
评论
尊渊
+ 关注