《Spark与Hadoop大数据分析》——3.2 学习Spark的核心概念

  1. 云栖社区>
  2. 华章计算机>
  3. 博客>
  4. 正文

《Spark与Hadoop大数据分析》——3.2 学习Spark的核心概念

华章计算机 2017-09-01 11:33:00 浏览1220
展开阅读全文

3.2 学习Spark的核心概念

在本节,我们要了解 Spark 的核心概念。Spark 提供的主要抽象是弹性分布式数据集(Resilient Distributed Dataset,RDD)。因此,我们要了解 RDD 是什么,以及提供内存级性能和容错的 RDD 中包含的运算。但是,首先我们要学习使用 Spark 的方法。

3.2.1 使用 Spark 的方法

使用 Spark 有两种方法,即 Spark Shell 和 Spark 应用程序。

1. Spark Shell

这是可以利用 Scala、Python 或 R 进行数据探索的交互式命令行(read-eval-print loop,REPL)功能:

image

要获取 spark-shell 选项的完整列表,请使用以下命令:

image

探索 Spark Scala shell

Scala shell 提供了许

网友评论

登录后评论
0/500
评论
华章计算机
+ 关注
所属云栖号: 华章计算机