《Spark与Hadoop大数据分析》一一3.2 学习Spark的核心概念

  1. 云栖社区>
  2. 华章计算机>
  3. 博客>
  4. 正文

《Spark与Hadoop大数据分析》一一3.2 学习Spark的核心概念

华章计算机 2017-07-03 15:03:00 浏览2119
展开阅读全文

本节书摘来自华章计算机《Spark与Hadoop大数据分析》一书中的第3章,第3.2节,作者:文卡特·安卡姆(Venkat Ankam) 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.2 学习Spark的核心概念

在本节,我们要了解 Spark 的核心概念。Spark 提供的主要抽象是弹性分布式数据集(Resilient Distributed Dataset,RDD)。因此,我们要了解 RDD 是什么,以及提供内存级性能和容错的 RDD 中包含的运算。但是,首先我们要学习使用 Spark 的方法。
3.2.1 使用 Spark 的方法
使用 Spark 有两种方法,即 Spark Shell 和 Spark 应用程序。

  1. Spark Shell
    这是可以利用 Scala、Python 或 R 进行数据探索的交互式命令行(re

网友评论

登录后评论
0/500
评论
华章计算机
+ 关注
所属云栖号: 华章计算机