《Spark大数据分析：核心概念、技术及实践》一3.3　应用运行-阿里云开发者社区

《Spark大数据分析：核心概念、技术及实践》一3.3　应用运行

2017-05-02 1614

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本节书摘来自华章出版社《Spark大数据分析：核心概念、技术及实践》一书中的第3章，第3.1节，作者[美]　穆罕默德·古勒（Mohammed Guller），更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.3　应用运行

本节主要描述数据处理代码是怎么在Spark集群中执行的。

3.3.1　术语

先来看看几个术语的定义。

shuffle操作。shuffle操作是指在集群节点上对数据进行重新分配。这是一个耗时操作，因为它涉及在网络间传输数据。需要注意的是，shuffle操作不是对数据进行随机重新分配，它按照某些标准将数据分成不同的集合。每一个集合就是一个新的分区。

作业。作业是一系列计算的集合，Spark执行这些计算并将结果返回给驱动程序。作业本质上就是在Spark集群上运行数据处理算法。一个应用程序可以发起多个作业。本章稍后将会介绍作业是怎么执行的。

阶段。一个阶段由若干个任务构成。Spark将一个作业分解为一个由若干个阶段构成的DAG，每一个阶段依赖于其他阶段。举个例子，把一个作业分解为阶段0和阶段1两个阶段。只有当阶段0完成之后，才可以开始阶段1。Spark利用shuffle边界将任务分成不同的阶段。不要求shuffle操作的任务属于同一阶段。只有在开始一个新阶段时，任务才需要输入数据是经过shuffle操作的。

3.3.2　应用运行过程

有了上面的这些定义，我们就可以描述一个Spark应用在集群节点上并行处理数据的过程。当一个Spark应用开始运行的时候，Spark会连接集群管理员，获取在worker节点上的执行者资源。就像前面所说的，Spark应用把一个数据处理算法当成一个作业提交。Spark将这个作业分解成由若干个阶段构成的DAG。然后，Spark在执行者上调度这些阶段的运行，调度操作由集群管理员提供的底层调度器实现。执行者并行地运行Spark提交的任务。

每一个Spark应用都有一组其自己的位于worker节点上的执行者。这样的设计有诸多好处。首先，不同应用中的任务由于运行在不同JVM之上，使得它们之间互相隔离。一个应用程序中的错误任务并不会让其他应用崩溃。其次，调度任务变得轻而易举。Spark一次只需要调度归属于同一应用的任务。它不用处理这样一种复杂情况，其中调度的多个任务属于多个并发执行的不同应用。

然而，这种设计也有不足之处。由于不同应用在不同的JVM进程中运行，因此它们之间就不太方便共享数据。即使它们可能在同一个worker节点上运行，它们也只能通过读写磁盘的方式共享数据。就像前面所说的，读写磁盘是耗时的操作。因此，应用间通过磁盘共享数据，将会遇到性能问题。

《Spark大数据分析：核心概念、技术及实践》一3.3　应用运行

华章出版社

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

《Spark大数据分析：核心概念、技术及实践》一3.3 应用运行

华章出版社

热门文章

最新文章

相关课程

相关电子书

相关实验场景

《Spark大数据分析：核心概念、技术及实践》一3.3　应用运行