《Spark大数据处理：技术、应用与性能优化》——第3章 Spark计算模型3.1　Spark程序模型-阿里云开发者社区

《Spark大数据处理：技术、应用与性能优化》——第3章 Spark计算模型3.1　Spark程序模型

2017-07-03 1285

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本节书摘来自华章计算机《Spark大数据处理：技术、应用与性能优化》一书中的第3章，第3.1节,作者:高彦杰更多章节内容可以访问云栖社区“华章计算机”公众号查看。

第3章 Spark计算模型

创新都是站在巨人的肩膀上产生的，在大数据领域也不例外。微软的Dryad使用DAG执行模式、子任务自由组合的范型。该范型虽稍显复杂，但较为灵活。Pig也针对大关系表的处理提出了很多有创意的处理方式，如flatten、cogroup。经典虽难以突破，但作为后继者的Spark借鉴经典范式并进行创新。经过实践检验，Spark的编程范型在处理大数据时显得简单有效。的数据处理与传输模式也大获全胜。
Spark站在巨人的肩膀上，依靠Scala强有力的函数式编程、Actor通信模式、闭包、容器、泛型，借助统一资源分配调度框架Mesos，融合了MapReduce和Dryad，最后产生了一个简洁、直观、灵活、高效的大数据分布式处理框架。
与Hadoop不同，Spark一开始就瞄准性能，将数据（包括部分中间数据）放在内存，在内存中计算。用户将重复利用的数据缓存到内存，提高下次的计算效率，因此Spark尤其适合迭代型和交互型任务。Spark需要大量的内存，但性能可随着机器数目呈多线性增长。本章将介绍Spark的计算模型。

3.1　Spark程序模型

下面通过一个经典的示例程序来初步了解Spark的计算模型，过程如下。
1）SparkContext中的textFile函数从HDFS读取日志文件，输出变量file。
val file=sc.textFile("hdfs://xxx")
2）RDD中的filter函数过滤带“ERROR”的行，输出errors（errors也是一个RDD）。

val errors=file.filter(line=>line.contains("ERROR")

3）RDD的count函数返回“ERROR”的行数：errors.count()。
RDD操作起来与Scala集合类型没有太大差别，这就是Spark追求的目标：像编写单机程序一样编写分布式程序，但它们的数据和运行模型有很大的不同，用户需要具备更强的系统把控能力和分布式系统知识。
从RDD的转换和存储角度看这个过程，如图3-1所示。

https://yqfile.alicdn.com/6223ab45d8c5b95dc2a7b06cd7434292cd9e72e1.png" >

在图3-1中，用户程序对RDD通过多个函数进行操作，将RDD进行转换。Block-Manager管理RDD的物理分区，每个Block就是节点上对应的一个数据块，可以存储在内存或者磁盘。而RDD中的partition是一个逻辑数据块，对应相应的物理块Block。本质上一个RDD在代码中相当于是数据的一个元数据结构，存储着数据分区及其逻辑结构映射关系，存储着RDD之前的依赖转换关系。

相关实践学习

简单用户画像分析

本场景主要介绍基于海量日志数据进行简单用户画像分析为背景，如何通过使用DataWorks完成数据采集、加工数据、配置数据质量监控和数据可视化展现等任务。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

《Spark大数据处理：技术、应用与性能优化》——第3章 Spark计算模型3.1　Spark程序模型

第3章 Spark计算模型

3.1　Spark程序模型

华章出版社

热门文章

最新文章

相关课程

相关电子书

相关实验场景

《Spark大数据处理：技术、应用与性能优化》——第3章 Spark计算模型3.1 Spark程序模型

第3章 Spark计算模型

3.1 Spark程序模型

华章出版社

热门文章

最新文章

相关课程

相关电子书

相关实验场景

《Spark大数据处理：技术、应用与性能优化》——第3章 Spark计算模型3.1　Spark程序模型

3.1　Spark程序模型