Spark随谈

简介:

Spark是一个由加州大学伯克利分校(UC Berkeley AMP)开发的一个分布式数据快速分析项目。它的核心技术是弹性分布式数据集(Resilient distributed datasets),提供了比Hadoop更加丰富的MapReduce模型,可以快速在内存中对数据集进行多次迭代,来支持复杂的数据挖掘算法和图计算算法。

Spark使用Scala开发,使用Mesos作为底层的调度框架,可以和hadoop和Ec2紧密集成,直接读取hdfs或S3的文件进行计算,并把结果写回hdfs或S3,是Hadoop和Amazon云计算生态圈的一部分。

Spark的第一个版本是2011年5月份发布,到如今已经1年。去年下半年有段时间国内比较活跃,豆瓣基于它克隆了一个DPark,但是不支持hdfs的读取,后来又沉寂下去。原因之一是0.4版本的Spark,基于的mesos版本太低,稳定性不足,而本身也尚未成熟,一旦部署会发现颇多问题。经过半年的开发者不断努力,昨天(6月12日)发布的0.5.0正式版本,有了不小的提升,而且基于的mesos版本也升级为0.9正式版,稳定性可以支持生产级别。

有鉴于此,开始将最近研究的一些心得,分成几个随谈系列发布,希望对Spark在业界的应用,有良好的促进作用,为基于大数据的快速数据挖掘,提供多一种优秀的解决方案。

随谈分成6个部分

一、总体框架

二、安装攻略

三、开发指南

四、寻找Scala语法糖

五、核心RDD模型之妙

六、链式MapReduce模型的挖掘算法

本文来源于"阿里中间件团队播客",原文发表时间" 2012-06-13 "

相关文章
|
3月前
|
存储 缓存 分布式计算
spark BlockManager粗讲
spark BlockManager粗讲
|
4月前
|
缓存 分布式计算 关系型数据库
Spark案例库V1.0版
Spark案例库V1.0版
27 0
|
7月前
|
SQL 分布式计算 资源调度
|
SQL 机器学习/深度学习 分布式计算
【Spark】(一)初识 Spark
【Spark】(一)初识 Spark
144 0
【Spark】(一)初识 Spark
|
SQL 机器学习/深度学习 分布式计算
|
SQL 机器学习/深度学习 分布式计算
spark介绍
spark介绍
2111 0
spark介绍
|
存储 机器学习/深度学习 缓存
五分钟零基础介绍 spark
相信大家都听说过火的不能再火、炒得不能再炒的新一代大数据处理框架 Spark. 那么 Spark 是何方神圣?为何大有取代 Hadoop 的势头?Spark 内部又是如何工作的呢?我们会用几篇文章为大家一一介绍。 Hadoop:我不想知道我是怎么来的,我就想知道我是怎么没的? 还是从 Hadoop 处理海量数据的架构说起,一个 Hadoop job 通常都是这样的: 从 HDFS 读取输入数据; 在 Map 阶段使用用户定义的 mapper function, 然后把结果写入磁盘; 在 Reduce 阶段,从各个处于 Map 阶段的机器中读取 Map 计算的中间结果,使用用户定义的 r
113 0
|
分布式计算 Kubernetes Spark
Spark on k8s
前言 Spark 自从2.3版本以来就支持运行在k8s上,本文主要介绍如何运行Spark在阿里云容器服务-Kubernetes。 前提条件 1、 已经购买阿里云容器服务-Kubernetes。购买链接:Kubernetes控制台。
2977 0
|
SQL 分布式计算 大数据
初学Spark
介绍大数据处理引擎Spark的特点,以及它的技术栈
2099 0

热门文章

最新文章