备案控制台

开发者社区

开发者社区大数据文章正文

Spark随谈

2017-05-02 1212

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

Spark是一个由加州大学伯克利分校（UC Berkeley AMP）开发的一个分布式数据快速分析项目。它的核心技术是弹性分布式数据集(Resilient distributed datasets)，提供了比Hadoop更加丰富的MapReduce模型，可以快速在内存中对数据集进行多次迭代，来支持复杂的数据挖掘算法和图计算算法。

Spark使用Scala开发，使用Mesos作为底层的调度框架，可以和hadoop和Ec2紧密集成，直接读取hdfs或S3的文件进行计算，并把结果写回hdfs或S3，是Hadoop和Amazon云计算生态圈的一部分。

Spark的第一个版本是2011年5月份发布，到如今已经1年。去年下半年有段时间国内比较活跃，豆瓣基于它克隆了一个DPark，但是不支持hdfs的读取，后来又沉寂下去。原因之一是0.4版本的Spark，基于的mesos版本太低，稳定性不足，而本身也尚未成熟，一旦部署会发现颇多问题。经过半年的开发者不断努力，昨天（6月12日）发布的0.5.0正式版本，有了不小的提升，而且基于的mesos版本也升级为0.9正式版，稳定性可以支持生产级别。

有鉴于此，开始将最近研究的一些心得，分成几个随谈系列发布，希望对Spark在业界的应用，有良好的促进作用，为基于大数据的快速数据挖掘，提供多一种优秀的解决方案。

随谈分成6个部分

一、总体框架

二、安装攻略

三、开发指南

四、寻找Scala语法糖

五、核心RDD模型之妙

六、链式MapReduce模型的挖掘算法

本文来源于"阿里中间件团队播客",原文发表时间" 2012-06-13 "

文章标签：

算法

分布式计算

Spark

Hadoop

数据挖掘

图计算

Scala

Web App开发

中间件

调度

沉默术士

目录

相关文章

大数据启示录

|

3月前

|

存储缓存分布式计算

spark BlockManager粗讲

spark BlockManager粗讲

大数据启示录

35 0 0

Maynor

|

4月前

|

缓存分布式计算关系型数据库

Spark案例库V1.0版

Spark案例库V1.0版

Maynor

27 0 0

游客kb3w2zc7tyqew

|

7月前

|

SQL 分布式计算资源调度

03-Spark

游客kb3w2zc7tyqew

79 0 0

云祁

|

SQL 机器学习/深度学习分布式计算

【Spark】（一）初识 Spark

【Spark】（一）初识 Spark

云祁

144 0 0

【Spark】（一）初识 Spark

游客wkxim4agoo6le

|

SQL 机器学习/深度学习分布式计算

笔记

游客wkxim4agoo6le

396 0 0

李佳琪_

|

SQL 机器学习/深度学习分布式计算

spark介绍

李佳琪_

2111 0 0

dasein58

|

存储机器学习/深度学习缓存

五分钟零基础介绍 spark

相信大家都听说过火的不能再火、炒得不能再炒的新一代大数据处理框架 Spark. 那么 Spark 是何方神圣？为何大有取代 Hadoop 的势头？Spark 内部又是如何工作的呢？我们会用几篇文章为大家一一介绍。 Hadoop：我不想知道我是怎么来的，我就想知道我是怎么没的？还是从 Hadoop 处理海量数据的架构说起，一个 Hadoop job 通常都是这样的：从 HDFS 读取输入数据；在 Map 阶段使用用户定义的 mapper function, 然后把结果写入磁盘；在 Reduce 阶段，从各个处于 Map 阶段的机器中读取 Map 计算的中间结果，使用用户定义的 r

dasein58

113 0 0

云覆bill

|

分布式计算 Kubernetes Spark

前言 Spark 自从2.3版本以来就支持运行在k8s上，本文主要介绍如何运行Spark在阿里云容器服务-Kubernetes。前提条件 1、已经购买阿里云容器服务-Kubernetes。购买链接：Kubernetes控制台。

云覆bill

2977 0 1

寒沙牧

|

SQL 分布式计算大数据

介绍大数据处理引擎Spark的特点，以及它的技术栈

寒沙牧

2099 0 0

竹风_jerome

spark

竹风_jerome

1075 0 0

热门文章

最新文章

Mac安装并使用telnet命令操作

OSS回源的几种方式和应用场景

[剑指offer] 孩子们的游戏(圆圈中最后剩下的数)

网络安全系列之二十二 Windows用户账号加固

我理解的一个程序员如何学习前端开发

《社交网站界面设计（原书第2版）》——1.9　为设备之间的空间进行设计

《Microduino实战》——1.2　为什么要开源

.Net函数Math.Round你会用吗？

麻省理工大学新发明：暗黑WiFi透视技术

2014秋C++第19周补充代码哈希法的存储与查找

R语言关联规则模型(Apriori算法)挖掘杂货店的交易数据与交互可视化

R语言近似贝叶斯计算MCMC（ABC-MCMC）轨迹图和边缘图可视化

r语言中对LASSO回归，Ridge岭回归和弹性网络Elastic Net模型实现-4

Sentieon | 每周文献-Multi-omics-第四十一期

数据分享|R语言广义线性模型GLM：线性最小二乘、对数变换、泊松、二项式逻辑回归分析冰淇淋销售时间序列数据和模拟-2

数据分享|R语言广义线性模型GLM：线性最小二乘、对数变换、泊松、二项式逻辑回归分析冰淇淋销售时间序列数据和模拟-1

基于RT-Thread摄像头车牌图像采集系统

R语言极值理论：希尔HILL统计量尾部指数参数估计可视化

【视频】R语言中的分布滞后非线性模型（DLNM）与发病率，死亡率和空气污染示例

sql语句创建数据库

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第五阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第六阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第七阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第一阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第二阶段

相关电子书

更多

R AND SPARK

Spark Autotuning

Spark and S3

下一篇

部署LAMP环境（Alibaba Cloud Linux 3）