开发者社区大数据文章正文

【Spark Summit East 2017】使用Spark RDD构建用户应用

2017-02-18 1617

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本讲义出自Tejas Patil在Spark Summit East 2017上的演讲，主要介绍了与SQL类的Hive相比，使用Spark RDD API开发用户应用的几个优点，并介绍了如何进行数据分布，避免数据倾斜，如何优化特定于应用程序的优化以及建立可靠的数据管道，为了说明以上的优点，Tejas Patil在演讲中展示了原本基于Hive的经过重新设计基于Spark的大规模复杂语言训练模型管道。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data；此外，通过Maxcompute及其配套产品，低廉的大数据分析仅需几步，详情访问https://www.aliyun.com/product/odps。

本讲义出自Tejas Patil在Spark Summit East 2017上的演讲，主要介绍了与SQL类的Hive相比，使用Spark RDD API开发用户应用的几个优点，并介绍了如何进行数据分布，避免数据倾斜，如何优化特定于应用程序的优化以及建立可靠的数据管道，为了说明以上的优点，Tejas Patil在演讲中展示了原本基于Hive的经过重新设计基于Spark的大规模复杂语言训练模型管道。

b6281961f61fe1183050c4d6ced6515e70d02918

a2879b8d9bcd7323707344d158c341a5265bafe4

6f88221ffcc4413f5f8a9620e1d03e40f991d714

73d4402da9e7d387e4157a3ec8d64fd871e1bac8

d5a13d7ab9df68a780e6e192a36f2cb5fda25116

c0dad08fb11a52cecba2bd31a7afac9acd663cfe

cb57dd2750adedd8be426c16e2c557daa25f701d

ce95286501e1c4f3f93e56888bff64506bfcdad8

cdb875bd45532692a28a19f455f5627926f3fdd1

987e8c31af68b742ed57d63f32e0698178359848

202ef64ea364c7fa26d327952afbf0df8a5ecb59

8df0b4dd6491fed828e20123469070daa0f456d3

c95f373fd3c00bad4acdd3d821b0e9bb06607765

56cf0e8bbd87b99d9e02eed43be2f79ac4f00c2a

efabd9608cdf55b44ca692572141c24ffb82a108

22da8bc5d245364a509fa6df46b3b55e03727819

8278701455a82d84664cbdf30825428cb8ea1d27

0756511c734487a5bbdf7d5930de7fa082a1c13f

7c92b889f0ea4a5ed43627d7307f019e6d07a1f0

0fd97d562c1dcc8ff25d52d5398719b0d039d010

56ba8b23445d2e9056e9fd9633a44cfb355d053c

e74540cb3f766eb04ab4a537a40b30f8538e53fb

941f8bdae4ad14e9664418e7e034d3b7812575ab

13679f31627c32f3f1937eb9bf1a785f1ebe79eb

c0ca782906cff16581bd0ae9659556be07584b23

a638aa81763c202323076884223f2833c8e33263

08b208871befc0e70bb1359976d46ea7e8b72f43

f89a430aaed4f1d38feed1fd97549c364e317d14

bd862e5314b8a28cc471117f4ca83e1210224978

1cca1f1fb75a8542e7c3d25005e4a141bf4a9474

62c272aa7712bac01b2d92b5c1ba2ad43d4dfa22

11da3e14dd2d78af4c4bca4e4f53777ac7b3756b

5c5a1c7155eb76be3db6978fba2cb838bf467379

63be60fbd5591ba22cecd4697af06878f9053832

84d616c4f6aec187123d213a5881fb751f7b58d2

96144b4d5f18d4784142c0155c83dd56e8ce4ca2

08b208871befc0e70bb1359976d46ea7e8b72f43

85983924fae9b6ebe8f26fe754c1ef4481d75e59

9d9728c42df4b506ffdc6c19aa4140fb58d98a8d

文章标签：

分布式计算

大数据

Spark

SQL

关键词：

apache spark rdd

apache spark应用

apache spark构建

apache spark rdd应用

apache spark summit

小猫吃鱼569

建模sister

1月前

分布式计算并行计算大数据

Spark学习---day02、Spark核心编程（RDD概述、RDD编程（创建、分区规则、转换算子、Action算子））（一）

Spark学习---day02、Spark核心编程 RDD概述、RDD编程（创建、分区规则、转换算子、Action算子））（一）

建模sister

75 1 1

建模sister

1月前

分布式计算 Java Scala

Spark学习---day03、Spark核心编程（RDD概述、RDD编程（创建、分区规则、转换算子、Action算子））（二）

建模sister

41 1 1

yuanzhengme

1月前

分布式计算 Spark

Spark【Spark学习大纲】简介+生态+RDD+安装+使用（xmind分享）

【2月更文挑战第14天】Spark【Spark学习大纲】简介+生态+RDD+安装+使用（xmind分享）

yuanzhengme

31 1 1

yuanzhengme

1月前

分布式计算 Hadoop Java

Spark【基础知识 03】【RDD常用算子详解】（图片来源于网络）

【2月更文挑战第14天】Spark【基础知识 03】【RDD常用算子详解】（图片来源于网络）

yuanzhengme

56 1 1

建模sister

1月前

存储缓存分布式计算

Spark学习--day04、RDD依赖关系、RDD持久化、RDD分区器、RDD文件读取与保存

建模sister

39 1 1

疯狂的猿

1月前

机器学习/深度学习分布式计算监控

典型的Spark应用实例

疯狂的猿

42 1 1

建模sister

2月前

分布式计算并行计算 Hadoop

Spark学习---day02、Spark核心编程（RDD概述、RDD编程（创建、分区规则、转换算子、Action算子））（一）

Spark学习---day02、Spark核心编程 RDD概述、RDD编程（创建、分区规则、转换算子、Action算子））（一）

建模sister

42 1 1

jerrywangsap

2月前

分布式计算大数据 Java

Spark 大数据实战：基于 RDD 的大数据处理分析

jerrywangsap

121 0 0

晓之以理的喵~~

3月前

缓存分布式计算监控

Spark RDD操作性能优化技巧

晓之以理的喵~~

36 0 0

晓之以理的喵~~

3月前

分布式计算监控大数据

Spark RDD分区和数据分布：优化大数据处理

晓之以理的喵~~

149 0 0

【Spark Summit East 2017】使用Spark RDD构建用户应用

热门文章

最新文章

相关课程

相关电子书