【Spark Summit East 2017】使用Spark RDD构建用户应用

简介: 本讲义出自Tejas Patil在Spark Summit East 2017上的演讲,主要介绍了与SQL类的Hive相比,使用Spark RDD API开发用户应用的几个优点,并介绍了如何进行数据分布,避免数据倾斜,如何优化特定于应用程序的优化以及建立可靠的数据管道,为了说明以上的优点,Tejas Patil在演讲中展示了原本基于Hive的经过重新设计基于Spark的大规模复杂语言训练模型管道。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Tejas Patil在Spark Summit East 2017上的演讲,主要介绍了与SQL类的Hive相比,使用Spark RDD API开发用户应用的几个优点,并介绍了如何进行数据分布,避免数据倾斜,如何优化特定于应用程序的优化以及建立可靠的数据管道,为了说明以上的优点,Tejas Patil在演讲中展示了原本基于Hive的经过重新设计基于Spark的大规模复杂语言训练模型管道。


b6281961f61fe1183050c4d6ced6515e70d02918

a2879b8d9bcd7323707344d158c341a5265bafe4

6f88221ffcc4413f5f8a9620e1d03e40f991d714

73d4402da9e7d387e4157a3ec8d64fd871e1bac8

d5a13d7ab9df68a780e6e192a36f2cb5fda25116

c0dad08fb11a52cecba2bd31a7afac9acd663cfe

cb57dd2750adedd8be426c16e2c557daa25f701d

ce95286501e1c4f3f93e56888bff64506bfcdad8

cdb875bd45532692a28a19f455f5627926f3fdd1

987e8c31af68b742ed57d63f32e0698178359848

202ef64ea364c7fa26d327952afbf0df8a5ecb59

8df0b4dd6491fed828e20123469070daa0f456d3

c95f373fd3c00bad4acdd3d821b0e9bb06607765

56cf0e8bbd87b99d9e02eed43be2f79ac4f00c2a

efabd9608cdf55b44ca692572141c24ffb82a108

22da8bc5d245364a509fa6df46b3b55e03727819

8278701455a82d84664cbdf30825428cb8ea1d27

0756511c734487a5bbdf7d5930de7fa082a1c13f

7c92b889f0ea4a5ed43627d7307f019e6d07a1f0

0fd97d562c1dcc8ff25d52d5398719b0d039d010

56ba8b23445d2e9056e9fd9633a44cfb355d053c

e74540cb3f766eb04ab4a537a40b30f8538e53fb

941f8bdae4ad14e9664418e7e034d3b7812575ab

13679f31627c32f3f1937eb9bf1a785f1ebe79eb

c0ca782906cff16581bd0ae9659556be07584b23

a638aa81763c202323076884223f2833c8e33263

08b208871befc0e70bb1359976d46ea7e8b72f43

f89a430aaed4f1d38feed1fd97549c364e317d14

bd862e5314b8a28cc471117f4ca83e1210224978

1cca1f1fb75a8542e7c3d25005e4a141bf4a9474

62c272aa7712bac01b2d92b5c1ba2ad43d4dfa22

11da3e14dd2d78af4c4bca4e4f53777ac7b3756b

5c5a1c7155eb76be3db6978fba2cb838bf467379

63be60fbd5591ba22cecd4697af06878f9053832

84d616c4f6aec187123d213a5881fb751f7b58d2

96144b4d5f18d4784142c0155c83dd56e8ce4ca2

08b208871befc0e70bb1359976d46ea7e8b72f43

85983924fae9b6ebe8f26fe754c1ef4481d75e59

9d9728c42df4b506ffdc6c19aa4140fb58d98a8d

相关文章
|
1月前
|
分布式计算 并行计算 大数据
Spark学习---day02、Spark核心编程(RDD概述、RDD编程(创建、分区规则、转换算子、Action算子))(一)
Spark学习---day02、Spark核心编程 RDD概述、RDD编程(创建、分区规则、转换算子、Action算子))(一)
75 1
|
1月前
|
分布式计算 Java Scala
Spark学习---day03、Spark核心编程(RDD概述、RDD编程(创建、分区规则、转换算子、Action算子))(二)
Spark学习---day03、Spark核心编程(RDD概述、RDD编程(创建、分区规则、转换算子、Action算子))(二)
41 1
|
1月前
|
分布式计算 Spark
Spark【Spark学习大纲】简介+生态+RDD+安装+使用(xmind分享)
【2月更文挑战第14天】Spark【Spark学习大纲】简介+生态+RDD+安装+使用(xmind分享)
31 1
|
1月前
|
分布式计算 Hadoop Java
Spark【基础知识 03】【RDD常用算子详解】(图片来源于网络)
【2月更文挑战第14天】Spark【基础知识 03】【RDD常用算子详解】(图片来源于网络)
56 1
|
1月前
|
存储 缓存 分布式计算
Spark学习--day04、RDD依赖关系、RDD持久化、RDD分区器、RDD文件读取与保存
Spark学习--day04、RDD依赖关系、RDD持久化、RDD分区器、RDD文件读取与保存
39 1
|
1月前
|
机器学习/深度学习 分布式计算 监控
典型的Spark应用实例
典型的Spark应用实例
42 1
|
2月前
|
分布式计算 并行计算 Hadoop
Spark学习---day02、Spark核心编程(RDD概述、RDD编程(创建、分区规则、转换算子、Action算子))(一)
Spark学习---day02、Spark核心编程 RDD概述、RDD编程(创建、分区规则、转换算子、Action算子))(一)
42 1
|
2月前
|
分布式计算 大数据 Java
Spark 大数据实战:基于 RDD 的大数据处理分析
Spark 大数据实战:基于 RDD 的大数据处理分析
121 0
|
3月前
|
缓存 分布式计算 监控
Spark RDD操作性能优化技巧
Spark RDD操作性能优化技巧
|
3月前
|
分布式计算 监控 大数据
Spark RDD分区和数据分布:优化大数据处理
Spark RDD分区和数据分布:优化大数据处理