Spark+Alluxio性能调优十大技巧

  1. 云栖社区>
  2. Apache Spark中国技术社区>
  3. 博客>
  4. 正文

Spark+Alluxio性能调优十大技巧

开源大数据EMR 2019-03-29 10:15:56 浏览959
展开阅读全文


本文章转载于:https://zhuanlan.zhihu.com/p/54245707

由于统一访问对象存储(如S3)和HDFS数据的场景的出现和普及,Apache Spark结合Alluxio的大数据栈越来越受欢迎。此外,越来越流行的计算与存储分离的架构导致计算端查询延迟增大。因此,Alluxio常被用作贴近计算端的热数据存储以提高性能。为了能够获得最佳性能,用户需要像使用其他技术栈组合一样遵循最佳的实战经验。本文介绍了在Alluxio上运行Spark时,对于实际工作负载性能调优的十大技巧。

常用链接


关于数据本地性的技巧


数据本地性就是尽量将计算移到数据所在的节点上进行,避免数据在网络上的传输。分布式数

网友评论

登录后评论
0/500
评论
开源大数据EMR
+ 关注
所属云栖号: Apache Spark中国技术社区