健身不健身 + 关注

健身不健身 发表了文章:

2019杭州云栖大会回顾之Spark Relational Cache实现亚秒级响应的交互式分析

发布时间:2019-10-08 16:55:15 浏览:1833 回帖 :0

本文来自2019杭州云栖大会大数据生态专场中的分享《Spark Relational Cache实现亚秒级响应的交互式分析》

Apache Spark中国技术社区

健身不健身 发表了文章:

EMR Spark Relational Cache 利用数据预组织加速查询

发布时间:2019-08-10 16:02:40 浏览:652 回帖 :0

在利用Relational Cache进行查询优化时,我们需要通过预计算,存储大量数据。而在查询时,我们真正需要读取的数据量也许并不大。为了能让查询实现秒级响应,这就涉及到优化从大量数据中快速定位所需...

Cache 排序 spark aliyun 索引 EMR Group 存储 big data sparksql RelationalCache ZOrder

健身不健身 发表了文章:

EMR Spark Relational Cache的执行计划重写

发布时间:2019-06-15 11:30:20 浏览:2607 回帖 :0

背景 EMR Spark提供的Relational Cache功能,可以通过对数据模型进行预计算和高效地存储,加速Spark SQL,为客户实现利用Spark SQL对海量数据进行即时查询的目的。R...

Cache spark e-mapreduce EMR Hive aggregate kylin sparksql adhoc RelationalCache Jindo Cube

健身不健身 参与了问答:

小文件能通过参数设置,比如1000个文件,小余100m的文件,占总的比例90%, 然后自动优化

小文件能通过参数设置,比如1000个文件,小余100m的文件,占总的比例90%, 然后自动优化

“是的,这也是一种方法”

健身不健身 参与了问答:

Smart Shuffle , map task 还没执行完, reduce task就启动了??

Smart Shuffle , map task 还没执行完, reduce task就启动了??

“不会的,只是map任务自己把作业写到远端,远端接收而已”

健身不健身 参与了问答:

smartshuffle 贡献出来了吗,在哪可以体验一把

smartshuffle 贡献出来了吗,在哪可以体验一把

“这个代码已经在最新版的emr里面了,具体的代码公开还要一段时间”

健身不健身 参与了问答:

一般是使用spark的standalone集群还是spark on yarn的方式呢,哪种比较好

一般是使用spark的standalone集群还是spark on yarn的方式呢,哪种比较好

“是和别的应用共享的建议用yarn”
暂未提供

感兴趣or擅长的领域:

暂无
更多>
社区小助手
社区小助手
文章:12丨 粉丝:1179丨 话题:0
云无谓
云无谓
文章:10丨 粉丝:1112丨 话题:0
鱼跟猫
鱼跟猫
文章:17丨 粉丝:1124丨 话题:0
江宇-燕回
江宇-燕回
文章:1丨 粉丝:966丨 话题:0
开源大数据EMR
开源大数据EMR
文章:227丨 粉丝:2721丨 话题:0
xy_xind
xy_xind
文章:4丨 粉丝:1110丨 话题:0
更多>
游客5q7vara4jrtsg
游客5q7vara4jrtsg
文章:0丨 粉丝:0丨 话题:0
游客i763ashqt6c3q
游客i763ashqt6c3q
文章:0丨 粉丝:0丨 话题:0
游客v562fsxdwi5ko
游客v562fsxdwi5ko
文章:0丨 粉丝:0丨 话题:0
游客vzvx7tmf4vtay
游客vzvx7tmf4vtay
文章:0丨 粉丝:0丨 话题:0
游客4neprtswhdi4o
游客4neprtswhdi4o
文章:0丨 粉丝:0丨 话题:0
罗小嘿嘿嘿
罗小嘿嘿嘿
文章:0丨 粉丝:0丨 话题:0