健身不健身 + 关注

健身不健身 发表了文章:

EMR Spark Relational Cache 利用数据预组织加速查询

发布时间:2019-08-10 16:02:40 浏览:304 回帖 :0

在利用Relational Cache进行查询优化时,我们需要通过预计算,存储大量数据。而在查询时,我们真正需要读取的数据量也许并不大。为了能让查询实现秒级响应,这就涉及到优化从大量数据中快速定位所需...

Cache 排序 spark aliyun 索引 EMR Group 存储 big data sparksql RelationalCache ZOrder

健身不健身 发表了文章:

EMR Spark Relational Cache的执行计划重写

发布时间:2019-06-15 11:30:20 浏览:1859 回帖 :0

背景 EMR Spark提供的Relational Cache功能,可以通过对数据模型进行预计算和高效地存储,加速Spark SQL,为客户实现利用Spark SQL对海量数据进行即时查询的目的。R...

Cache spark e-mapreduce EMR Hive aggregate kylin sparksql adhoc RelationalCache Jindo Cube

健身不健身 参与了问答:

小文件能通过参数设置,比如1000个文件,小余100m的文件,占总的比例90%, 然后自动优化

小文件能通过参数设置,比如1000个文件,小余100m的文件,占总的比例90%, 然后自动优化

“是的,这也是一种方法”

健身不健身 参与了问答:

Smart Shuffle , map task 还没执行完, reduce task就启动了??

Smart Shuffle , map task 还没执行完, reduce task就启动了??

“不会的,只是map任务自己把作业写到远端,远端接收而已”

健身不健身 参与了问答:

smartshuffle 贡献出来了吗,在哪可以体验一把

smartshuffle 贡献出来了吗,在哪可以体验一把

“这个代码已经在最新版的emr里面了,具体的代码公开还要一段时间”

健身不健身 参与了问答:

一般是使用spark的standalone集群还是spark on yarn的方式呢,哪种比较好

一般是使用spark的standalone集群还是spark on yarn的方式呢,哪种比较好

“是和别的应用共享的建议用yarn”
暂未提供

感兴趣or擅长的领域:

暂无
更多>
社区小助手
社区小助手
文章:12丨 粉丝:944丨 话题:0
云无谓
云无谓
文章:9丨 粉丝:890丨 话题:0
鱼跟猫
鱼跟猫
文章:16丨 粉丝:903丨 话题:0
江宇-燕回
江宇-燕回
文章:1丨 粉丝:754丨 话题:0
开源大数据EMR
开源大数据EMR
文章:170丨 粉丝:2343丨 话题:0
xy_xind
xy_xind
文章:4丨 粉丝:889丨 话题:0
更多>
游客csxrm45ahh5um
游客csxrm45ahh5um
文章:0丨 粉丝:0丨 话题:0
游客3rppylxekzhii
游客3rppylxekzhii
文章:0丨 粉丝:0丨 话题:0
游客35k2h5ray47lg
游客35k2h5ray47lg
文章:0丨 粉丝:0丨 话题:0
游客v7ogmt75k5epg
游客v7ogmt75k5epg
文章:0丨 粉丝:0丨 话题:0
游客xr2h2l6mlzaza
游客xr2h2l6mlzaza
文章:0丨 粉丝:0丨 话题:0
游客j5hf2vs32mf3q
游客j5hf2vs32mf3q
文章:0丨 粉丝:0丨 话题:0