发布时间:2020-05-29 17:09:34 浏览:636 回帖 :2
记录一个客户问题 客户用Spark SQL的repartition接口来解决Hive ORC表小文件的问题,发现文件膨胀的很厉害 比如原来有1000个小文件,总大小是500MBrepartition...
发布时间:2020-05-28 11:27:07 浏览:497 回帖 :0
引子 本来这个东西是没啥好写的,但是在帮客户解决问题的时候,发现链路太长,不能怪客户弄不出来,记录一下 需求列表 MaxCompute Spark包 (写文章时刻为版本 0.32.1, ...
发布时间:2020-05-21 16:28:19 浏览:333 回帖 :0
问题描述 Hive ORC table常规小文件过多问题,于是用Spark写了一个Application来自动的Merge分区数据,思路很简单大概就是 insert overwrite table...
发布时间:2019-07-10 13:51:17 浏览:1136 回帖 :0
【公共云支持】MaxCompute Spark支持交互式Zeppelin
发布时间:2019-05-16 19:14:03 浏览:1985 回帖 :1
【MaxCompute Spark】不想自己搭Spark集群, 也能跑Spark分布式作业???