发布时间:2019-07-04 16:32:29 浏览:5072 回帖 :0
Join是一个非常耗费资源耗费时间的操作,特别是数据量很大的情况下。一般流程上会涉及底层表的扫描/shuffle/Join等过程, 如果我们能够尽可能的在靠近源头上减少参与计算的数据,一方面可以提高查...
发布时间:2019-01-15 11:57:36 浏览:7288 回帖 :0
Ranger支持对Hive数据的脱敏处理(Data Masking),它对`select`的返回结果进行脱敏处理,对用户屏蔽敏感信息。
发布时间:2018-12-23 22:58:47 浏览:2931 回帖 :0
Spark应用经常遇到的问题很多都是内存问题,本文对Driver和Executor的内存管理机制进行了相关介绍。
发布时间:2018-12-21 19:13:03 浏览:6778 回帖 :0
本文对Spark的资源调度的进行了介绍,涉及到4个维度的调度,包括SparkApplication/pool/TaskSetManager/Task。
发布时间:2018-11-25 23:15:01 浏览:4031 回帖 :0
Catalyst Optimizer是SparkSQL的核心组件(查询优化器),它负责将SQL语句转换成物理执行计划,Catalyst的优劣决定了SQL执行的性能。
发布时间:2018-11-15 11:21:27 浏览:5960 回帖 :0
HiveServer2支持多种认证方式,通过`hive.server2.authentication`参数来设置,包括`nosasl, none, ldap, kerberos, pam, custo...
发布时间:2018-09-20 17:21:59 浏览:6338 回帖 :1
阿里云EMR-3.13.0版本的SparkSQL支持自适应执行功能,用来解决Reduce个数的动态调整/数据倾斜/执行计划的动态优化问题。
E-MapReduce集群中的SparkSQL如何读写HiveOnHBase表
发布时间:2018-03-02 18:07:16 浏览:6642 回帖 :0
YARN可以通过相关配置支持ResourceManager重启过程中,不影响正在运行的作业,即重启后,作业还能正常继续运行直到结束
发布时间:2018-02-07 20:54:55 浏览:8005 回帖 :0
YARN中集成了CGroups的功能,使得NodeManger可以对container的CPU的资源使用进行控制,比如可以对单个container的CPU使用进行控制,也可以对NodeManger管理...
发布时间:2017-12-25 20:39:27 浏览:8403 回帖 :2
HAS (Hadoop Authentication Service), 致力于解决开源大数据服务和生态系统的认证支持。目前开源大数据(Hadoop/Spark)在安全认证上只内置支持了Kerbero...
发布时间:2017-12-04 23:46:59 浏览:6392 回帖 :0
E-MapReduce从EMR-2.7.x/EMR-3.5.x版本开始支持创建安全类型的集群,即集群中的开源组件以Kerberos的安全模式启动,在这种安全环境下只有经过认证的客户端(Client)才...
Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/tez/dag/api/SessionNotRunning ...