寒沙牧 + 关注
阿里巴巴技术专家

寒沙牧 发表了文章:

EMR Spark Runtime Filter性能优化

发布时间:2019-07-04 16:32:29 浏览:3761 回帖 :0

Join是一个非常耗费资源耗费时间的操作,特别是数据量很大的情况下。一般流程上会涉及底层表的扫描/shuffle/Join等过程, 如果我们能够尽可能的在靠近源头上减少参与计算的数据,一方面可以提高查...

性能 spark e-mapreduce EMR sparksql RuntimeFilter

寒沙牧 发表了文章:

使用Ranger对Hive数据进行脱敏

发布时间:2019-01-15 11:57:36 浏览:1784 回帖 :0

Ranger支持对Hive数据的脱敏处理(Data Masking),它对`select`的返回结果进行脱敏处理,对用户屏蔽敏感信息。

配置 e-mapreduce Hive test Ranger Data-Masking

寒沙牧 发表了文章:

Spark中的内存管理(一)

发布时间:2018-12-23 22:58:47 浏览:1860 回帖 :0

Spark应用经常遇到的问题很多都是内存问题,本文对Driver和Executor的内存管理机制进行了相关介绍。

内存管理 spark e-mapreduce Driver memory MemoryMangement

寒沙牧 发表了文章:

Spark中的资源调度

发布时间:2018-12-21 19:13:03 浏览:1789 回帖 :0

本文对Spark的资源调度的进行了介绍,涉及到4个维度的调度,包括SparkApplication/pool/TaskSetManager/Task。

算法 SQL 配置 测试 spark e-mapreduce xml EMR scheduler

寒沙牧 发表了文章:

SparkSQL Catalyst解析

发布时间:2018-11-25 23:15:01 浏览:2382 回帖 :0

Catalyst Optimizer是SparkSQL的核心组件(查询优化器),它负责将SQL语句转换成物理执行计划,Catalyst的优劣决定了SQL执行的性能。

e-mapreduce 查询优化 Other bigdecimal CBO sparksql catalyst RBO

寒沙牧 发表了文章:

初学Spark

发布时间:2018-11-15 23:16:52 浏览:1484 回帖 :0

介绍大数据处理引擎Spark的特点,以及它的技术栈

大数据 hdfs 模块 数据处理 reduce 内存管理 spark DataFrame MLlib e-mapreduce Hive Mapreduce 流计算

寒沙牧 参与了问答:

hive表有数据,但count(*)返回0

hive select 有数据,但是select count() 返回为0

“这个比较hack了”

寒沙牧 发表了文章:

HiveServer2集成LDAP做用户认证

发布时间:2018-11-15 11:21:27 浏览:3053 回帖 :0

HiveServer2支持多种认证方式,通过`hive.server2.authentication`参数来设置,包括`nosasl, none, ldap, kerberos, pam, custo...

配置 集群 e-mapreduce JDBC Hive Transaction 认证 ldap HiveServer2

寒沙牧 发表了文章:

SparkSQL自适应执行

发布时间:2018-09-20 17:21:59 浏览:4330 回帖 :1

阿里云EMR-3.13.0版本的SparkSQL支持自适应执行功能,用来解决Reduce个数的动态调整/数据倾斜/执行计划的动态优化问题。

SQL reduce spark e-mapreduce adaptive statistics sparksql

寒沙牧 参与了问答:

SparkSQL读写HiveOnHBase表

E-MapReduce集群中的SparkSQL如何读写HiveOnHBase表

“SparkSQL本身是支持StorageHandler,需要提供相关jar包。 访问HiveOnHBase需要如下jar包:/usr/lib/hbase-current/lib/hbase-serve...查看全部>

寒沙牧 发表了文章:

YARN ResourceManager重启作业保留机制

发布时间:2018-03-02 18:07:16 浏览:4429 回帖 :0

YARN可以通过相关配置支持ResourceManager重启过程中,不影响正在运行的作业,即重启后,作业还能正常继续运行直到结束

hadoop Apache 高可用 配置 集群 测试 e-mapreduce Server Hive class yarn resourcemanager 恢复 recovery

寒沙牧 发表了文章:

寒沙牧 发表了文章:

YARN中的CPU资源隔离-CGroups

发布时间:2018-02-07 20:54:55 浏览:5607 回帖 :0

YARN中集成了CGroups的功能,使得NodeManger可以对container的CPU的资源使用进行控制,比如可以对单个container的CPU使用进行控制,也可以对NodeManger管理...

hadoop Apache 配置 集群 测试 e-mapreduce CPU yarn cgroups

寒沙牧 发表了文章:

寒沙牧 发表了文章:

HAS-插件式Kerberos认证框架

发布时间:2017-12-25 20:39:27 浏览:6938 回帖 :2

HAS (Hadoop Authentication Service), 致力于解决开源大数据服务和生态系统的认证支持。目前开源大数据(Hadoop/Spark)在安全认证上只内置支持了Kerbero...

大数据 hadoop Apache 高可用 数据库 配置 集群 Image Server 插件 plugin

寒沙牧 发表了文章:

寒沙牧 发表了文章:

E-MapReduce大数据安全实践

发布时间:2017-12-04 23:46:59 浏览:5718 回帖 :0

E-MapReduce从EMR-2.7.x/EMR-3.5.x版本开始支持创建安全类型的集群,即集群中的开源组件以Kerberos的安全模式启动,在这种安全环境下只有经过认证的客户端(Client)才...

大数据 安全 hbase hdfs 加密 配置 e-mapreduce Authentication Authorization 认证 授权 kerberos

寒沙牧 参与了问答:

EMR集群spark出现Tez相关类找不到

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/tez/dag/api/SessionNotRunning ...

“您好 您在hive-site.xml里面设置了engine为tez 然后/etc/ecm/spark-conf/下面有个hive-site.xml软链接,直接链接到了/etc/ecm/hive-con...查看全部>

寒沙牧 发表了文章:

TCP的backlog导致的HBase超时问题排查

发布时间:2017-07-05 17:39:16 浏览:2120 回帖 :0

TCP的backlog导致的超时问题排查

linux 服务器 hbase HTTPS TCP e-mapreduce Server slb backlog

寒沙牧 发表了文章:

搭建Gateway向E-MapReduce集群提交作业

发布时间:2017-06-14 23:58:35 浏览:1636 回帖 :0

搭建Gateway向E-MapReduce集群提交作业

java jvm hadoop openjdk 安全组 集群 spark e-mapreduce EMR Hive input Gateway

2
更多>
更多>
游客nweyqqahqho7m
游客nweyqqahqho7m
文章:0丨 粉丝:0丨 话题:0
leongood
leongood
文章:0丨 粉丝:0丨 话题:0
游客fee5dmjac4yhs
游客fee5dmjac4yhs
文章:0丨 粉丝:0丨 话题:0
游客zzdjaqn4zqvfk
游客zzdjaqn4zqvfk
文章:0丨 粉丝:0丨 话题:0
游客hmc6bjj52qdm6
游客hmc6bjj52qdm6
文章:0丨 粉丝:0丨 话题:0
游客mllikrz3wazf4
游客mllikrz3wazf4
文章:0丨 粉丝:0丨 话题:0