阿里云E-MapReduce(EMR) + 关注 E-MapReduce

阿里云 Elastic MapReduce(E-MapReduce)是运行在阿里云平台上的一种大数据处理的系统解决方案。

E-MapReduce 构建于阿里云云服务器 ECS 上,基于开源的 Apache Hadoop 和 Apache Spark,让您可以方便地使用 Hadoop 和 Spark 生态系统中的其他周边系统(如 Apache Hive、Apache Pig、HBase 等)来分析和处理自己的数据。不仅如此,E-MapReduce 还可以方便的与阿里云其他的云数据存储系统和数据库系统(如阿里云 OSS、阿里云 RDS 等。)进行数据传输。

尝新阿里云E-MapReduce MetaService服务

阿里云E-MapReduce从EMR-2.1.0版本镜像开始,将在VPC集群中提供MetaService服务。

分布式 原创 hadoop spark e-mapreduce 对象存储OSS

hive在E-MapReduce集群的实践(一)hive异常排查入门

hive是hadoop集群最常用的数据分析工具,只要运行sql就可以分析海量数据。初学者在使用hive时,经常会遇到各种问题,不知道该怎么解决。 本文是hive实践系列的第一篇,以E-MapReduce集群环境为例,介绍...

大数据 hadoop SQL 日志 配置 reduce 集群 OOM e-mapreduce Hive Mapreduce

E-MapReduce Kafka Benchmark - I

本文介绍如何利用Kafka自带的性能测试脚本测试Kafka集群的性能,文末给出一份单机测试Kafka集群的性能数据。此数据仅供参考,不代表官方性能指标承诺。

消息系统 大数据 分布式系统与计算 gzip 性能 线程 配置 集群 测试 云盘 e-mapreduce replication zookeeper kafka

SparkSQL自适应执行

阿里云EMR-3.13.0版本的SparkSQL支持自适应执行功能,用来解决Reduce个数的动态调整/数据倾斜/执行计划的动态优化问题。

SQL reduce spark e-mapreduce adaptive statistics sparksql

HiveServer2集成LDAP做用户认证

HiveServer2支持多种认证方式,通过`hive.server2.authentication`参数来设置,包括`nosasl, none, ldap, kerberos, pam, custom` 本文介绍如何在E-MapRe...

配置 集群 e-mapreduce JDBC Hive Transaction 认证 ldap HiveServer2

使用Ranger对Hive数据进行脱敏

Ranger支持对Hive数据的脱敏处理(Data Masking),它对`select`的返回结果进行脱敏处理,对用户屏蔽敏感信息。

配置 e-mapreduce Hive test Ranger Data-Masking

浅谈 Spark 的多语言支持(修订版)

Spark 设计上的优秀无容置疑,甫一出道便抢了 Hadoop 的 C 位,在开源大数据的黄金十年里一时风头无两,在人工智能时代的当下仍然能够与时俱进,不可谓不牛逼。架构和设计上的卓越,不遑多言,美中不足之处自然也有不少,比如调度模型跟 M...

云栖社区 系统软件 数据存储与数据库 系统研发与运维 网络与数据通信 python 深度学习 大数据 java hadoop spark scala 开源大数据 EMR

E-MapReduce是构建于阿里云ECS弹性虚拟机之上,利用开源大数据生态系统,包括Hadoop和Spark,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。产品交流钉钉群号:21784001, 欢迎沟通交流。详情访问:https://www.aliyun.com/product/emapreduce。

管理员:
鱼跟猫