阿里云E-MapReduce(EMR) + 关注 E-MapReduce

阿里云 Elastic MapReduce(E-MapReduce)是运行在阿里云平台上的一种大数据处理的系统解决方案。

E-MapReduce 构建于阿里云云服务器 ECS 上,基于开源的 Apache Hadoop 和 Apache Spark,让您可以方便地使用 Hadoop 和 Spark 生态系统中的其他周边系统(如 Apache Hive、Apache Pig、HBase 等)来分析和处理自己的数据。不仅如此,E-MapReduce 还可以方便的与阿里云其他的云数据存储系统和数据库系统(如阿里云 OSS、阿里云 RDS 等。)进行数据传输。

E-MapReduce 4.0产品新特性

E-MapReduce是运行在阿里云平台上的一大数据处理的系统解决方案。在2019年10月,阿里巴巴将发布EMR4.0版本。本篇介绍EMR4...

阿里云EMR

阿里云大数据+AI技术沙龙上海站回顾 | ​揭秘TPC-DS 榜单第一名背后的强大引擎

11月16日的大数据+AI沙龙上海站取得圆满成功! EMR 团队在国内运营最大的 Spark 社区,为了更好地传播和分享业界最新技术和最佳实...

阿里云EMR

自建Hive数据仓库跨版本迁移到阿里云E-MapReduce

客户在IDC或者公有云环境自建Hadoop集群,数据集中保存在HDFS文件系统,同时借助Hive进行ETL任务。客户在决策上云之后,会将自建Hadoop集群的数据迁移到阿里云E-MapReduce集群。

架构 mysql hadoop 云服务器 数据库 配置 镜像 安全组 数据仓库 集群 Image 数据迁移 控制台 e-mapreduce Hive

Apache Spark中国技术交流社区历次直播回顾(持续更新)

Apache Spark中国技术交流社区,由阿里巴巴开源大数据技术团队成立,持续输出spark相关技术直播、原创文章、精品翻译,钉钉群内千人...

阿里云EMR

JindoFS: 云上大数据的高性能数据湖存储方案

JindoFS 是EMR打造的高性能大数据存储服务,可以为不同的计算引擎提供不同的存储服务,可以根据应用的场景来选择不同的存储模式。在201...

阿里云EMR

助力云上开源生态 - 阿里云开源大数据平台的发展

阿里云E-MapReduce (EMR) 是构建在阿里云云服务器 ECS 上的开源 Hadoop、Spark、HBase、Hive、Flin...

阿里云EMR

尝新阿里云E-MapReduce MetaService服务

阿里云E-MapReduce从EMR-2.1.0版本镜像开始,将在VPC集群中提供MetaService服务。

分布式 原创 hadoop spark e-mapreduce 对象存储OSS

hive在E-MapReduce集群的实践(一)hive异常排查入门

hive是hadoop集群最常用的数据分析工具,只要运行sql就可以分析海量数据。初学者在使用hive时,经常会遇到各种问题,不知道该怎么解决。 本文是hive实践系列的第一篇,以E-MapReduce集群环境为例,介绍...

大数据 hadoop SQL 日志 配置 reduce 集群 OOM e-mapreduce Hive Mapreduce

E-MapReduce Kafka Benchmark - I

本文介绍如何利用Kafka自带的性能测试脚本测试Kafka集群的性能,文末给出一份单机测试Kafka集群的性能数据。此数据仅供参考,不代表官方性能指标承诺。

消息系统 大数据 分布式系统与计算 gzip 性能 线程 配置 集群 测试 云盘 e-mapreduce replication zookeeper kafka

SparkSQL自适应执行

阿里云EMR-3.13.0版本的SparkSQL支持自适应执行功能,用来解决Reduce个数的动态调整/数据倾斜/执行计划的动态优化问题。

SQL reduce spark e-mapreduce adaptive statistics sparksql

HiveServer2集成LDAP做用户认证

HiveServer2支持多种认证方式,通过`hive.server2.authentication`参数来设置,包括`nosasl, none, ldap, kerberos, pam, custom` 本文介绍如何在E-MapRe...

配置 集群 e-mapreduce JDBC Hive Transaction 认证 ldap HiveServer2

使用Ranger对Hive数据进行脱敏

Ranger支持对Hive数据的脱敏处理(Data Masking),它对`select`的返回结果进行脱敏处理,对用户屏蔽敏感信息。

配置 e-mapreduce Hive test Ranger Data-Masking

浅谈 Spark 的多语言支持(修订版)

Spark 设计上的优秀无容置疑,甫一出道便抢了 Hadoop 的 C 位,在开源大数据的黄金十年里一时风头无两,在人工智能时代的当下仍然能够与时俱进,不可谓不牛逼。架构和设计上的卓越,不遑多言,美中不足之处自然也有不少,比如调度模型跟 M...

云栖社区 系统软件 数据存储与数据库 系统研发与运维 网络与数据通信 python 深度学习 大数据 java hadoop spark scala 开源大数据 EMR

E-MapReduce是构建于阿里云ECS弹性虚拟机之上,利用开源大数据生态系统,包括Hadoop和Spark,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。产品交流钉钉群号:21784001, 欢迎沟通交流。详情访问:https://www.aliyun.com/product/emapreduce。

管理员:
鱼跟猫