开源大数据EMR + 关注

开源大数据EMR 发表了文章:

2019年Apache Spark技术交流社区原创文章回顾

发布时间:2020-01-09 17:18:02 浏览:1170 回帖 :0

整理了这一年分享过的来自诸多专家的实践经验,希望2020年我们仍然能够互相支持,壮大Spark社区。

大数据 SQL Apache Cache 数据分析 spark aliyun 开源大数据 EMR 存储

开源大数据EMR 发表了文章:

自建Hive数据仓库跨版本迁移到阿里云E-MapReduce

发布时间:2020-01-08 16:00:45 浏览:10252 回帖 :0

客户在IDC或者公有云环境自建Hadoop集群,数据集中保存在HDFS文件系统,同时借助Hive进行ETL任务。客户在决策上云之后,会将自建Hadoop集群的数据迁移到阿里云E-MapReduce集群...

架构 mysql hadoop 云服务器 数据库 配置 镜像 安全组 数据仓库 集群 Image 数据迁移 控制台 e-mapreduce Hive

开源大数据EMR 发表了文章:

spark过节监控告警系统实现

发布时间:2020-01-08 11:46:59 浏览:12024 回帖 :0

保证过年期间自己对自己的应用了如执掌,一般公司都会有轮值人员,对于我们这些搞平台和线上应用的,至少要有春节应急预案。今天浪尖主要是分享一下关于在yarn上的spark 任务我们应该做哪些监控,如何监控...

监控 spark 开源大数据 string class unit

开源大数据EMR 发表了文章:

手动搭建Gateway连接阿里云E-MapReduce

发布时间:2020-01-07 11:45:13 浏览:3065 回帖 :0

本文介绍用户自建gateway连接阿里云EMR的一种方案

java hadoop 安全组 集群 e-mapreduce 脚本 EMR Hive input

开源大数据EMR 发表了文章:

1月9日社区直播【使用Apache SuperSet和EMR Spark打造交互式的数据探索平台】

发布时间:2020-01-06 14:35:56 浏览:779 回帖 :0

本次分享主要介绍如何结合Apache SuperSet和EMR Spark,利用EMR Spark提供的JindoCube高级特性在SuperSet进行秒级响应,交互式的可视化数据探索。

Apache 钉钉 spark aliyun EMR

开源大数据EMR 发表了文章:

E-MapReduce-3.24.0版本发行

发布时间:2020-01-06 13:14:22 浏览:574 回帖 :0

信息摘要: 包括新增Delta、Flink独立集群(白名单发布)、支持TensorFlow on spark,以及多个组件版本升级适用客户: 全部客户版本/规格功能: 1、新增 Delta,2、新增F...

集群 spark aliyun e-mapreduce html

开源大数据EMR 发表了文章:

通过Kafka Connect进行数据迁移

发布时间:2020-01-02 16:21:18 浏览:6647 回帖 :0

在流式数据处理过程中,E-MapReduce经常需要在Kafka与其他系统间进行数据同步或者在Kafka集群间进行数据迁移。本节向您介绍如何在E-MapReduce上通过Kafka Connect快速...

数据库 配置 安全组 集群 Image 数据迁移 开源大数据 e-mapreduce 数据同步 curl

开源大数据EMR 发表了文章:

Hive性能优化(全面)

发布时间:2019-12-30 15:04:14 浏览:7157 回帖 :0

Hadoop的计算框架特性下的HIve有效的优化手段

性能优化 hadoop 性能 reduce 排序 Hive Group

开源大数据EMR 发表了文章:

Hive性能优化(全面)

发布时间:2019-12-30 12:04:40 浏览:494 回帖 :0

Hadoop的计算框架特性下的HIve有效的优化手段

性能优化 hadoop 性能 reduce 排序 Hive Group

开源大数据EMR 发表了文章:

Spark 数据倾斜及其解决方案

发布时间:2019-12-30 11:15:48 浏览:1396 回帖 :0

本文从数据倾斜的危害、现象、原因等方面,由浅入深阐述Spark数据倾斜及其解决方案。

reduce spark 解决方案 分布式系统

开源大数据EMR 发表了文章:

通过Spark Streaming作业处理Kafka数据

发布时间:2019-12-27 12:10:54 浏览:9514 回帖 :0

如何使用阿里云E-MapReduce部署Hadoop集群和Kafka集群,并运行Spark Streaming作业消费Kafka数据。

hadoop 安全组 集群 主机 Image 控制台 spark aliyun 开源大数据 e-mapreduce test html

开源大数据EMR 发表了文章:

实践Hadoop MapReduce 任务的性能翻倍之路

发布时间:2019-12-26 14:10:22 浏览:2713 回帖 :0

eBay每天产生PB量级的CAL日志,其数据量每天都在增加。对于日益增长的数据量,Hadoop MapReduce job的优化将会大大节省计算资源。本文将分享eBay团队如何对这些Hadoop jo...

hadoop 性能 SQL 日志 集群 Image Mapreduce

开源大数据EMR 发表了文章:

60TB 数据量的作业从 Hive 迁移到 Spark 在 Facebook 的实践

发布时间:2019-12-20 13:16:21 浏览:1034 回帖 :0

Spark 可以可靠地 shuffle 并排序 90 TB 以上的中间数据,并在一个作业中运行 250,000个 tasks。与基于 Hive 计相比,产生了显著的性能改进( CPU性能提升、节省了资...

性能 Apache 配置 集群 排序 Image 钉钉 spark Driver Hive CPU facebook

开源大数据EMR 发表了文章:

Spark整合Ray思路漫谈

发布时间:2019-12-19 14:38:57 浏览:5121 回帖 :0

Spark整合Ray思路漫谈

python 分布式 大数据 架构 算法 数据处理 钉钉 spark 编程

开源大数据EMR 发表了文章:

Delta Lake 0.5.0 正式发布,支持包括 Hive/Presto 等多种查询引擎

发布时间:2019-12-18 11:18:26 浏览:767 回帖 :0

Delta Lake 0.5.0 于2019年12月13日正式发布,这个版本支持多种查询引擎查询 Delta Lake 的数据,比如常见的 Hive、Presto 查询引擎。并发操作得到改进。

SQL path 数据仓库 钉钉 spark 开源大数据 Redshift Hive html 并发控制

开源大数据EMR 发表了文章:

Tablestore+Delta Lake(快速开始)

发布时间:2019-11-29 16:29:19 浏览:575 回帖 :0

本文介绍如何在E-MapReduce中通过Tablestore Spark Streaming Source将TableStore中的数据实时导入到Delta Lake中。

阿里云EMR

开源大数据EMR 发表了文章:

阿里云大数据+AI技术沙龙上海站回顾 | ​揭秘TPC-DS 榜单第一名背后的强大引擎

发布时间:2019-11-26 15:22:39 浏览:4144 回帖 :0

11月16日的大数据+AI沙龙上海站取得圆满成功! EMR 团队在国内运营最大的 Spark 社区,为了更好地传播和分享业界最新技术和最佳实践,现在联合开源社区同行,打造一个纯粹的技术交流线下沙龙《...

Apache Spark中国技术社区

开源大数据EMR 发表了文章:

11月28日Spark社区直播【Tablestore结合Spark的云上流批一体大数据架构 】

发布时间:2019-11-26 14:21:10 浏览:4074 回帖 :0

传统Lambda架构组件多运维复杂,如何使用一套存储和一套计算来实现流批架构充分享受技术红利?以Delta Lake为代表的新型数据湖方案越来越流行,传统的Lambda架构如何向数据湖架构进行扩展?以...

Apache Spark中国技术社区

开源大数据EMR 发表了文章:

Spark Codegen浅析

发布时间:2019-11-19 14:01:21 浏览:6386 回帖 :0

Codegen是Spark Runtime优化性能的关键技术,核心在于动态生成java代码、即时compile和加载,把解释执行转化为编译执行。Spark Codegen分为Expression级别和...

Apache Spark中国技术社区

开源大数据EMR 发表了文章:

11月14日Spark社区直播【 Spark on Kubernetes & YARN】

发布时间:2019-11-12 11:52:31 浏览:6418 回帖 :0

本次直播将讨论:以Kubernetes为代表的云原生技术越来越流行起来,spark是如何跑在Kubernetes之上来享受云原生技术的红利?Spark跑在Kubernetes之上和跑在Hadoop Y...

阿里云EMR

5
暂未提供

感兴趣or擅长的领域:

暂无
更多>
巴蜀真人
巴蜀真人
文章:121丨 粉丝:26650丨 话题:0
金竹
金竹
文章:14丨 粉丝:26699丨 话题:0
jasonli4
jasonli4
文章:11丨 粉丝:26435丨 话题:0
小白薇薇
小白薇薇
文章:10丨 粉丝:26465丨 话题:0
溶月
溶月
文章:1丨 粉丝:26419丨 话题:0
付空
付空
文章:23丨 粉丝:22637丨 话题:0
更多>
游客xoxrtljfhzwxy
游客xoxrtljfhzwxy
文章:0丨 粉丝:0丨 话题:0
游客43zu4yixpenku
游客43zu4yixpenku
文章:0丨 粉丝:0丨 话题:0
游客26pg6s64fjirs
游客26pg6s64fjirs
文章:0丨 粉丝:0丨 话题:0
1481266741575208
1481266741575208
文章:0丨 粉丝:0丨 话题:0
tomoeshun
tomoeshun
文章:0丨 粉丝:0丨 话题:0
知识服务熵
知识服务熵
文章:0丨 粉丝:0丨 话题:0
杂志