1. 云栖社区>
  2. 全部标签>
  3. #EMR#
EMR

#EMR#

已有0人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

OSS 数据湖实践 —— 使用EMR JindoFs Cache提升性能

通过使用JindoFs 的Cache功能,加速作业计算,减小OSS带宽需求,优化作业架构。

OSS 性能 配置 集群 Cache 数据分析 aliyun e-mapreduce EMR Hive

OSS数据湖实践——EMR + Hive + OSS案例

构建基于OSS数据源的EMR大数据计算环境,使用Hive分析工具,实现简单的大数据分析案例。

架构 OSS js 数据仓库 集群 BY e-mapreduce string EMR Hive Group csv

OSS数据湖实践——EMR + Flink + OSS案例

构建基于OSS数据源的EMR大数据计算环境,使用Flink大数据计算引擎,实现简单的大数据分析案例。

OSS hadoop Apache 集群 云存储 spark scala API string EMR 大数据分析

OSS数据湖实践——EMR + Spark + OSS案例

构建基于OSS数据源的EMR大数据计算环境,使用Spark大数据计算引擎,实现简单的大数据分析案例。

大数据 OSS hadoop SQL Apache 集群 云存储 spark EMR csv Bash 大数据分析

OSS 数据湖实践 —— EMR+OSS入门

基于阿里云面向对象存储(OSS) 技术优势,利用EMR的计算能力,把二者结合起来,快速搭建大数据计算环境,实现大数据分析需求。

大数据 OSS hadoop Json 云服务器 Apache 配置 集群 云存储 spark aliyun 对象存储 e-mapreduce EMR 数据湖

E-MapReduce 4月产品新功能

E-MapReduce 4月份新功能:1.EMR Hadoop集群弹性伸缩支持优雅下线,用户可以在弹性伸缩缩容规则中设置等待时长,降低对缩容task节点任务的影响。2.EMR支持阿里云企业资源组,在不同资源组实现EMR集群的隔离,便于各部门独立成本核算。

hadoop 集群 弹性伸缩 aliyun e-mapreduce EMR JindoFS

EMR Spark-SQL性能极致优化揭秘 概览篇

这次的优化里面,还有一个很好玩的优化,就是我们引入的 Native Runtime,如果说上述的优化器优化都是一些特殊 Case 的杀手锏,Native Runtime 就是一个广谱大杀器,根据我们后期统计,引入 Native Runtime,可以普适性的提高 SQL Query 15~20%的 E2E 耗时,这个在TPCDS Perf 里面也是一个很大的性能提升点。

native 性能 c++ runtime spark 开源大数据 e-mapreduce EMR

EMR Spark-SQL性能极致优化揭秘 概览篇

引子 最近阿里云E-MapReduce团队在TPCDS-Perf榜单中提交了最新成绩,相比第二名(其实也是EMR团队于2019年提交的记录),无论从性能还有性价比都取得了2倍+的优秀成绩!详细看 TPCDS Perf 阿里云E-MapReduce团队,除了在产品、易用性、安全性等维度上投入了大量.

云栖社区 分布式系统与计算 native 性能 c++ runtime spark e-mapreduce EMR TPCDS

阿里云EMR计算速度提升2.2倍 连续两年打破大数据领域最难竞赛世界纪录!

4月26日,大数据领域权威竞赛TPC-DS公布了最新结果,阿里云作为全球唯一入选的云计算公司获得第一。值得一提的是,去年阿里云EMR首次打破该竞赛纪录,成为全球首个通过TPC认证的公共云产品。今年在这一基础上,EMR的计算速度提升了2.2倍,连续两年打破了这项大数据领域最难竞赛的世界纪录。

大数据 native OSS hbase 性能 SQL Apache 数据库 数据流 测试 spark e-mapreduce EMR 高性能 存储

关于云原生分布式计算和存储引擎JindoFS,看这一篇就够了

本文集合了JindoFS相关的文章介绍和视频链接。

大数据 架构 性能 云栖大会 集群 数据分析 spark aliyun e-mapreduce 分布式计算 EMR 存储

4月9日JindoFS系列直播【存储计算分离场景的计算适应优化】

本次分享会介绍云上大数据处理的存储计算分离特征,分析传统大数据处理中数据本地化与存储计算分离场景的区别,以及在存储计算分离场景中阿里云EMR的相关优化。

大数据 Apache 钉钉 spark aliyun EMR 存储

阿里云智能事业群 EMR团队招人啦!

加入我们,成为分布式存储,计算和调度等领域的专家,与众多业界和社区技术专家一起工作,加速大数据上云,投身数字时代新基建。

大数据 飞天 hadoop Apache 弹性计算 spark 开源大数据 对象存储 e-mapreduce 云服务 EMR Hive 专有云 分布式存储 大数据分析

自建 Hadoop 数据迁移到阿里云EMR集群

客户在 IDC 或者公有云环境自建 Hadoop 集群,数据集中保存在 HDFS文件系统用于数据分析任务。客户在决定上云之后,会将自建 Hadoop 集群的数据迁移到阿里云自建 Hadoop 集群或者 EMR 集群。本实践方案提供安全和低成本的 HDFS 数据迁移方案。

hdfs hadoop 云服务器 集群 vpn Image 数据迁移 数据分析 对象存储 e-mapreduce EMR 公共云

自建 ElasticSearch 迁移阿里云

以 ElasticSearch 为例,演示搭建模拟业务系统、VPN 网关和 IPSec VPN 隧道,介绍如何通备份到阿里云 OSS 存储空间,以及介绍如果将备份在 OSS 的快照仓库恢复到阿里云 ElasticSearch 实例,进一步达到 ElasticSearch 迁移上云的目的。

hadoop 云服务器 集群 Image 数据迁移 数据分析 对象存储 e-mapreduce EMR Elasticsearch 公共云

自建Hive数据仓库迁移到阿里云EMR

客户在IDC或者公有云环境自建Hadoop集群构建数据仓库和分析系统,购买阿里云EMR集群之后,涉及到将数据仓库和Hive元数据的数据库迁移上云。

数据库 数据仓库 集群 Image 数据迁移 弹性计算 对象存储 数据库迁移 EMR Hive Mapreduce 公共云

EMR弹性低成本离线大数据分析

布式计算框架系统分别为Hadoop、Spark和Storm, Hadoop可以运用在很多商业应用系统,可以轻松集成结构化、半结构化以及非结构化数据集,Spark采用了内存计算,允许数据载入内存作反复查询,融合数据仓库、流处理和图形计算等多种计算范式,Spark能够与Hadoop 很好地结合,Storm用于处理高速、大型数据流的分布式实时计算系用,为Hadoop添加可靠的实时数据处理能力。

分布式 storm hadoop 数据处理 数据流 数据仓库 系统环境 电商 Image 弹性伸缩 spark 对象存储 e-mapreduce EMR 大数据分析

3月5日JindoFS系列直播【Hadoop Job committer 的演化和发展】

Job Committer是Mapreduce/Spark等分布式计算框架的重要组成部分,为分布式任务的写入提供一致性的保证,本次分享主要介绍Job Committer的演进历史,以及社区和EMR在S3/OSS等云存储上的最新进展。

分布式 hadoop Apache 云存储 钉钉 分布式计算 EMR Mapreduce

3月5日JindoFS系列直播【Hadoop Job committer 的演化和发展】

Job Committer是Mapreduce/Spark等分布式计算框架的重要组成部分,为分布式任务的写入提供一致性的保证,本次分享主要介绍Job Committer的演进历史,以及社区和EMR在S3/OSS等云存储上的最新进展。

分布式 hadoop Apache 云存储 钉钉 分布式计算 EMR Mapreduce

10
GO