1. 云栖社区>
  2. 全部标签>
  3. #EMR#
EMR

#EMR#

已有0人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

Serverless Spark的弹性利器 - EMR Shuffle Service

###背景与动机 ####计算存储分离下的刚需 计算存储分离是云原生的重要特征。通常来讲,计算是CPU密集型,存储是IO密集型,他们对于硬件配置的需求是不同的。在传统计算存储混合的架构中,为了兼顾计算和存储,CPU和存储设备都不能太差,因此牺牲了灵活性,提高了成本。

架构 性能 配置 reduce Image spark EMR ESS 磁盘 service 存储

云原生计算引擎挑战与解决方案

云原生背景介绍与思考 图一是基于ECS底座的EMR架构,这是一套非常完整的开源大数据生态,也是近10年来每个数字化企业必不可少的开源大数据解决方案。主要分为以下几层: ECS物理资源层,也就是Iaas层 数据接入层,例如实时的Kafka,离线的Sqoop 存储层,包括HDFS和OSS,以及EMR自研的缓存加速JindoFS 计算引擎层,包括熟知的Spark,Presto、Flink等这些计算引擎 数据应用层,如阿里自研的Dataworks、PAI以及开源的Zeppelin,Jupyter 每一层都有比较多的开源组件与之对应,这些层级组成了最经典的大数据解决方案,也就是EMR的架构。

大数据 架构 性能 集群 容器 云盘 spark 解决方案 开源大数据 EMR service 存储

多引擎集成挖掘湖上数据价值

数据湖已经逐步走到了精细化的管理,这意味着原始的计算引擎直接读写存储的方式应当逐步演变为使用标准方式读写数据湖存储。然而“标准方式”实际上并无业界标准,与具体的计算引擎深度绑定,因此,支持计算引擎的丰富程度也就成了衡量数据湖的一个准则。

OSS 性能 集群 Image spark EMR 存储 数据存储 MaxCompute

EMR本地盘实例大规模数据集测试

阿里云最佳实践频道:【点击查看更多上云最佳实践】这里有丰富的企业上云最佳实践,从典型场景入门,提供一系列项目实践方案,降低企业上云门槛的同时满足您的需求! 场景描述 阿里云为了满足大数据场景下的存储需求,在云上推出了本地盘D1机型,这个系列提供了本地盘而非云盘作为存储,提高了磁盘的吞吐能力,发挥Hadoop的就近计算优势。

大数据 高可用 测试 数据迁移 云盘 aliyun e-mapreduce EMR 磁盘 自动化运维 存储

EMR弹性低成本离线大数据分析

阿里云最佳实践频道:【点击查看更多上云最佳实践】这里有丰富的企业上云最佳实践,从典型场景入门,提供一系列项目实践方案,降低企业上云门槛的同时满足您的需求! 场景描述 基于阿里云的E-MapReduce(EMR) 、对象存储OSS、日志服务SLS、抢占式ECS实例构建弹性、低成本的计算与存储分离架构的海量离线大数据分析日志分析系统。

大数据 架构 OSS ECS 日志 SLS 负载均衡 弹性计算 aliyun 对象存储 e-mapreduce EMR 离线分析 存储 大数据分析

EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework

EMR团队探索并开发了SparkSQL Native Codegen框架,为SparkSQL换了引擎,新引擎带来最高4倍性能提升,为EMR再次获取世界第一立下汗马功劳。来自阿里云EMR团队的周克勇将详细介绍Native Codegen框架。

java native 函数 性能 c++ runtime Framework spark EMR 数据结构 数组

使用 E-MapReduce 构建云上数据胡

本篇来自于阿里巴巴E-MapReduce(简称为EMR)产品经理子关,分享云上使用E-MapReduce快速构建企业数据湖的落地方案以及客户最佳实践。

深度学习 大数据 架构 飞天 OSS hdfs 性能 集群 弹性伸缩 对象存储 e-mapreduce EMR 权限管理 存储

7月30日产品直播【EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework】

EMR团队探索并开发了SparkSQL Native Codegen框架,为SparkSQL换了引擎,新引擎带来最高4倍性能提升,为EMR再次获取世界第一立下汗马功劳,本次直播将详细介绍Native Codegen框架。

大数据 native 性能 钉钉 Framework aliyun EMR

EMR弹性低成本离线大数据分析

布式计算框架系统分别为Hadoop、Spark和Storm, Hadoop可以运用在很多商业应用系统,可以轻松集成结构化、半结构化以及非结构化数据集,Spark采用了内存计算,允许数据载入内存作反复查询,融合数据仓库、流处理和图形计算等多种计算范式,Spark能够与Hadoop 很好地结合,Storm用于处理高速、大型数据流的分布式实时计算系用,为Hadoop添加可靠的实时数据处理能力。

分布式 storm hadoop 数据处理 数据流 数据仓库 系统环境 电商 Image 弹性伸缩 spark 对象存储 e-mapreduce EMR 大数据分析

EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework

SparkSQL多年来的性能优化集中在Optimizer和Runtime两个领域。前者的目的是为了获得最优的执行计划,后者的目的是针对既定的计划尽可能执行的更快。

llvm 大数据 java native 性能 c++ runtime Framework spark EMR 数据结构

OSS 数据湖实践 —— 使用EMR JindoFs Cache提升性能

通过使用JindoFs 的Cache功能,加速作业计算,减小OSS带宽需求,优化作业架构。

OSS 性能 配置 集群 Cache 数据分析 aliyun e-mapreduce EMR Hive

OSS数据湖实践——EMR + Hive + OSS案例

构建基于OSS数据源的EMR大数据计算环境,使用Hive分析工具,实现简单的大数据分析案例。

架构 OSS js 数据仓库 集群 BY e-mapreduce string EMR Hive Group csv

OSS数据湖实践——EMR + Flink + OSS案例

构建基于OSS数据源的EMR大数据计算环境,使用Flink大数据计算引擎,实现简单的大数据分析案例。

OSS hadoop Apache 集群 云存储 spark scala API string EMR 大数据分析

OSS数据湖实践——EMR + Spark + OSS案例

构建基于OSS数据源的EMR大数据计算环境,使用Spark大数据计算引擎,实现简单的大数据分析案例。

大数据 OSS hadoop SQL Apache 集群 云存储 spark EMR csv Bash 大数据分析

OSS 数据湖实践 —— EMR+OSS入门

基于阿里云面向对象存储(OSS) 技术优势,利用EMR的计算能力,把二者结合起来,快速搭建大数据计算环境,实现大数据分析需求。

大数据 OSS hadoop Json 云服务器 Apache 配置 集群 云存储 spark aliyun 对象存储 e-mapreduce EMR 数据湖

E-MapReduce 4月产品新功能

E-MapReduce 4月份新功能:1.EMR Hadoop集群弹性伸缩支持优雅下线,用户可以在弹性伸缩缩容规则中设置等待时长,降低对缩容task节点任务的影响。2.EMR支持阿里云企业资源组,在不同资源组实现EMR集群的隔离,便于各部门独立成本核算。

hadoop 集群 弹性伸缩 aliyun e-mapreduce EMR JindoFS

10
GO