1. 云栖社区>
  2. 全部标签>
  3. #e-mapreduce#
e-mapreduce

#e-mapreduce#

已有0人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

数据湖构建服务搭配Delta Lake玩转CDC实时入湖

什么是CDC Change Data Capture(CDC)用来跟踪捕获数据源的数据变化,并将这些变化同步到目标存储(如数据湖或数据仓库),用于数据备份或后续分析,同步过程可以是分钟/小时/天等粒度,也可以是实时同步。

性能 SQL Image 同步 spark 解决方案 e-mapreduce 数据同步 test binlog 存储

EMR本地盘实例大规模数据集测试

阿里云最佳实践频道:【点击查看更多上云最佳实践】这里有丰富的企业上云最佳实践,从典型场景入门,提供一系列项目实践方案,降低企业上云门槛的同时满足您的需求! 场景描述 阿里云为了满足大数据场景下的存储需求,在云上推出了本地盘D1机型,这个系列提供了本地盘而非云盘作为存储,提高了磁盘的吞吐能力,发挥Hadoop的就近计算优势。

大数据 高可用 测试 数据迁移 云盘 aliyun e-mapreduce EMR 磁盘 自动化运维 存储

EMR弹性低成本离线大数据分析

阿里云最佳实践频道:【点击查看更多上云最佳实践】这里有丰富的企业上云最佳实践,从典型场景入门,提供一系列项目实践方案,降低企业上云门槛的同时满足您的需求! 场景描述 基于阿里云的E-MapReduce(EMR) 、对象存储OSS、日志服务SLS、抢占式ECS实例构建弹性、低成本的计算与存储分离架构的海量离线大数据分析日志分析系统。

大数据 架构 OSS ECS 日志 SLS 负载均衡 弹性计算 aliyun 对象存储 e-mapreduce EMR 离线分析 存储 大数据分析

使用 E-MapReduce 构建云上数据胡

本篇来自于阿里巴巴E-MapReduce(简称为EMR)产品经理子关,分享云上使用E-MapReduce快速构建企业数据湖的落地方案以及客户最佳实践。

深度学习 大数据 架构 飞天 OSS hdfs 性能 集群 弹性伸缩 对象存储 e-mapreduce EMR 权限管理 存储

一文告诉你什么是E-MapReduce

阿里云E-MapReduce(Elastic MapReduce),是运行在阿里云平台上的一种大数据处理的系统解决方案。

大数据 hadoop 云服务器 Apache 性能监控 配置 集群 spark 流式计算 aliyun 解决方案 e-mapreduce 数据存储

EMR弹性低成本离线大数据分析

布式计算框架系统分别为Hadoop、Spark和Storm, Hadoop可以运用在很多商业应用系统,可以轻松集成结构化、半结构化以及非结构化数据集,Spark采用了内存计算,允许数据载入内存作反复查询,融合数据仓库、流处理和图形计算等多种计算范式,Spark能够与Hadoop 很好地结合,Storm用于处理高速、大型数据流的分布式实时计算系用,为Hadoop添加可靠的实时数据处理能力。

分布式 storm hadoop 数据处理 数据流 数据仓库 系统环境 电商 Image 弹性伸缩 spark 对象存储 e-mapreduce EMR 大数据分析

OSS 数据湖实践 —— 使用EMR JindoFs Cache提升性能

通过使用JindoFs 的Cache功能,加速作业计算,减小OSS带宽需求,优化作业架构。

OSS 性能 配置 集群 Cache 数据分析 aliyun e-mapreduce EMR Hive

OSS数据湖实践——EMR + Hive + OSS案例

构建基于OSS数据源的EMR大数据计算环境,使用Hive分析工具,实现简单的大数据分析案例。

架构 OSS js 数据仓库 集群 BY e-mapreduce string EMR Hive Group csv

OSS 数据湖实践 —— EMR+OSS入门

基于阿里云面向对象存储(OSS) 技术优势,利用EMR的计算能力,把二者结合起来,快速搭建大数据计算环境,实现大数据分析需求。

大数据 OSS hadoop Json 云服务器 Apache 配置 集群 云存储 spark aliyun 对象存储 e-mapreduce EMR 数据湖

E-MapReduce 4月产品新功能

E-MapReduce 4月份新功能:1.EMR Hadoop集群弹性伸缩支持优雅下线,用户可以在弹性伸缩缩容规则中设置等待时长,降低对缩容task节点任务的影响。2.EMR支持阿里云企业资源组,在不同资源组实现EMR集群的隔离,便于各部门独立成本核算。

hadoop 集群 弹性伸缩 aliyun e-mapreduce EMR JindoFS

EMR Spark-SQL性能极致优化揭秘 概览篇

这次的优化里面,还有一个很好玩的优化,就是我们引入的 Native Runtime,如果说上述的优化器优化都是一些特殊 Case 的杀手锏,Native Runtime 就是一个广谱大杀器,根据我们后期统计,引入 Native Runtime,可以普适性的提高 SQL Query 15~20%的 E2E 耗时,这个在TPCDS Perf 里面也是一个很大的性能提升点。

native 性能 c++ runtime spark 开源大数据 e-mapreduce EMR

EMR Spark-SQL性能极致优化揭秘 概览篇

引子 最近阿里云E-MapReduce团队在TPCDS-Perf榜单中提交了最新成绩,相比第二名(其实也是EMR团队于2019年提交的记录),无论从性能还有性价比都取得了2倍+的优秀成绩!详细看 TPCDS Perf 阿里云E-MapReduce团队,除了在产品、易用性、安全性等维度上投入了大量.

云栖社区 分布式系统与计算 native 性能 c++ runtime spark e-mapreduce EMR TPCDS

阿里云EMR计算速度提升2.2倍 连续两年打破大数据领域最难竞赛世界纪录!

4月26日,大数据领域权威竞赛TPC-DS公布了最新结果,阿里云作为全球唯一入选的云计算公司获得第一。值得一提的是,去年阿里云EMR首次打破该竞赛纪录,成为全球首个通过TPC认证的公共云产品。今年在这一基础上,EMR的计算速度提升了2.2倍,连续两年打破了这项大数据领域最难竞赛的世界纪录。

大数据 native OSS hbase 性能 SQL Apache 数据库 数据流 测试 spark e-mapreduce EMR 高性能 存储

在阿里云 E-MapReduce 上使用Data Science集群进行深度学习

Data Science 集群是阿里云 E-MapReduce 在 3.13.0 版本以后推出的专门用于机器学习,深度学习的新的机型。客户可以通过 Data Science 集群选用 GPU 或者 CPU 机型对数据进行训练,训练的数据可以存储在 HDFS 和 OSS 上,目前支持 TensorFlow 进行分布式训练,方便用户开发基于大数据存储,分布式调度的深度学习应用。

深度学习 分布式

11
GO