1. 云栖社区>
  2. 全部标签>
  3. #e-mapreduce#
e-mapreduce

#e-mapreduce#

已有0人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

EMR弹性低成本离线大数据分析

布式计算框架系统分别为Hadoop、Spark和Storm, Hadoop可以运用在很多商业应用系统,可以轻松集成结构化、半结构化以及非结构化数据集,Spark采用了内存计算,允许数据载入内存作反复查询,融合数据仓库、流处理和图形计算等多种计算范式,Spark能够与Hadoop 很好地结合,Storm用于处理高速、大型数据流的分布式实时计算系用,为Hadoop添加可靠的实时数据处理能力。

分布式 storm hadoop 数据处理 数据流 数据仓库 系统环境 电商 Image 弹性伸缩 spark 对象存储 e-mapreduce EMR 大数据分析

OSS 数据湖实践 —— 使用EMR JindoFs Cache提升性能

通过使用JindoFs 的Cache功能,加速作业计算,减小OSS带宽需求,优化作业架构。

OSS 性能 配置 集群 Cache 数据分析 aliyun e-mapreduce EMR Hive

OSS数据湖实践——EMR + Hive + OSS案例

构建基于OSS数据源的EMR大数据计算环境,使用Hive分析工具,实现简单的大数据分析案例。

架构 OSS js 数据仓库 集群 BY e-mapreduce string EMR Hive Group csv

OSS 数据湖实践 —— EMR+OSS入门

基于阿里云面向对象存储(OSS) 技术优势,利用EMR的计算能力,把二者结合起来,快速搭建大数据计算环境,实现大数据分析需求。

大数据 OSS hadoop Json 云服务器 Apache 配置 集群 云存储 spark aliyun 对象存储 e-mapreduce EMR 数据湖

E-MapReduce 4月产品新功能

E-MapReduce 4月份新功能:1.EMR Hadoop集群弹性伸缩支持优雅下线,用户可以在弹性伸缩缩容规则中设置等待时长,降低对缩容task节点任务的影响。2.EMR支持阿里云企业资源组,在不同资源组实现EMR集群的隔离,便于各部门独立成本核算。

hadoop 集群 弹性伸缩 aliyun e-mapreduce EMR JindoFS

EMR Spark-SQL性能极致优化揭秘 概览篇

这次的优化里面,还有一个很好玩的优化,就是我们引入的 Native Runtime,如果说上述的优化器优化都是一些特殊 Case 的杀手锏,Native Runtime 就是一个广谱大杀器,根据我们后期统计,引入 Native Runtime,可以普适性的提高 SQL Query 15~20%的 E2E 耗时,这个在TPCDS Perf 里面也是一个很大的性能提升点。

native 性能 c++ runtime spark 开源大数据 e-mapreduce EMR

EMR Spark-SQL性能极致优化揭秘 概览篇

引子 最近阿里云E-MapReduce团队在TPCDS-Perf榜单中提交了最新成绩,相比第二名(其实也是EMR团队于2019年提交的记录),无论从性能还有性价比都取得了2倍+的优秀成绩!详细看 TPCDS Perf 阿里云E-MapReduce团队,除了在产品、易用性、安全性等维度上投入了大量.

云栖社区 分布式系统与计算 native 性能 c++ runtime spark e-mapreduce EMR TPCDS

阿里云EMR计算速度提升2.2倍 连续两年打破大数据领域最难竞赛世界纪录!

4月26日,大数据领域权威竞赛TPC-DS公布了最新结果,阿里云作为全球唯一入选的云计算公司获得第一。值得一提的是,去年阿里云EMR首次打破该竞赛纪录,成为全球首个通过TPC认证的公共云产品。今年在这一基础上,EMR的计算速度提升了2.2倍,连续两年打破了这项大数据领域最难竞赛的世界纪录。

大数据 native OSS hbase 性能 SQL Apache 数据库 数据流 测试 spark e-mapreduce EMR 高性能 存储

在阿里云 E-MapReduce 上使用Data Science集群进行深度学习

Data Science 集群是阿里云 E-MapReduce 在 3.13.0 版本以后推出的专门用于机器学习,深度学习的新的机型。客户可以通过 Data Science 集群选用 GPU 或者 CPU 机型对数据进行训练,训练的数据可以存储在 HDFS 和 OSS 上,目前支持 TensorFlow 进行分布式训练,方便用户开发基于大数据存储,分布式调度的深度学习应用。

深度学习 分布式

关于云原生分布式计算和存储引擎JindoFS,看这一篇就够了

本文集合了JindoFS相关的文章介绍和视频链接。

大数据 架构 性能 云栖大会 集群 数据分析 spark aliyun e-mapreduce 分布式计算 EMR 存储

E-MapReduce弹性低成本离线大数据分析

基于阿里云的E-MapReduce(EMR) 、对象存储OSS、日志服务SLS、抢占式ECS实例构建弹性、低成本的计算与存储分离架构的海量离线大数据分析日志分析系统。

大数据 hadoop 数据仓库 系统环境 电商 Image 数据分析 钉钉 spark 开源大数据 e-mapreduce 分布式计算 离线计算 日志分析 大数据分析

阿里云智能事业群 EMR团队招人啦!

加入我们,成为分布式存储,计算和调度等领域的专家,与众多业界和社区技术专家一起工作,加速大数据上云,投身数字时代新基建。

大数据 飞天 hadoop Apache 弹性计算 spark 开源大数据 对象存储 e-mapreduce 云服务 EMR Hive 专有云 分布式存储 大数据分析

自建 Hadoop 数据迁移到阿里云EMR集群

客户在 IDC 或者公有云环境自建 Hadoop 集群,数据集中保存在 HDFS文件系统用于数据分析任务。客户在决定上云之后,会将自建 Hadoop 集群的数据迁移到阿里云自建 Hadoop 集群或者 EMR 集群。本实践方案提供安全和低成本的 HDFS 数据迁移方案。

hdfs hadoop 云服务器 集群 vpn Image 数据迁移 数据分析 对象存储 e-mapreduce EMR 公共云

自建 ElasticSearch 迁移阿里云

以 ElasticSearch 为例,演示搭建模拟业务系统、VPN 网关和 IPSec VPN 隧道,介绍如何通备份到阿里云 OSS 存储空间,以及介绍如果将备份在 OSS 的快照仓库恢复到阿里云 ElasticSearch 实例,进一步达到 ElasticSearch 迁移上云的目的。

hadoop 云服务器 集群 Image 数据迁移 数据分析 对象存储 e-mapreduce EMR Elasticsearch 公共云

云计算学习从入门到实践(视频干货)

云计算是什么呢?从业相关者应该如何入门与学习云计算?企业又如何选择阿里云云产品来支持自己的业务形态?看行业大咖如何利用云产品来整合及优化自己的架构?超过三十节课,数十位阿里专家倾情奉献,一一为您解答! 点我领取阿里云2000元代金券,(阿里云优惠券的作用:购买阿里云产品,最后支付结算的时候,阿里云优惠券可抵扣一部分费用。

大数据 架构 云服务器 高可用 云存储 游戏云 负载均衡 阿里云服务器 aliyun 云数据库 对象存储 e-mapreduce 分布式计算 云平台 驴妈妈

DataWorksV3.0全新发布,新特性快速一览

DataWorks V3.0全新升级了多引擎架构,在MaxCompute的基础之上,全新支持了开源大数据引擎E-MapReduce、实时计算(Flink)、交互式分析、图计算服务(Graph Compute)。

大数据 数据分析 aliyun 开源大数据 e-mapreduce 插件 html MaxCompute 可视化报表

自建Hive数据仓库跨版本迁移到阿里云E-MapReduce

客户在IDC或者公有云环境自建Hadoop集群,数据集中保存在HDFS文件系统,同时借助Hive进行ETL任务。客户在决策上云之后,会将自建Hadoop集群的数据迁移到阿里云E-MapReduce集群。

架构 mysql hadoop 云服务器 数据库 配置 镜像 安全组 数据仓库 集群 Image 数据迁移 控制台 e-mapreduce Hive

手动搭建Gateway连接阿里云E-MapReduce

本文介绍用户自建gateway连接阿里云EMR的一种方案

java hadoop 安全组 集群 e-mapreduce 脚本 EMR Hive input

11
GO