1. 云栖社区>
  2. 全部标签>
  3. #EMR#
EMR

#EMR#

已有0人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

浅析Hive/Spark SQL读文件时的输入任务划分

Hive以及Spark SQL等大数据计算引擎为我们操作存储在HDFS上结构化数据提供了易于上手的SQL接口,大大降低了ETL等操作的门槛,也因此在实际生产中有着广泛的应用。SQL是非过程化语言,我们写SQL的时候并不能控制具体的执行过程,它们依赖执行引擎决定。

大数据 hadoop SQL 开源 spark scala EMR Hive file big data sparksql

EMR弹性低成本离线大数据分析

布式计算框架系统分别为Hadoop、Spark和Storm, Hadoop可以运用在很多商业应用系统,可以轻松集成结构化、半结构化以及非结构化数据集,Spark采用了内存计算,允许数据载入内存作反复查询,融合数据仓库、流处理和图形计算等多种计算范式,Spark能够与Hadoop 很好地结合,Storm用于处理高速、大型数据流的分布式实时计算系用,为Hadoop添加可靠的实时数据处理能力。

分布式 storm hadoop 数据处理 数据流 数据仓库 系统环境 电商 Image 弹性伸缩 spark 对象存储 e-mapreduce EMR 大数据分析

自建 Hadoop 数据迁移到阿里云EMR集群

客户在 IDC 或者公有云环境自建 Hadoop 集群,数据集中保存在 HDFS文件系统用于数据分析任务。客户在决定上云之后,会将自建 Hadoop 集群的数据迁移到阿里云自建 Hadoop 集群或者 EMR 集群。本实践方案提供安全和低成本的 HDFS 数据迁移方案。

安全 hdfs hadoop 云服务器 集群 vpn Image 数据迁移 数据分析 对象存储 e-mapreduce EMR 公共云

自建 ElasticSearch 迁移阿里云

以 ElasticSearch 为例,演示搭建模拟业务系统、VPN 网关和 IPSec VPN 隧道,介绍如何通备份到阿里云 OSS 存储空间,以及介绍如果将备份在 OSS 的快照仓库恢复到阿里云 ElasticSearch 实例,进一步达到 ElasticSearch 迁移上云的目的。

安全 hadoop 云服务器 集群 Image 数据迁移 数据分析 对象存储 e-mapreduce EMR Elasticsearch 公共云

自建Hive数据仓库迁移到阿里云EMR

客户在IDC或者公有云环境自建Hadoop集群构建数据仓库和分析系统,购买阿里云EMR集群之后,涉及到将数据仓库和Hive元数据的数据库迁移上云。

数据库 数据仓库 集群 Image 数据迁移 弹性计算 对象存储 数据库迁移 EMR Hive Mapreduce 公共云

2019年Apache Spark技术交流社区原创文章回顾

整理了这一年分享过的来自诸多专家的实践经验,希望2020年我们仍然能够互相支持,壮大Spark社区。

大数据 SQL Apache Cache 数据分析 spark aliyun 开源大数据 EMR 存储

2019年Apache Spark技术交流社区原创文章回顾

整理了这一年分享过的来自诸多专家的实践经验,希望2020年我们仍然能够互相支持,壮大Spark社区。

大数据 SQL Apache Cache 数据分析 spark aliyun 开源大数据 EMR 存储

自建Hadoop数据迁移到阿里云EMR

客户在IDC或者公有云环境自建Hadoop集群,数据集中保存在HDFS文件系统用于数据分析任务。客户在决定上云之后,会将自建Hadoop集群的数据迁移到阿里云自建部署架构图 Hadoop集群或者EMR集群。本实践方案提供安全和低成本的HDFS数据迁移方案。

hdfs hadoop ECS 日志 Apache 配置 镜像 安全组 集群 vpn 系统盘 Image 数据迁移 控制台 EMR

手动搭建Gateway连接阿里云E-MapReduce

本文介绍用户自建gateway连接阿里云EMR的一种方案

java hadoop 安全组 集群 e-mapreduce 脚本 EMR Hive input

1月9日社区直播【使用Apache SuperSet和EMR Spark打造交互式的数据探索平台】

本次分享主要介绍如何结合Apache SuperSet和EMR Spark,利用EMR Spark提供的JindoCube高级特性在SuperSet进行秒级响应,交互式的可视化数据探索。

Apache 钉钉 spark aliyun EMR

Tablestore+Delta Lake(快速开始)

本文介绍如何在E-MapReduce中通过Tablestore Spark Streaming Source将TableStore中的数据实时导入到Delta Lake中。 背景介绍 近些年来HTAP(Hybrid transaction/analytical processing)的热度越来越高,通过将存储和计算组合起来,既能支持传统的海量结构化数据分析,又能支持快速的事务更新写入,是设计数据密集型系统的一个成熟的架构。

TableStore hadoop 集群 主机 同步 spark aliyun e-mapreduce EMR 数据同步 表格存储 source 数据湖 deltalake

通过EMR Spark Streaming实时读取Tablestore数据

本文将介绍如何在E-MapReduce中实时流式的处理Tablestore中的数据。 场景设计 随着互联网的发展,企业中积累的数据越来越多,数据的背后隐藏着巨大的价值,在双十一这样的节日中,电子商务企业都会在大屏幕上实时显示订单总量,由于订单总量巨大,不可能每隔一秒就到数据库中进行一次SQL统计,此时就需要用到流计算,而传统的方法都是需要借助Kafka消息队列来做流式计算,数据订单需要写入数据库与Kafka中,Spark Streaming 消费来自Kafka中的订单信息。

TableStore hadoop 集群 主机 spark aliyun e-mapreduce string EMR type sparkstreaming datasource 通道服务

Spark Operator浅析

Spark Operator浅析 本文介绍Spark Operator的设计和实现相关的内容. Spark运行时架构 经过近几年的高速发展,分布式计算框架的架构逐渐趋同. 资源管理模块作为其中最通用的模块逐渐与框架解耦,独立成通用的组件.

架构 监控 配置 集群 Image spark e-mapreduce string 分布式计算 Driver EMR k8s operator

AnalyticDB for PostgreSQL 黑科技解析 - 列存储 Meta Scan 性能加速

本文介绍阿里云 AnalyticDB for PostgreSQL(原HybridDB for PostgreSQL) 产品,即 MPP 数据仓库服务,其列存储 meta scan机制,及其对 分析场景的性能提升。

PostgreSQL RDS 性能 数据库 数据仓库 ads EMR adb MaxCompute AnalyticDB

使用Spark Streaming SQL进行PV/UV统计

PV/UV统计是流式分析一个常见的场景。通过PV可以对访问的网站做流量或热点分析,例如广告主可以通过PV值预估投放广告网页所带来的流量以及广告收入。另外一些场景需要对访问的用户作分析,比如分析用户的网页点击行为,此时就需要对UV做统计。

云栖社区 分布式 大数据 redis 分布式系统与计算 实时系统 SQL 日志 spark EMR big data 流式分析 Streaming

EMR上如何进行流式SQL调试

本文将简单介绍EMR提供的一个流式SQL调试工具。

大数据 分布式系统与计算 SQL 控制台 spark EMR Create page 开源计算 流式SQL

EMR 升级Hadoop 2.8.5

信息摘要: EMR 提供Hadoop 2.8.5,方便开发者使用新版Hadoop功能。适用客户: 所有客户版本/规格功能: EMR-3.18.0及以后版本,Hadoop升级为2.8.5,开发者可以方便地使用新版Hadoop的功能。

hadoop aliyun EMR html

EMR 最新版 EMR-3.22.0 发布

信息摘要: EMR 升级到 EMR-3.22.0,包含多项重大更新及新增组件。适用客户: 所有客户版本/规格功能: EMR-3.22.0 发布多项重大更新,新增包括 Kudu、OpenLDAP,Spark新增支持 delta datasource。

spark aliyun EMR html

9
GO