1. 云栖社区>
  2. 全部标签>
  3. #EMR#
EMR

#EMR#

已有0人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

2019年Apache Spark技术交流社区原创文章回顾

整理了这一年分享过的来自诸多专家的实践经验,希望2020年我们仍然能够互相支持,壮大Spark社区。

大数据 SQL Apache Cache 数据分析 spark aliyun 开源大数据 EMR 存储

自建Hadoop数据迁移到阿里云EMR

客户在IDC或者公有云环境自建Hadoop集群,数据集中保存在HDFS文件系统用于数据分析任务。客户在决定上云之后,会将自建Hadoop集群的数据迁移到阿里云自建部署架构图 Hadoop集群或者EMR集群。本实践方案提供安全和低成本的HDFS数据迁移方案。

hdfs hadoop ECS 日志 Apache 配置 镜像 安全组 集群 vpn 系统盘 Image 数据迁移 控制台 EMR

手动搭建Gateway连接阿里云E-MapReduce

本文介绍用户自建gateway连接阿里云EMR的一种方案

java hadoop 安全组 集群 e-mapreduce 脚本 EMR Hive input

1月9日社区直播【使用Apache SuperSet和EMR Spark打造交互式的数据探索平台】

本次分享主要介绍如何结合Apache SuperSet和EMR Spark,利用EMR Spark提供的JindoCube高级特性在SuperSet进行秒级响应,交互式的可视化数据探索。

Apache 钉钉 spark aliyun EMR

Tablestore+Delta Lake(快速开始)

本文介绍如何在E-MapReduce中通过Tablestore Spark Streaming Source将TableStore中的数据实时导入到Delta Lake中。 背景介绍 近些年来HTAP(Hybrid transaction/analytical processing)的热度越来越高,通过将存储和计算组合起来,既能支持传统的海量结构化数据分析,又能支持快速的事务更新写入,是设计数据密集型系统的一个成熟的架构。

TableStore hadoop 集群 主机 同步 spark aliyun e-mapreduce EMR 数据同步 表格存储 source 数据湖 deltalake

通过EMR Spark Streaming实时读取Tablestore数据

本文将介绍如何在E-MapReduce中实时流式的处理Tablestore中的数据。 场景设计 随着互联网的发展,企业中积累的数据越来越多,数据的背后隐藏着巨大的价值,在双十一这样的节日中,电子商务企业都会在大屏幕上实时显示订单总量,由于订单总量巨大,不可能每隔一秒就到数据库中进行一次SQL统计,此时就需要用到流计算,而传统的方法都是需要借助Kafka消息队列来做流式计算,数据订单需要写入数据库与Kafka中,Spark Streaming 消费来自Kafka中的订单信息。

TableStore hadoop 集群 主机 spark aliyun e-mapreduce string EMR type sparkstreaming datasource 通道服务

Spark Operator浅析

Spark Operator浅析 本文介绍Spark Operator的设计和实现相关的内容. Spark运行时架构 经过近几年的高速发展,分布式计算框架的架构逐渐趋同. 资源管理模块作为其中最通用的模块逐渐与框架解耦,独立成通用的组件.

架构 监控 配置 集群 Image spark e-mapreduce string 分布式计算 Driver EMR k8s operator

AnalyticDB for PostgreSQL 黑科技解析 - 列存储 Meta Scan 性能加速

本文介绍阿里云 AnalyticDB for PostgreSQL(原HybridDB for PostgreSQL) 产品,即 MPP 数据仓库服务,其列存储 meta scan机制,及其对 分析场景的性能提升。

PostgreSQL RDS 性能 数据库 数据仓库 ads EMR adb MaxCompute AnalyticDB

使用Spark Streaming SQL进行PV/UV统计

PV/UV统计是流式分析一个常见的场景。通过PV可以对访问的网站做流量或热点分析,例如广告主可以通过PV值预估投放广告网页所带来的流量以及广告收入。另外一些场景需要对访问的用户作分析,比如分析用户的网页点击行为,此时就需要对UV做统计。

云栖社区 分布式 大数据 redis 分布式系统与计算 实时系统 SQL 日志 spark EMR big data 流式分析 Streaming

EMR上如何进行流式SQL调试

本文将简单介绍EMR提供的一个流式SQL调试工具。

大数据 分布式系统与计算 SQL 控制台 spark EMR Create page 开源计算 流式SQL

EMR 升级Hadoop 2.8.5

信息摘要: EMR 提供Hadoop 2.8.5,方便开发者使用新版Hadoop功能。适用客户: 所有客户版本/规格功能: EMR-3.18.0及以后版本,Hadoop升级为2.8.5,开发者可以方便地使用新版Hadoop的功能。

hadoop aliyun EMR html

EMR 最新版 EMR-3.22.0 发布

信息摘要: EMR 升级到 EMR-3.22.0,包含多项重大更新及新增组件。适用客户: 所有客户版本/规格功能: EMR-3.22.0 发布多项重大更新,新增包括 Kudu、OpenLDAP,Spark新增支持 delta datasource。

spark aliyun EMR html

Virgin Hyperloop One如何使用Koalas将处理时间从几小时降到几分钟--无缝的将pandas切换成Apache Spark指南

Virgin Hyperloop One(超级高铁公司)是一家从事超级高铁研究的公司,致力于能让高铁达到飞机的速度并且拥有更低的成本。为了能够制造一个商业的系统,我们需要收集并且分析非常大量的各种不同的数据,包括各种运行测试数据,多种模拟数据,技术设施数据,甚至社会经济数据等等。

云栖社区 深度学习 分布式 机器学习 性能 Apache 测试 spark DataFrame pandas 脚本 EMR timestamp

列式存储系列(二): Vertica

本文就 Vertica 的数据模型、存储、执行引擎以及这几个方面与 C-Store 的区别进行了简单的介绍。总的来说,Vertica 是一个纯正的列式存储数据库,为此,Vertica 设计实现了 projection 这一数据模型,并围绕该模型设计实现了一套大数据分析管理引擎。

数据存储与数据库 移动开发与客户端 大数据 数据库 排序 spark HASH ROS EMR 存储

玩转阿里云EMR三部曲-高级篇 交互式查询及统一数据源

利用阿里云EMR生态定制化集群,实现数据仓库满足商业/运营的查询需求,并提供横向扩展提升性能的空间,结合多样服务达到数据交互查询及统一数据源下的最佳成本控制。

nginx 安全与风控 数据存储与数据库 移动开发与客户端 大数据 架构 MongoDB 域名 mysql 集群 控制台 spark 运营 EMR 磁盘

玩转阿里云EMR三部曲-中级篇 集成自有服务

利用EMR引导操作可以使用自定义脚本安装任意自有服务和环境,隔离计算和生产资源,并在极致成本控制下最大化并发和可扩展性。完整的自定义设计可以满足任意自有服务构建的集成需要。

安全与风控 移动开发与客户端 大数据 架构 OSS 高并发 配置 集群 弹性伸缩 钉钉 spark solr 脚本 EMR 安全问道

使用资源编排服务(ROS)轻松玩转E-MapReduce(EMR)

前言 如果您还没有听说过资源编排服务(ROS),那么恭喜您,本文将带您走进一个新的世界,学习资源管理的新姿势。 当您在使用E-MapReduce(EMR)时,是否想过使用OpenAPI或者是SDK来创建实例?是否为太多的参数感到困扰,为不一样的参数名称形态看到困惑?尤其是要通过代码管理整个实例的生命周期感到烦恼? 但您本不该为此烦恼,不是吗? 其实您只是想创建若干个资源,您不想关心应该调用

hadoop 资源编排 VPC ECS 阿里技术协会 cluster 安全组 集群 控制台 aliyun e-mapreduce string ROS EMR

玩转阿里云EMR三部曲-高级篇 交互式查询及统一数据源

玩转阿里云EMR三部曲-高级篇 交互式查询及统一数据源 作者:邓力,entobit技术总监,八年大数据从业经历,由一代HADOOP入坑,深耕云计算应用领域,由从事亚马逊EMR和阿里云EMR应用开发逐步转入大数据架构领域,对大数据生态及框架应用有深刻理解。

大数据 架构 分布式系统与计算 MongoDB 域名 mysql 集群 控制台 aliyun 运营 EMR Hive 磁盘

11
GO