1. 云栖社区>
  2. 全部标签>
  3. #e-mapreduce#
e-mapreduce

#e-mapreduce#

已有0人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

使用EMR-Kafka Connect进行数据迁移

流式处理中经常会遇到Kafka与其他系统进行数据同步或者Kafka集群间数据迁移的情景。使用EMR Kafka Connect可以方便快速的实现数据同步或者数据迁移。本文介绍使用EMR Kafka Connect的REST API接口在Kafka集群间进行数据迁移。

分布式系统与计算 Apache 数据库 配置 集群 Image 数据迁移 同步 e-mapreduce EMR 数据同步 zookeeper kafka 流式处理

E-MapReduce产品探秘,扩展开源生态云上的能力

E-MapReduce的产品能力介绍,通过EMR来构建高效的云上大数据平台,优化云上的使用成本,更快的计算效率。

云栖社区 编程语言 系统研发与运维 大数据 aliyun e-mapreduce EMR

7月10日直播【E-MapReduce产品探秘,扩展开源生态云上的能力】

E-MapReduce的产品能力介绍,通过EMR来构建高效的云上大数据平台,优化云上的使用成本,更快的计算效率。

安全与风控 数据存储与数据库 系统研发与运维 大数据 aliyun e-mapreduce EMR

钉钉群直播【E-MapReduce产品探秘,快速构建可扩展的高性能大数据平台】

E-MapReduce整体介绍。通过EMR如何构建一个云上的大数据集群,常见的使用场景和硬件选型指南。

nginx 系统软件 数据存储与数据库 大数据 集群 Image 钉钉 e-mapreduce EMR 高性能 安全问道

EMR Spark Runtime Filter性能优化

Join是一个非常耗费资源耗费时间的操作,特别是数据量很大的情况下。一般流程上会涉及底层表的扫描/shuffle/Join等过程, 如果我们能够尽可能的在靠近源头上减少参与计算的数据,一方面可以提高查询性能,另一方面也可以减少资源的消耗(网络/IO/CPU等),在同样的资源的情况下可以支撑更多的查询。

性能 spark e-mapreduce EMR sparksql RuntimeFilter

钉钉群直播【E-MapReduce产品探秘,快速构建可扩展的高性能大数据平台】

E-MapReduce整体介绍。通过EMR如何构建一个云上的大数据集群,常见的使用场景和硬件选型指南。

云栖社区 系统软件 数据存储与数据库 系统研发与运维 大数据 集群 Image 钉钉 e-mapreduce EMR 高性能

钉钉群直播【Structured Steaming的进阶与实践 】

structured steaming因其低时延和提供的SQL API等特性被越来越多的企业所使用,作为实时计算的首选。 本次分享structured steaming的使用,包含spark 2.4 structured streaming的新特性,API原理和使用场景等的介绍。

云栖社区 数据存储与数据库 互联网产品及应用 大数据 SQL 钉钉 spark API e-mapreduce

钉钉群直播【Structured Steaming的进阶与实践】

structured steaming因其低时延和提供的SQL API等特性被越来越多的企业所使用,作为实时计算的首选。 本次分享structured steaming的使用,包含spark 2.4 structured streaming的新特性,API原理和使用场景等的介绍。

nginx 编程语言 移动开发与客户端 大数据 SQL 钉钉 spark API e-mapreduce 安全问道

EMR Spark Relational Cache的执行计划重写

背景 EMR Spark提供的Relational Cache功能,可以通过对数据模型进行预计算和高效地存储,加速Spark SQL,为客户实现利用Spark SQL对海量数据进行即时查询的目的。Relational Cache的工作原理类似物化视图,在用户提交SQL语句时对语句进行分析,并选出可用的预计算结果来加速查询。

Cache spark e-mapreduce EMR Hive aggregate kylin sparksql adhoc RelationalCache Jindo Cube

通过WebUI查看Structured Streaming作业统计信息

从EMR-3.18.1版本开始,EMR将提供Spark Streaming SQL预览版功能。本次作为新特性的一部分,EMR将扩展现有Spark WebUI,支持Structured Streaming Query的统计信息查看。

大数据 SQL 数据处理 开源 spark 流式计算 e-mapreduce 分布式计算 EMR last input

4月23日云栖精选夜读 | 阿里云首次在ASPLOS'19发布重磅论文:揭秘帮助ECS快速迭代的热升级技术

阿里云首次在ASPLOS上发表论文,第24届ACM编程语言和操作系统(ASPLOS'19),于2019年4月13日至17日,在普罗维登斯召开,阿里云高级技术专家郑晓代表团队在会上发表了技术报告。

编程语言 android javascript 程序员 ECS web 开源大数据 e-mapreduce 脚本 云服务 前端开发

使用EMR-Flume同步HDFS audit日志到HDFS

E-MapReduce从3.19.0版本开始对EMR-Flume提供集群管理的功能。通过集群管理功能,可以在Web页面方便的配置和管理Flume Agent。 本文将使用EMR-Flume实时同步HDFS audit日志至HDFS,便于对HDFS操作记录进行离线统计和实时分析。

分布式 大数据 hdfs 日志 高可用 配置 集群 agent Image 同步 e-mapreduce flume 流式系统 audit

使用EMR-Flume同步Kafka数据到HDFS

Flume是一个分布式、可靠和高效的数据汇聚系统,其source、channel和sink的结构设计,不仅实现了数据生产者与消费者的解耦,还提供了数据缓冲的功能。一个比较通用的使用场景是使用Flume将Kafka的数据按照时间分区同步至HDFS,进行实时的流式分析或离线统计。

分布式 大数据 hdfs 性能 配置 集群 agent 负载均衡 同步 aliyun e-mapreduce flume kafka 流式系统

HIVE TopN shuffle 原理

TopN 问题是排序中的一个经典问题。对于一个长度为 m 的数组,取其最大的 n (n

大数据 函数 排序 e-mapreduce Hive index

3月20日云栖精选夜读 | 阿里开源自用 OpenJDK 版本,Java 社区迎来中国力量

阿里开源自用 OpenJDK 版本,Java 社区迎来中国力量 3 月 21 日,阿里巴巴将宣布开源 Alibaba Dragonwell。届时,开发者可通过阿里云开发者中心及 Github 社区下载使用。

云栖社区 分布式 安全 java Cloud 人工智能 spring openjdk 微服务 e-mapreduce 物联网 云架构

如何在E-MapReduce上进行Kafka集群间数据复制

本文介绍如何使用社区的Kafka MirrorMaker工具进行集群间的数据复制。

大数据 实时系统 配置 集群 消息中间件 request 数据迁移 e-mapreduce Consumer 数据同步 test Create zookeeper kafka 流式

使用Ranger对Hive数据进行脱敏

Ranger支持对Hive数据的脱敏处理(Data Masking),它对`select`的返回结果进行脱敏处理,对用户屏蔽敏感信息。

配置 e-mapreduce Hive test Ranger Data-Masking

轻松上云系列之一:本地数据迁移上云

本文档围绕如何将您的本地数据迁移到阿里云,提供了多个场景的迁移实践方案。12月27日新增:物理机平台、VMWare、Xen/KVM/Hyper-V迁移至阿里云ECS

OSS RDS ECS 数据迁移 迁移 e-mapreduce Elasticsearch 云解析 MaxCompute AnalyticDB dts 本地数据 ADAM 在线迁移服务

轻松上云系列之三:阿里云产品间数据迁移

本文档描述如何进行阿里云上跨产品的数据迁移,为您提供了多个场景的实践方案。12月27日新增阿里云ECS实例之间的数据迁移。

redis OSS RDS ECS 数据迁移 迁移 e-mapreduce Elasticsearch 云解析 MaxCompute AnalyticDB dts 本地数据 ADAM 在线迁移服务

轻松上云系列之二:其他云数据迁移至阿里云

本文档围绕如何将您其他云厂商上的数据迁移到阿里云,提供了多个场景的实践方案。12月27日新增各大云厂商数据迁移至阿里云ECS系列。

OSS RDS ECS 数据迁移 迁移 e-mapreduce google 云解析 Azure dts 在线迁移服务 云数据迁移

9
GO