1. 云栖社区>
  2. 全部标签>
  3. #Mapreduce#
Mapreduce

#Mapreduce#

已有1人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

自建Hive数据仓库迁移到阿里云EMR

客户在IDC或者公有云环境自建Hadoop集群构建数据仓库和分析系统,购买阿里云EMR集群之后,涉及到将数据仓库和Hive元数据的数据库迁移上云。

数据库 数据仓库 集群 Image 数据迁移 弹性计算 对象存储 数据库迁移 EMR Hive Mapreduce 公共云

Flink 1.10 和 Hive 3.0 性能对比(附 Demo 演示 PPT)

Flink 作为一个统一的计算引擎,旨在提供统一的流批体验以及技术栈。Flink 在 1.9 合并了 Blink 的代码,并在 1.10 中完善了大量的功能以及性能,可以运行所有 TPC-DS 的查询,性能方面也很有竞争力,Flink 1.10 是一个生产可用的、批流统一的 SQL 引擎版本。

大数据 性能 集群 测试 Hive demo Mapreduce 流计算 flink 实时计算 批流一体

MaxCompute 搬站的原理、实践以及常见问题

本文主要介绍了Hadoop到MaxCompute数据迁移的多种方式及其原理和适用场景,并着重介绍了使用MaxCompute Migrate Assist (MMA)进行数据迁移时的常见问题及解法。

大数据 java hdfs hadoop SQL Apache 配置 集群 Hive 带宽 Mapreduce MaxCompute

F1 Query: Declarative Querying at Scale

2013 年的 F1 是基于 Spanner,主要提供 OLTP 服务,而新的 F1 则定位则是大一统:旨在处理 OLTP/OLAP/ETL 等多种不同的 workload。但是这篇新的 F1 论文对 OLTP 的讨论则是少之又少,据八卦是 Spanner 开始原生支持之前 F1 的部分功能,导致 F1 对 OLTP 的领地被吞并了。

分布式 SQL 数据处理 Image Server google Mapreduce 存储 fragment

使用函数工作流+函数计算轻松构建 ETL 离线数据处理系统

随着云计算、人工智能、物联网等新技术的应用普及,人类产生的数据呈现出了爆发式增长的态势,对数据处理的需求能力也提出了越来越高的要求。数据成了重要资产,收集、处理数据的能力成为了核心竞争力,比如:应用服务的运行监控,运营数据的分析,以及深度学习的数据过滤、预处理等,这些对已有数据的处理能力将直接影响服务的运营效率。

etl 数据处理 Mapreduce 函数计算 函数工作流

揭秘“撩”大数据的正确姿势:生动示例解说大数据“三驾马车”

谷歌三驾马车如何解决海量数据存储与计算问题。

大数据 架构 模块 Image 分布式文件系统 Mapreduce 存储 海量数据

实践Hadoop MapReduce 任务的性能翻倍之路

eBay每天产生PB量级的CAL日志,其数据量每天都在增加。对于日益增长的数据量,Hadoop MapReduce job的优化将会大大节省计算资源。本文将分享eBay团队如何对这些Hadoop job进行优化,希望为开发者带来启发,解决Hadoop MapReduce(MR)job实践中存在的问题。

hadoop 性能 SQL 日志 集群 Image Mapreduce

MaxCompute按量计费计算任务消费监控告警

如何通过云监控配置MaxCompute按量计费计算任务消费监控告警

监控 SQL 配置 弹性伸缩 钉钉 控制台 aliyun Mapreduce MaxCompute 按量计费

Spark快速入门(72集视频+源码+笔记)

Spark快速入门(72集视频+源码+笔记)1、什么是Spark?Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

大数据 算法 hadoop 源码 配置 集群 Maven 数据分析 数据挖掘 spark 编程 Mapreduce IDEA

Spark最佳实践

前言 本文主要分为四个部分: 分布式计算概览:第一章将会从基础的 分布式计算理论 开始,讨论一个分布式计算系统需要实现哪些 主要的功能,以及业界通用的解决方案,并在最后简单扩展了下分布式计算系统的发展历程。

内存管理 spark 分布式计算 磁盘 Mapreduce

Apache Flink 进阶(八):详解 Metrics 原理与实战

Flink 提供的 Metrics 可以在 Flink 内部收集一些指标,通过这些指标让开发人员更好地理解作业或集群的状态。由于集群运行后很难发现内部的实际状况,跑得慢或快,是否异常等,开发人员无法实时查看所有的 Task 日志,比如作业很大或者有很多作业的情况下,该如何处理?此时 Metrics 可以很好的帮助开发人员了解作业的当前状况。

大数据 监控 性能 线程 Apache 数据处理 Group Mapreduce 自动化运维 流计算 实时计算 Metrics ApacheFlink

90
GO