E-MapReduce助力建设企业级数据仓库-阿里云开发者社区

E-MapReduce助力建设企业级数据仓库

2018-11-05 1169

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云数据库 Tair（兼容Redis），内存型 2GB

云原生多模数据库 Lindorm，多引擎多规格 0-4节点

Redis 开源版，标准版 2GB

简介：

概述

对于大部分的企业，数据一般存在两个地方，一个是业务数据库，一个是日志。一般来讲，数据库数据容量有限，对于历史标记删除的记录一般会做定时清理，但是这些数据往往还是很有价值的。数据库计算能力也有限，如果要做一些数据分析，则会浪费宝贵的计算资源。
一些数据分析会横跨不能的部门，不同的业务线，往往需要不同DB之间，甚至需要跟日志做一些关联，这时就会有一个新的部门，数据仓库部门或者数据分析部门。此部门需要做第一件事情就是需要把不同的业务线的数据统统收集到一个中心。以往选择数据处理技术往往是一些商业的数据仓库。在Hadoop技术来临之后，由于其易用性、高度扩展性、低成本的优势，受到了越来越多的公司使用。本文将简单介绍使用E-MapReduce建设数据仓库。

建立数据仓库

大致的架构如下图所示：

在RDS mysql部分的数据，可以每天晚上同步一次全量的数据到离线存储中，使用emapreduce sqoop，按照日期建立分区。
查询时，可以按照

select count(*) form cluster where ds='2016-08-28'
        
          
        
        
        
          
          AI 代码解读

日志数据可以采取logservice同步到OSS中，或者使用flume同步到emapreduce hdfs中。也是按照日期做分区。

日志收集好后，就可以采取hive或者spark引擎分析日志了，比如出报表，则可以把算完的数据插入到emapreduce hbase中或者RDS mysql中，再通过阿里云提供的quick bi出报表。每天早上就可以看到前一天的业务状况等信息了。

作业执行

同步作业及分析作业可以采取阿里云emapreduce提供的执行计划来运行，可以新建一个执行计划，串联多个作业，当同步作业完成后，就开始分析作业。这里还提供了作业失败报警，启动超时报警等实用功能。

HBase技术交流社区 - 阿里官方“HBase生态+Spark社区大群”点击加入：https://dwz.cn/Fvqv066s

相关实践学习

如何快速连接云数据库RDS MySQL

本场景介绍如何通过阿里云数据管理服务DMS快速连接云数据库RDS MySQL，然后进行数据表的CRUD操作。

全面了解阿里云能为你做什么

阿里云在全球各地部署高效节能的绿色数据中心，利用清洁计算为万物互联的新世界提供源源不断的能源动力，目前开服的区域包括中国（华北、华东、华南、香港）、新加坡、美国（美东、美西）、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程，来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品：云服务器ECS 云服务器 ECS（Elastic Compute Service）是一种弹性可伸缩的计算服务，助您降低 IT 成本，提升运维效率，使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs

E-MapReduce助力建设企业级数据仓库

概述

建立数据仓库

作业执行

NoSQL数据库

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

E-MapReduce助力建设企业级数据仓库

概述

建立数据仓库

作业执行

NoSQL数据库

热门文章

最新文章

相关课程

相关电子书

相关实验场景