OSS数据湖实践——EMR + Hive + OSS案例

2020-05-26 2362

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

对象存储 OSS，20GB 3个月

对象存储 OSS，恶意文件检测 1000次 1年

对象存储 OSS，内容安全 1000次 1年

简介： 构建基于OSS数据源的EMR大数据计算环境，使用Hive分析工具，实现简单的大数据分析案例。

Hive是一种建立在Hadoop文件系统上的数据仓库架构，并对存储在HDFS中的数据进行分析和管理；本文通过一个简单的示例来展现如何结合OSS+EMR+Hive来分析OSS上的数据。

前提条件

• 已注册阿里云账号，详情请参见注册云账号。
• 已开通E-MapReduce服务和OSS服务。
• 已完成云账号的授权，详情请参见角色授权。
• 已创建Haoop集群，且带有Hive组件, 且配置好OSS数据源。

步骤一：上传数据至OSS

hadoop fs -put course.csv oss://your-bucket-name/

步骤二：创建Hive作业开发页面

1589442729443_30a77d9f_a248_4cff_860e_c247b9ff5051

步骤三：SQL 实现

创建数据表

CREATE TABLE course (num INT, subject string, level string) row format delimited fields terminated by "," location "/";

导入数据

LOAD DATA INPATH 'oss：//your-bucket-name/course.csv' INTO TABLE course;

查询语句

select A.suject, A.level, A.count from (select suject, level, count(*) 
as count  from course group by suject , level) A join (select B.suject as suject, 
max(B.count) as count from (select suject, level, count(*) as count  from course 
group by suject , level) B group by B.suject ) C on A.suject=C.suject and A.count = C.count;

步骤四：查看日志和结果

1589454637317_67a1eb3a_c510_4587_bf74_38c127d9d84b
1589454662531_58b3c7dd_2564_41a0_a5ab_0d4c25a7bdca

步骤五：总结

通过该实例，能够了解从数据上传至OSS到在EMR集群上使用hive 分析该数据的整个过程，为深入学习和使用奠定基础。

OSS数据湖实践——EMR + Hive + OSS案例

前提条件

步骤一：上传数据至OSS

步骤二：创建Hive作业开发页面

步骤三：SQL 实现

步骤四：查看日志和结果

步骤五：总结

热门文章

最新文章

相关课程

相关电子书

相关实验场景