Impala储存与分区-阿里云开发者社区

Impala储存与分区

2017-11-13 2591

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

　　hive的元数据存储在/user/hadoop/warehouse

　　 Impala的内部表也在/user/hadoop/warehouse。

　　那两者怎么区分，看前面的第一列。

下面是Impala对文件的格式及压缩类型的支持

　• 添加分区方式
– 1、partitioned by 创建表时，添加该字段指定分区列表
– 2、使用alter table 进行分区的添加和删除操作

create table t_person(id int, name string, age int) partitioned by (type string);
alter table t_person add partition (sex=‘man');
alter table t_person drop partition (sex=‘man');
alter table t_person drop partition (sex=‘man‘,type=‘boss’);

　　• 分区内添加数据

insert into t_person partition (type='boss') values (1,’zhangsan’,18),(2,’lisi’,23)
insert into t_person partition (type='coder') values(3,wangwu’,22),(4,’zhaoliu’,28),(5,’tianqi’,24)

　　• 查询指定分区数据

select id,name from t_person where type=‘coder

进行数据分区将会极大的提高数据查询的效率，尤其是对于当下大数据的运用，是一门不可或缺的知识。那数据怎么创建分区呢？数据怎样加载到分区

一、 Impala/Hive按State分区Accounts

　　（1）示例：accounts是非分区表

　　通过以上方式创建的话，数据就存放在accounts目录里面。那么，如果Loudacre大部分对customer表的分析是按state来完成的？比如：

　　这种情况下如果数据量很大，为了避免全表扫描的发生，我们可以去创建分区。如果不创建分区的话，它会默认所有查询不得不扫描目录的所有文件。创建分区按state将数据存储到不同的子目录，当按照“NY”的条件进行查询的时候，它只会扫描到子目录，下面我具体来看一下分区创建。

二、分区创建

（1）使用PARTITIONED BY来创建分区表

　　在这里注意state是被删除掉的，因为它作为分区字段，我们知道分区数据是不会出现在实际的文件当中的，所以state作为分区字段是不会出现在列当中的。换句话说，分区键就是一个虚列，它是不会存在列当中的。那么，如何去查看我们分区的列呢？它会出现在我们的结构当中吗？会的。

三、查看分区列

　　使用DESCRIBE显示分区列，它会出现在结构最后一列，它是一个虚列，并不是真实在数据中存在的列。

　　我们创建单个分区，但有时候会有嵌套分区，如何来处理呢？

四、创建嵌套分区：

　　创建好了分区，我们怎么加载数据到分区呢？有两种方式动态分区和静态分区。动态分区是指Impala/Hive在加载的时候自动添加新的分区，数据基于列值存储到正确的分区（子目录）。而静态分区需要我们通过ADD PARTITION提前去定义分区的名称，当加载数据的时候，指定存储数据到哪个分区。那么动态分区和静态分区各有什么特征呢？后续为大家接着分享。

本文转自大数据躺过的坑博客园博客，原文链接：http://www.cnblogs.com/zlslch/p/6785693.html，如需转载请自行联系原作者

Impala储存与分区

热门文章

最新文章

相关电子书