Hive 数据模型

简介:

                                                                             Hive 数据模型


    Hive 数据表有五种类型:内部表,外部表,分区表,桶表,视图表,默认以 tab 分隔

    * MySQL (Oracle) 表默认以逗号分隔,因此,要想导入 MySQL(Oracle) 数据,需要设置分隔符,在建表语句后加:

            row  format   delimited   fields   terminated  by  ',';



    内部表: 相当于 MySQL 中的表,将数据保存到Hive 自己的数据仓库目录中:/usr/hive/warehouse

            例子:

create table emp

(empno int,

ename string,

job string,

mgr int,

hiredate string,

sal int,

comm int,

deptno int

);

导入数据到表中:本地、HDFS

load语句、insert语句

load语句相当于ctrl+X

load data inpath '/scott/emp.csv' into table emp;   ----> 导入HDFS

load data local inpath '/root/temp/***' into table emp;   ----> 导入本地文件

创建表,并且指定分隔符

create table emp1

(empno int,

ename string,

job string,

mgr int,

hiredate string,

sal int,

comm int,

deptno int

)row format delimited fields terminated by ',';

创建部门表,保存部门数据

create table dept

(deptno int,

dname string,

loc string

)row format delimited fields terminated by ',';


load data inpath '/scott/dept.csv' into table dept;

    外部表:相对于内部表,数据不在自己的数据仓库中,只保存数据的元信息

        例子:

(*)实验的数据

[root@bigdata11 ~]# hdfs dfs -cat /students/student01.txt

1,Tom,23

2,Mary,24

[root@bigdata11 ~]# hdfs dfs -cat /students/student02.txt

3,Mike,26

(*)定义:(1)表结构  (2)指向的路径

create external table students_ext

(sid int,sname string,age int)

row format delimited fields terminated by ','

location '/students';


    分区表:将数据按照设定的条件分开存储,提高查询效率,分区----->  目录

        例子:

   

(*)根据员工的部门号建立分区

create table emp_part

(empno int,

ename string,

job string,

mgr int,

hiredate string,

sal int,

comm int

)partitioned by (deptno int)

row format delimited fields terminated by ',';

往分区表中导入数据:指明分区

insert into table emp_part partition(deptno=10) select empno,ename,job,mgr,hiredate,sal,comm from emp1 where deptno=10;

insert into table emp_part partition(deptno=20) select empno,ename,job,mgr,hiredate,sal,comm from emp1 where deptno=20;

insert into table emp_part partition(deptno=30) select empno,ename,job,mgr,hiredate,sal,comm from emp1 where deptno=30;

    桶  表: 本质上也是一种分区表,类似 hash 分区   桶 ----> 文件

        例子:

  创建一个桶表,按照员工的职位job分桶

create table emp_bucket

(empno int,

ename string,

job string,

mgr int,

hiredate string,

sal int,

comm int,

deptno int

)clustered by (job) into 4 buckets

row format delimited fields terminated by ',';

使用桶表,需要打开一个开关

set hive.enforce.bucketing=true;

使用子查询插入数据

insert into emp_bucket select * from emp1;



    视图表:视图表是一个虚表,不存储数据,用来简化复杂的查询

        例子:

                                查询部门名称、员工的姓名

create view myview

as

select dept.dname,emp1.ename

from emp1,dept

where emp1.deptno=dept.deptno;


select * from myview;



本文转自 菜鸟的征程 51CTO博客,原文链接:http://blog.51cto.com/songqinglong/2058475

相关文章
|
5月前
|
SQL 存储 HIVE
47 Hive的数据存储
47 Hive的数据存储
32 0
|
3月前
|
存储 NoSQL Java
HBase的数据模型是什么样的?
HBase的数据模型是什么样的?
30 0
|
3月前
|
SQL 分布式计算 关系型数据库
Sqoop数据导入到Hive表的最佳实践
Sqoop数据导入到Hive表的最佳实践
|
5月前
|
SQL 存储 关系型数据库
Hive教程(03)- Hive数据模型
Hive教程(03)- Hive数据模型
46 0
|
5月前
|
存储 NoSQL 分布式数据库
94 hbase数据模型
94 hbase数据模型
25 0
|
5月前
|
SQL HIVE
57 Hive案例(数据ETL)
57 Hive案例(数据ETL)
32 0
|
8月前
|
SQL 存储 大数据
关于数据仓库的Hive的Hive架构的MetaStore元数据服务
随着大数据技术的不断发展,数据仓库成为了企业中不可或缺的一部分。而Hive作为一种开源的数据仓库系统,因其易于使用和高效处理等特点,成为了许多企业的首选。然而,对于普通用户来说,直接使用Hive的命令行工具进行操作并不方便。因此,开发者社区中涌现出了大量的Hive GUI工具,其中最为流行的就是Web GUI工具。
205 2
|
9月前
|
SQL 数据库 HIVE
数据仓库的Hive的Hive架构的用户接口的CLI
Hive提供了一系列用户接口,可以方便地进行数据仓库的管理和操作。其中,CLI(命令行界面)是一种非常常用的用户接口,可以通过命令行进行Hive的管理和操作。
96 0
|
10月前
|
SQL 存储 分布式计算
|
存储 缓存 NoSQL
HBase 数据模型
HBase 数据模型
134 0