Hive之sql查询语句的处理步骤-阿里云开发者社区

Hive之sql查询语句的处理步骤

2016-09-28 5373

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Hive之sql查询语句的处理步骤

sql查询语句的处理步骤如下

--查询组合字段
(5)select (5-2) distinct(5-3) top(<top_specification>)(5-1)<select_list>
--连表
(1)from (1-J)<left_table><join_type> join <right_table> on <on_predicate>
        (1-A)<left_table><apply_type> apply <right_table_expression> as <alias>
        (1-P)<left_table> pivot (<pivot_specification>) as <alias>
        (1-U)<left_table> unpivot (<unpivot_specification>) as <alias>
--查询条件
(2)where <where_pridicate>
--分组
(3)group by <group_by_specification>
--分组条件
(4)having<having_predicate>
--排序
(6)order by<order_by_list>

说明：
1、顺序为有1-6，6个大步骤，然后细分，5-1，5-2，5-3，由小变大顺序，1-J，1-A，1-P，1-U，为并行次序。如果不够明白，接下来我在来个流程图看看。

2、执行过程中也会相应的产生多个虚拟表（下面会有提到），以配合最终的正确查询。

sql查询语句处理步骤流程图
221335571249071

准备实例，创建表，插入数据，写要分析的实例查询语句
1.首先创建两个表
221356460622813_1_
2.创建两个表，并插入表数据，脚本略
3.编写咱们要解析的查询语句，即本篇要查询的实例语句。

select top(4)  status , max(m.id) as maxMemberID
from [dbo].[Member] as m right outer join [dbo].[Order] as o 
on m.id=o.member_id 
where m.id>0
group by status 
having status>=0
order by maxMemberID asc

实例语句分步骤分析
1.从from开始

1.1 加载左表

from [dbo].[Member] as m

查询结果:member表中的所有数据

1.2 这里应该是 right outer join ，但是这里在sql中被定义分解为2个步骤，即join ，right outer join 。表达式关键字从左到右，依次执行

join [dbo].[Order] as o

查询结果：存入虚拟表vt1，为两个表的笛卡尔集合。这里你或许不明白什么叫笛卡尔集合，我打个比方给说说，还望不要嫌弃,就是小朋友握手问题，A班里有3个学生（看作一个表的三条数据），B班里有2个学生（看作另外一个表的2条数据).B班小朋友跟A班小朋友搞联欢晚会，首先要每个人都要确保跟另外一个班的同学我一下手，那么交叉出来的集合就是（2*3=6）有6条不同的轨迹。这个轨迹的集合就是笛卡尔集合。如果你还不明白，我再说下，就是m（5条数据）表中的第一条数据跟o（7条数据）表中的所有数据握下手，有7条，然后依次类推共有35条不同的数据。这里的null值也是要加进来的。

1.3、on 筛选器

on m.id=o.member_id

查询结果如下：
221448435309309
从上一步的笛卡尔集中的35条数据中删除掉不匹配的行，得到5条数据，存入虚拟表Vt2。

1.4 、添加外部行（outer row）

right outer join [dbo].[Order] as o

查询结果如下：
221455019689926
右表（order）作为保留表，把剩余的数据重新添加到上一步的虚拟表vt2中，生成虚拟表vt3。

where 阶段

where m.id>0

查询结果：存入虚拟表vt4，为筛选的条件为true的结果集，这里加入一个记忆点，就是，where的筛选删除为永久的，而on的筛选删除为暂时的，因为on筛选过后，有可能会经过outer添加外部行，重新把数据加载回来，而where则不能。
3.group by分组

group by status

查询结果：存入vt5，以status列的数值开始分组，即status列，值一样的分为一组，这里的两个null在三值逻辑中被视为true。三值逻辑：true，false，null。此三值，null为未知，是数据的逻辑特色，有的地方两个null相等为ture，在有些地方则为false。这个你百度下看看有很多讲解。
4.having 筛选

having status>=0

查询结果：筛选分好组的组数据，把不满足条件的删除掉
5.select 查询挑拣计算列

5.1、计算表达式

select status , max(m.id)

5.2、distinct过滤重复
5.3、top 结合order by 筛选多少行，但这里的数据没有排序只是把多少行数据列出来而已。

6.order by

排序显示

至此，一个完整的sql查询执行完毕。
希望能对大家有所帮助

Hive之sql查询语句的处理步骤

热门文章

最新文章

相关课程

相关电子书

相关实验场景