备案控制台

开发者社区

开发者社区云计算文章正文

set hive.map.aggr=true 时统计PV数据错误

2015-08-20 1556

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 从一个表里group by 之后计算累加值、去重值: 为了效率设置并行：set hive.exec.parallel=true（可选：set hive.exec.parallel.thread.number=16）、set hive.

从一个表里group by 之后计算累加值、去重值:

为了效率设置并行：set hive.exec.parallel=true（可选：set hive.exec.parallel.thread.number=16）、set hive.groupby.skewindata=true、set hive.map.aggr=true

select plat, pagetype, count(*) pv, count(distinct userkey) uv from client_pv_form where dt = '2015-08-19' group by plat, pagetype
union all
select plat, 'all' pagetype, count(*) pv, count(distinct userkey) uv from client_pv_form where dt = '2015-08-19' group by plat
union all
select 'all' plat, pagetype, count(*) pv, count(distinct userkey) uv from client_pv_form where dt = '2015-08-19' group by pagetype
union all
select 'all' plat, 'all' pagetype, count(*) pv, count(distinct userkey) uv from client_pv_form where dt = '2015-08-19'

坏就坏在：set hive.map.aggr=true，map端聚合的设置；

出来的pv数跟真实值对不上；

改成下边代码运行正确；

select plat, pagetype, sum(1) pv, count(distinct userkey) uv from client_pv_form where dt = '2015-08-19' group by plat, pagetype
union all
select plat, 'all' pagetype, sum(1) pv, count(distinct userkey) uv from client_pv_form where dt = '2015-08-19' group by plat
union all
select 'all' plat, pagetype, sum(1) pv, count(distinct userkey) uv from client_pv_form where dt = '2015-08-19' group by pagetype
union all
select 'all' plat, 'all' pagetype, sum(1) pv, count(distinct userkey) uv from client_pv_form where dt = '2015-08-19'

关键词：

Hive数据

Set统计

Hive统计数据

安铭

目录

相关文章

诸葛子房

|

4月前

|

SQL 分布式计算 Hadoop

创建hive表并关联数据

创建hive表并关联数据

诸葛子房

35 0 0

javaedge

|

6月前

|

SQL Java 大数据

Hive实战(03)-深入了解Hive JDBC：在大数据世界中实现数据交互

Hive实战(03)-深入了解Hive JDBC：在大数据世界中实现数据交互

javaedge

200 1 1

我是廖志伟

|

6月前

|

SQL 存储分布式数据库

【通过Hive清洗、处理和计算原始数据，Hive清洗处理后的结果，将存入Hbase，海量数据随机查询场景从HBase查询数据】

【通过Hive清洗、处理和计算原始数据，Hive清洗处理后的结果，将存入Hbase，海量数据随机查询场景从HBase查询数据】

我是廖志伟

92 0 0

三分钟热度的鱼

|

2月前

|

SQL 消息中间件 Kafka

Flink部署问题之hive表没有数据如何解决

Apache Flink是由Apache软件基金会开发的开源流处理框架，其核心是用Java和Scala编写的分布式流数据流引擎。本合集提供有关Apache Flink相关技术、使用技巧和最佳实践的资源。

三分钟热度的鱼

42 1 1

Jast

|

4月前

|

SQL 消息中间件存储

案例:Flume消费Kafka数据保存Hive

案例:Flume消费Kafka数据保存Hive

Jast

66 0 0

sunrr

|

4月前

|

SQL 分布式计算 MaxCompute

Apache Flink目前不支持直接写入MaxCompute，但是可以通过Hive Catalog将Flink的数据写入Hive表

Apache Flink目前不支持直接写入MaxCompute，但是可以通过Hive Catalog将Flink的数据写入Hive表

sunrr

58 3 3

大数据流动

|

5月前

|

SQL 分布式计算数据管理

聊聊Hive数据血缘——从Atlas没有列级血缘的Bug讲起

聊聊Hive数据血缘——从Atlas没有列级血缘的Bug讲起

大数据流动

72 0 0

阿甘兄

|

5月前

|

SQL HIVE

57 Hive案例（数据ETL）

57 Hive案例（数据ETL）

阿甘兄

32 0 0

明哥的IT随笔

|

6月前

|

SQL 分布式计算大数据

大数据问题排查系列 - 因HIVE 中元数据与HDFS中实际的数据不一致引起的问题的修复

大数据问题排查系列 - 因HIVE 中元数据与HDFS中实际的数据不一致引起的问题的修复

明哥的IT随笔

52 0 0

明哥的IT随笔

|

6月前

|

SQL 分布式计算 Java

如何在 hive udf 中访问配置数据-踩坑记录，方案汇总与对比-udf中可以写sql吗？

如何在 hive udf 中访问配置数据-踩坑记录，方案汇总与对比-udf中可以写sql吗？

明哥的IT随笔

76 0 0

热门文章

最新文章

【Shell 命令集合系统设置内置命令】⭐⭐⭐Linux 设置或修改shell环境变量set命令使用指南

mybatis和mybatiplus中Error attempting to get column ‘xx‘ from result set

map和set的简单介绍

set和map的区别

阿里云数据库内核 Apache Doris 兼容 Presto、Trino、ClickHouse、Hive 等近十种 SQL 方言，助力业务平滑迁移

用红黑树封装实现map和set

js开发：请解释什么是ES6的Map和Set，以及它们与普通对象和数组的区别。

Transparent Data Encryption Data Dynamic and Data Dictionary Views You can query a set of dynamic and data dictionary views to find more information about Transparent Data Encryption (TDE) data.

利用Hive与Hadoop构建大数据仓库：从零到一

bigdata-17-Hive部署与Hive基础

DataWorks报错问题之集成hive数据源报错如何解决

DataWorks报错问题之从hive到mysql报错如何解决

Flink CDC + Hudi + Hive + Presto构建实时数据湖最佳实践

Apache Hudi与Hive集成手册

DataWorks常见问题之hive jdbc加载数据错误如何解决

Hive中日期处理函数的使用（date_format、date_add、date_sub、next_day）

Hive窗口函数案例总结

Sqoop【付诸实践 01】Sqoop1最新版 MySQL与HDFS\Hive\HBase 核心导入导出案例分享+多个WRAN及Exception问题处理（一篇即可学会在日常工作中使用Sqoop）

Hive Delegation Token 揭秘

Flink依赖问题之connector hive依赖冲突如何解决

相关课程

更多

大数据Hive教程精讲

相关电子书

更多

Hive Bucketing in Apache Spark

spark替代HIVE实现ETL作业

2019大数据技术公开课第五季—Hive迁移到MaxCompute最佳实践

相关实验场景

更多

使用Count功能批量创建资源

下一篇

阿里云oss简介和使用流程