Hive 统计信息简析

简介:

Hive统计信息是在0.7引入的(https://issues.apache.org/jira/browse/HIVE-33),对于Insert/Load/MergeDDL操作时在Task后加入一个StatsTask进行统计信息收集,并订阅前置OperatorFileSink/TableScan)的feed.不过现在这个stats并没有使用起来.

线上虽然开启了hive.stats.autogather=true想搜集一些信息,但是ETL Job经常报:[Warning] could notupdate stats,查看日志发现:

ERRORjdbc.JDBCStatsPublisher (JDBCStatsPublisher.java:init(281)) - Error during JDBCinitialization.

java.sql.SQLException:The connection property 'createDatabaseIfNotExist' only accepts values of theform: 'true', 'false', 'yes' or 'no'. The value 'true;user=xxx;password=xxx' isnot in this set.

原来是连接字符串的配置问题,在xml&需要写成&才可以,修改后生效,可以更新:[num_partitions: xxx, num_files: xxx,num_rows: 0, total_size: xxx, raw_data_size: 0]XXX的几个变量,但是发现num_rows/raw_data_size这两个值无论如何都无法更新,analyze命令也不管用,看下issuehttps://issues.apache.org/jira/browse/HIVE-3324确实有这么个bug,不过并没有很合理的解释,anyway,在hive0.13后使用hadoop counter来做stat publish了,就没这个问题了.

其实如果用来做smallfile分析有这些信息也够了:P



本文转自MIKE老毕 51CTO博客,原文链接:http://blog.51cto.com/boylook/1334532,如需转载请自行联系原作者

相关文章
|
5月前
|
SQL HIVE
58 Hive案例(访问时长统计)
58 Hive案例(访问时长统计)
30 0
|
SQL HIVE
hive留存率的统计
hive留存率的统计
|
SQL 存储 Shell
hive统计每日的活跃用户和新用户sql开发(附shell脚本)
hive统计每日的活跃用户和新用户sql开发(附shell脚本)
hive统计每日的活跃用户和新用户sql开发(附shell脚本)
|
SQL 监控 Java
通过Java API获取Hive Metastore中的元数据信息
本文以Java API为例,介绍如何获取hive standalone metastore中的catalog、database、table等信息,通过该方式,我们可以方便地对元数据中心进行监控与管理。
|
SQL 存储 缓存
分层更高效,对 Hive 数仓进行热度/冷度统计 | 学习笔记
快速学习分层更高效,对 Hive 数仓进行热度/冷度统计。
503 0
|
SQL 存储 缓存
数据湖实操讲解【 JindoTable 计算加速】第二十一讲:分层更高效,对 Hive 数仓进行热度/冷度统计
数据湖 JindoFS+OSS 实操干货 36讲 每周二16点准时直播! 扫文章底部二维码入钉群,线上准时观看~ Github链接: https://github.com/aliyun/alibabacloud-jindofs
数据湖实操讲解【 JindoTable 计算加速】第二十一讲:分层更高效,对 Hive 数仓进行热度/冷度统计
|
4月前
|
SQL 数据采集 数据挖掘
大数据行业应用之Hive数据分析航班线路相关的各项指标
大数据行业应用之Hive数据分析航班线路相关的各项指标
101 1
|
4月前
|
SQL 存储 大数据
【大数据技术Hadoop+Spark】Hive基础SQL语法DDL、DML、DQL讲解及演示(附SQL语句)
【大数据技术Hadoop+Spark】Hive基础SQL语法DDL、DML、DQL讲解及演示(附SQL语句)
78 0