Hive中文件存储格式及大小比较测试

  1. 云栖社区>
  2. 博客列表>
  3. 正文

Hive中文件存储格式及大小比较测试

突突修 2018-03-13 15:17:40 浏览1580 评论0

摘要: file_format: : SEQUENCEFILE | TEXTFILE -- (Default, depending on hive.default.fileformat configuration) | RCFILE -- (Note: Available in Hive 0.

在hive中创建表是有如下一个语句

[ROW FORMAT row_format]

row_format 的类型有如下:

file_format:
: SEQUENCEFILE
| TEXTFILE -- (Default, depending on hive.default.fileformat configuration)
| RCFILE -- (Note: Available in Hive 0.6.0 and later)
| ORC -- (Note: Available in Hive 0.11.0 and later)
| PARQUET -- (Note: Available in Hive 0.13.0 and later)
| AVRO -- (Note: Available in Hive 0.14.0 and later)
| INPUTFORMAT input_format_classname OUTPUTFORMAT output_format_classname
默认是文本格式例如:


700

按照数据存储方式分类

官方文档地址
https://cwiki.apache.org/confluence/display/Hive/SerDe

按照行存储

SEQUENCEFILE
TEXTFILE

按照列存储

RCFILE
ORC
PARQUET

说明:parquet目前已经是apache的顶级项目了,在hive,hbase,spark中都是经常使用的。

700

237

700

491

492
664

文件格式的压缩比较

参考文档http://zh.hortonworks.com/blog/orcfile-in-hdp-2-better-compression-better-performance/

700

实际业务我们是按照列来分析数据及使用数据的。

1、创建文本表

532

2、加载数据

700

image.png


700

3、查看创建OCR文件的格式

700

4、创建ocr文件

671

5、把文件表中的数据插入到OCR类型的表中

700

6、创建parquet类型的表并插入数据

700

7、查看文件大小

原始文本文件的大小
634
orc文件大小
602
partquet文件大小
651

用云栖社区APP,舒服~

【云栖快讯】《阿里巴巴Java开发手册》(详尽版)已经上线!您的Java学好了吗?如果没有,那就赶紧加入学习吧!  详情请点击

网友评论

突突修
文章211篇 | 关注6
关注
面向阿里云ECS实例、HPC和Docker的文件存储服务。 查看详情
快速、完全托管的TB/PB级数据仓库解决方案,向用户提供了完善的数据导入方案以及多种经典的分... 查看详情
提供海量、安全和高可靠的云存储服务。RESTful API的平台无关性,容量和处理能力的弹性... 查看详情
为您提供简单高效、处理能力可弹性伸缩的计算服务,帮助您快速构建更稳定、安全的应用,提升运维效... 查看详情
飞天发布会第8期:智能选址解决方案

飞天发布会第8期:智能选址解决方案