深入探讨HBASE

  1. 云栖社区>
  2. Apache Spark中国技术社区>
  3. 博客>
  4. 正文

深入探讨HBASE

开源大数据EMR 2020-02-27 14:01:45 浏览643
展开阅读全文

HBASE基础

1. HBase简介

HBase是一个高可靠、高性能、面向列的,主要用于海量结构化和半结构化数据存储的分布式key-value存储系统。
它基于Google Bigtable开源实现,但二者有明显的区别:Google Bigtable基于GFS存储,通过MAPREDUCE处理存储的数据,通过chubby处理协同服务;而HBase底层存储基于hdfs,可以利用MapReduce、Spark等计算引擎处理其存储的数据,通过Zookeeper作为处理HBase集群协同服务。

2. HBase表结构

HBase以表的形式将数据最终存储的hdfs上,建表时无需指定表中字段,只需指定若干个列簇即可。插入数据时,指定任意多个列到指定的列簇中。通过行键、列簇、列和时间戳可以对数据进行快速定位。

2.1 行键(row key)

HBase基于ro



网友评论

登录后评论
0/500
评论