使用spark分析云HBase的数据

  1. 云栖社区>
  2. 阿里云数据库ApsaraDB>
  3. 博客>
  4. 正文

使用spark分析云HBase的数据

沐远 2018-03-30 14:25:20 浏览3963
展开阅读全文

  云HBase具有很好的在线入库和查询能力,不过在分析上面有比较大的欠缺,这篇文章主要介绍如何使用Spark对云HBase中数据做复杂分析。

1 云HBase查询分析的现状

  • HBase原生API:HBase原生API适合基于row key做点查,这个是HBase最擅长的查询场景
  • Phoenix:Phoenix作为HBase的SQL层,使用二级索引的技术,擅长多条件组合查询;Phoenix没有自己的计算资源,类似groupby这样的复杂查询需要借助HBase的协处理器来完成,这样一方面性能不好,同时会影响HBase集群的稳定性;
  • Spark:具有丰富的算子支持复杂分析,使用Spark集群的计算资源,通过并发分析的方式可以提高性能,同时不影响HBase集群的稳定性。

2 Spark分析HBase的方式对比

  Spark分析HBase数据有“R

网友评论

登录后评论
0/500
评论
沐远
+ 关注
所属云栖号: 阿里云数据库ApsaraDB