明朔 + 关注
阿里技术专家,长期从事大数据系统研发

明朔 发表了文章:

阿里云HBase SQL一站式解决复杂查询难题

发布时间:2019-06-19 20:10:34 浏览:152 回帖 :0

在大数据场景中,HBase由于其高吞吐,高并发,实时可见等特性往往被作为在线主存储,云HBase团队融合了在线存储引擎和全文引擎的优势,解决了针对在线大数据存储的复杂查询难题,并提供SQL统一表达,降...

云栖社区 数据存储与数据库 分布式 大数据 分布式系统与计算 实时系统 hbase SQL 同步 solr 索引 数据同步 phoenix big data

明朔 发表了文章:

阿里云HBase SQL(Phoenix)服务深度解读

发布时间:2019-05-21 22:24:38 浏览:8098 回帖 :1

阿里云HBase SQL基于Phoenix 5.0版本,为云HBase2.0赋予NewSQL特性,降低kv接口使用复杂性,并提供Schema、Secondary Indexes、View 、Bulk ...

云栖社区 数据存储与数据库 分布式 大数据 架构 分布式系统与计算 hbase 性能 SQL 线程 索引 JDBC phoenix NewSQL

明朔 发表了文章:

BigData NoSQL —— ApsaraDB HBase数据存储与分析平台概览

发布时间:2019-05-21 14:26:37 浏览:2779 回帖 :0

数据库发展有三个明显的趋势:1. 越来越多的数据库会做云原生(CloudNative);2. NoSQL正在解决BigData领域的问题;3. 越来越多的公司或者产品都是融合多个能力。 阿里云HBa...

云栖社区 分布式 大数据 分布式系统与计算 NOSQL hbase 性能 数据库 同步 spark solr 数据存储 phoenix

明朔 参与了问答:

我使用spark thrift jdbc 已经在spark配置文件设置了

我使用spark thrift jdbc 已经在spark配置文件设置了--conf spark.kryoserializer.buffer=64m--conf spark.kryoserialize...

“继续调大或者用java序列化试试”

明朔 参与了问答:

一张主表会生成多少张索引表?

一张主表会生成多少张索引表?

“10个以内吧,否则对写性能影响较大。”

明朔 参与了问答:

索引表与主表 能直观知道数据是否一致吗

索引表与主表 能直观知道数据是否一致吗

“phoenix可以用加hint的方法,分别使用所以和不使用索引,验证下结果是否一致”

明朔 参与了问答:

HBase columns有没有数量的限制呢,一亿?10亿?一般不超过多少?

需要根据集群规模来计算?

“没有限制,实际存储是kv。”

明朔 参与了问答:

Phoenix用来计算比如简单统计count出来的结果不对,还有数据量大的情况下会超时报错,有什么解决方案么?

Phoenix用来计算比如简单统计count出来的结果不对,还有数据量大的情况下会超时报错,有什么解决方案么?

“count本身是会扫描全表,会很慢。建议用sampling试下:http://phoenix.apache.org/tablesample.html”

明朔 参与了问答:

phoenix查询

select * from table where key=1 会出现很多key不是1的数据,select columns from table where key=1不会,是是啥原因呀?

“怀疑是出现了索引表和主表数据不一致的情况,建议rebuild下索引表试下。”

明朔 参与了问答:

phoenix4 ‍用‍二级‍索性‍的‍时候 ‍会‍导致hbase‍的compaction‍线程‍一直‍‍占用着zk‍‍‍连接 ,如何处理?

phoenix4 ‍用‍二级‍索性‍的‍时候 ‍会‍导致hbase‍的compaction‍线程‍一直‍‍占用着zk‍‍‍连接 ,如何处理?

“线上紧急的话可以重启试下。”

明朔 参与了问答:

HBASE+PHOENIX 内网跑满

请问怎么对数据commit压缩,千兆交互机,不换交换机情况下怎么解决

“建表的时候可以指定压缩算法”

明朔 参与了问答:

spark foreach调用restful接口同步数据效率太差

通过编写 spark程序,读取数据库形成RDD,然后对RDD进行foreach操作,在内部实现方法中对遍历的元素通过调用restful接口同步第三方的数据到本地数据库,将程序 提交到 spark集群后...

“如果瓶颈在httpserver端,spark加并发解决不了,要具体问题具体分析。”

明朔 参与了问答:

Apache phoenix适合多大数据量?

Apache phoenix适合多大数据量?

“百TB级别。”

明朔 参与了问答:

phoenix 表怎么进行数据迁移?从一个表迁移到另外一个表?

phoenix 表怎么进行数据迁移?从一个表迁移到另外一个表?

“可以用upsert into select语句。”

明朔 参与了问答:

phoenix在集群中部署有要求吗,有哪些需要注意的?

phoenix在集群中部署有要求吗,有哪些需要注意的?

“跟hbase一样,推荐用ssd系统盘。”

明朔 参与了问答:

phoenix可以完全替换我们原来系统里面关系型表?风险评估主要关注哪几点?

phoenix可以完全替换我们原来系统里面关系型表?风险评估主要关注哪几点?

“phoenix适用于大规模并发读写的场景,可以做在线查询和简单分析,对于复杂事务和复杂分析还不支持。跟传统关系型数据库不是替代关系。”

明朔 参与了问答:

Phoenix 事务会象 MYSQL 出现脏数据吗??

Phoenix 事务会象 MYSQL 出现脏数据吗??

“phoenix目前还只有行级别事务,通过mvcc保证隔离和一致性。”

明朔 参与了问答:

Phoenix资源消耗情况如何? 内存 索引磁盘占用空间如何?

Phoenix资源消耗情况如何? 内存 索引磁盘占用空间如何?

“phoenix只是hbase上层的sql封装,资源情况跟hbase一样。”

明朔 参与了问答:

phoenix复杂分析类似join怎么处理

phoenix复杂分析类似join怎么处理

“phoenix本身提供了join功能,但比较适用于大表join 小表之类的简单join,如果要做大表join大表的复杂分析可以借助spark来做。”

明朔 参与了问答:

对原有HBASE建立映射之后,写数据是否要切换到phoenixAPI?

对原有HBASE建立映射之后,写数据是否要切换到phoenixAPI?

“不需要,继续用hbase写即可。”
2
长期从事大数据系统与产品研发。

感兴趣or擅长的领域:

更多>
玄贝
玄贝
文章:1丨 粉丝:5090丨 话题:0
db匠
db匠
文章:507丨 粉丝:5449丨 话题:0
猫头鹰子嘉
猫头鹰子嘉
文章:8丨 粉丝:5114丨 话题:1
天斯
天斯
文章:6丨 粉丝:6357丨 话题:1
所在jason
所在jason
文章:15丨 粉丝:6501丨 话题:0
付磊-起扬
付磊-起扬
文章:90丨 粉丝:5255丨 话题:0
更多>
游客jrmeyb65dnek4
游客jrmeyb65dnek4
文章:0丨 粉丝:0丨 话题:0
游客enhuyglqmghiw
游客enhuyglqmghiw
文章:0丨 粉丝:0丨 话题:0
ziyouren菜鸟
ziyouren菜鸟
文章:0丨 粉丝:0丨 话题:0
水木年华~
水木年华~
文章:0丨 粉丝:0丨 话题:0
1272456844167297
1272456844167297
文章:0丨 粉丝:0丨 话题:0
terry1985
terry1985
文章:0丨 粉丝:0丨 话题:0