巴客 + 关注
研究spark/hive/hbase相关技术

巴客 参与了问答:

merge_region 命令使用不生效

执行merge_region 命令,web界面第一眼看两个region是合并了,刷新两次就又变成原来的两个region了并且region名都变了,是怎么回事?

“这个应该是region合并后太大,又发生split了”

巴客 参与了问答:

cdh集群的hbase regionserver内存占用有点高,请问有什么办法解决方案吗?

需要调整哪些内容呢?

“要具体看的,是否堆内存配置不合理。”

巴客 参与了问答:

Spark sql怎样实现即席查询?

是不是 创建索引好一点?

“spark目前还不支持索引,主要使用场景还是离线分析,可以借助一些数据格式,如carbondata(带二级索引)/parquet(索引正在做), 把表cache到内存能够解决部分即席查询的需求。”

巴客 参与了问答:

HDFS 用spark anti join后体积膨胀厉害怎么办?

HDFS 用spark anti join后体积膨胀厉害,即使排序或者repartition都没有啥效果,压缩编码snappy,请问怎么解决呢?

“最好是把详细语句和现象发出来,要结合时间场景看的。”

巴客 参与了问答:

HBase region个数如何划分?

最好是你的regionserver的倍数 ,会自动的分配到每个服务器 ,注意 的rowkey要分散.

“参考下https://help.aliyun.com/document_detail/71787.html?spm=a2c4g.11186623.6.573.1bbae5b72ZEzm0”

巴客 参与了问答:

直接读HFile与 通过hbase读,它们性能提升多少

读 HFile 的方式是?

“全表扫使用spark读HFile,比直接读hbase性能提升两倍以上,并且不会影响hbase其他读写使用。”

巴客 参与了问答:

实时计算的程序高可用性,数据可靠性具体怎么处理呢

比如 Spark + Hbase 。

“对于一些输入数据源(比如Kafka),Spark Streaming可以对已经接收的数据进行确认。输入的数据首先被接收器(receivers )所接收,然后存储到Spark中(默认情况下,数据保存到2...查看全部>

巴客 参与了问答:

phoenix 的事务支持好吗?

不推荐使用事务

“phoenix借助第三方插件 Tephra 可以支持事务,但是目前还在beta, 对性能影响很大,不推荐生产使用”

巴客 参与了问答:

为什么用phoenix建表后,插入的数据是二进制编码的

为什么用phoenix建表后,插入的数据是二进制编码的?

“phoenix默认对列名进行编码。建表时你可以指定属性COLUMN_ENCODED_BYTES=0 可以看到原始列名。”

巴客 参与了问答:

phoenix 的索引,key(a,b,c)include(d,e,f)使用

查询的时候只有,条件是a或者a,b或者a,b,c才有效,比如像b或者b,c,还有c,这样是无效吗吗?

“组合索引在查询时遵循最左前缀原则,查询条件需包含最左前缀列,否则不会走索引”

巴客 参与了问答:

Phoenix的默认时区比utc时间少八小时,这个可以设置改成UTC+8吗?

Phoenix的默认时区比utc时间少八小时,这个可以设置改成UTC+8吗?

“参考社区文章:https://yq.aliyun.com/articles/684390”

巴客 发表了文章:

Phoenix客户端进化之由重到轻

发布时间:2019-01-22 22:43:50 浏览:2226 回帖 :0

Phoenix重客户端 Phoenix是HBase之上的SQL层,它为HBase赋予了NEWSQL的特性,支持了大多数的标准SQL特性,并提供了JDBC的访问接口,使得我们在应用程序中能够方便的集成...

RPC 架构 java hbase 性能 SQL Image JDBC

巴客 参与了问答:

HBase 跨行事务还不完善?

行级事务是ok的

“跨行事务只限制在rgion级别”

巴客 参与了问答:

自己实现SparkStreaming Receiver 从hbase读数据,这种设计合理吗

不推荐使用

“HBase适用在线查询场景,一般spark streaming配合kafka向hbase写数据,而非用receiver读数据。”

巴客 参与了问答:

Hbase的写入性能如何?内核是基于Java实现的?

Hbase的写入性能如何?内核是基于Java实现的?并发多少?

“HBase包括Hadoop生态组件基本都是使用java语言实现的。HBase具有非常高的写吞吐能力,不同规格集群配置qps不同。详细参考:https://help.aliyun.com/documen...查看全部>

巴客 参与了问答:

impala+hive+hbase

通过HIVE创建hbase的外部表,impala再关联hive进行实时查询,但查询hive关联的hbase表太慢太慢,比impala+kudu要慢10倍左右,就希望能否在hive关联hbase的外部表...

“hive不支持创建hbase二级索引的。目前阿里也有类似的解决方案,采用spark+phoenix的方案。phoenix支持HBase二级索引,能够加速HBase复杂查询场景,对于多表复杂分析则用sp...查看全部>

巴客 参与了问答:

phoenix想做数据隔离 有什么方案吗?

比如结合 HBase 。

“phoenix使用schema映射HBase的namespace隔离数据,HBase支持rsgroup特性可以实现多租户”

巴客 参与了问答:

有比较系统的HBase 讲解资料整理在哪里?有和书一样吗?

分章节:https://hbase.apache.org/1.2/book.html

“最好的资料还是官网,英文不好可以关注中文社区http://hbase.group/阿里云HBase官网也有很多HBase生态组件的介绍。https://help.aliyun.com/document...查看全部>

巴客 参与了问答:

hbase最新版本是多少,什么时候更新的?

参考 Apache 官方 JIRA :https://issues.apache.org/jira/projects/HBASE?selectedItem=com.atlassian.jira.jir...

“现在最新版本是HBase2.1.1版本,18年10/31 release的。Hbase发展动态可以关注HBase官网https://hbase.apache.org 以及中文社区http://hbas...查看全部>

巴客 参与了问答:

Solr on hbase hbase添加数据以后solr没有数据是什么原因呢?

原因可能有哪些?

“使用的Lily HBase Indexer吗,这个是异步索引实现机制,借助HBase Replication实现的,会存在短暂数据不同步的。同时社区的版本也存在一些bug的。可以使用阿里云的solr二...查看全部>
3
研究spark/hive/hbase相关技术

感兴趣or擅长的领域:

更多>
明朔
明朔
文章:5丨 粉丝:1711丨 话题:0
hbase小能手
hbase小能手
文章:113丨 粉丝:3051丨 话题:0
我是小助手
我是小助手
文章:416丨 粉丝:4788丨 话题:7
焦先
焦先
文章:18丨 粉丝:316丨 话题:0
@dailidong@
@dailidong@
文章:430丨 粉丝:50丨 话题:0
cometwo123
cometwo123
文章:2680丨 粉丝:30丨 话题:0
更多>
Cong Lee
Cong Lee
文章:0丨 粉丝:0丨 话题:0
一个嘉兴仔
一个嘉兴仔
文章:0丨 粉丝:0丨 话题:0
leongood
leongood
文章:0丨 粉丝:0丨 话题:0
游客jrmeyb65dnek4
游客jrmeyb65dnek4
文章:0丨 粉丝:0丨 话题:0
游客enhuyglqmghiw
游客enhuyglqmghiw
文章:0丨 粉丝:0丨 话题:0
ziyouren菜鸟
ziyouren菜鸟
文章:0丨 粉丝:0丨 话题:0