云hbase+spark + 关注

云hbase+spark 参与了问答:

求助,phoenix mapping时如何避免产生写请求?

背景:应用场景是 每天查询全部的最新的数据,所以目前每天晚上会将最新的数据表往hbase里到一次,先删除hbase中的表,再bulkload倒入,最后phoenix mapping;导入动作是多张表同...

“Phoenix mapping应该不写数据的”

云hbase+spark 参与了问答:

Hive on hbase 分析10亿以上数据不是特别好?Hive on hba

Hive on hbase 分析10亿以上数据不是特别好?

“建议hbase增量导出后用spark分析”

云hbase+spark 参与了问答:

hbase中如何每天更新千万级别的用户标签数据?

请问下,用户画像数据存hbase里面(千万级别的用户),每天的标签数据如何更新会好些?通过API,一条条更新的话,感觉好慢,而且每天buckload前,新建张表,设置TTL,每天都用最新的表。

“大量数据更新用bulkload”

云hbase+spark 参与了问答:

查看HBase value对应的存储大小 就是后面的16进制吗?

都是16进制吗?

“这个问题没看明白,有截图吗?”

云hbase+spark 参与了问答:

有搭建cdh集群的教程吗? 怎样在 cdh上配置Hbase?

可以参考:https://www.cloudera.com/documentation/enterprise/release-notes/topics/rg_release_notes.html

“赞”

云hbase+spark 参与了问答:

在 hbase 中存储数据,如果要以 uuid 作为 rowkey 如何进行预分区?

参考:https://hbase.apache.org/1.2/book.html#rowkey.design建表的时候可以用shell里面的SPLITALGO => 'HexStringSpl...

“赞”

云hbase+spark 参与了问答:

tidb这类new sql 会对hbase造成很大冲击吗?

hbase上也有newsql层Phoenix,同时可以配合Spark做复杂分析。

“参考 http://hbase.group/question/225”

云hbase+spark 参与了问答:

加盐一般在线上有什么快速读全量数据的思路

1、HBase 建议:https://hbase.apache.org/1.2/book.html#rowkey.design2、Phoenix建议:https://phoenix.apache.or...

“全表扫描建议用别的思路,什么场景要全表扫描呢?”

云hbase+spark 参与了问答:

HBase 的TTL 参考

查阅官方文档:https://hbase.apache.org/book.html#ttl

“如上”

云hbase+spark 参与了问答:

加盐一般在线上有什么快速读全量数据的思路

加盐一般在线上有什么快速读全量数据的思路

“全量读取一般不太适合hbase,如果是全量分析建议数据以parquet方式导出,然后用spark分析”

云hbase+spark 参与了问答:

active-active wal replication(batch && bulkload)

active-active wal replication的feature(batch && bulkload),有小伙伴做过吗?有同学说双向建peer,不知道这种方式是否work。我...

“开源应该是支持双向同步的”

云hbase+spark 参与了问答:

批量删除hbase的数据用什么方式比较快

最快的方式就是直接设置TTL如果业务无法满足,建议直接调度delete接口,性能也较快~

“赞同”

云hbase+spark 参与了问答:

hbase的版本号可以是自定义的整形吗?

hbase的版本号可以是自定义的整形吗?我这边想利用他的多版本做一个时间乱序的纠正,但是数据的时间戳毫秒不够用,我想用一个唯一整形来做。

“版本号是Long型,用户端是可以随意设置的”

云hbase+spark 参与了问答:

定时hbase -> parquet数据一致遇到的问题

定时hbase -> parquet,如果hbase中存在追加或补发历史业务时间的数据,或者存在删除操作 ,怎样保证两边存储数据一致 ?又如何能按照业务时间做好分区呢 ?

“数据导出要按时间分区,分区键可以是wal的时间,也可以是keyvalue的时间戳,按具体场景选择”

云hbase+spark 参与了问答:

phoenix 用二级索性的时候 会导致hbase的compaction线程一直占用着zk连接 最后集群zk连接数较高 有朋友遇到过吗

phoenix 用二级索性的时候 会导致hbase的compaction线程一直占用着zk连接 最后集群zk连接数较高 有朋友遇到过吗

“没遇到过,你能提供更详细的信息吗?”

云hbase+spark 参与了问答:

hbase存储标签信息 应该怎么设计呢?

这个应该是hbase作为维表吧,使用直接rowkey命中返回。

“对象id作为rowkey,每一个标签独立一个列。读取全部走 get”

云hbase+spark 参与了问答:

hbase hbck -fix -repiar会丢哪些数据

怎样避免呢?

“生产环境不建议使用”

云hbase+spark 参与了问答:

HBase的表分裂出72个region为什么没有balance呢?

都在一个regionserver上

“shell看一下balance有没有打开,另外balance有周期要等一下”

云hbase+spark 参与了问答:

HBase2.0的WAL不会自动清理

WAL文件越来越大,几天时间集群硬盘就爆了

“可以尝试重启master”

云hbase+spark 参与了问答:

hbase 在新建表的时候 会提示"Family 'info' already exists, the old one will be replaced",有哪位大神指点一下

hbase 在新建表的时候 会提示"Family 'info' already exists, the old one will be replaced",有哪位大神指点一下

“可能表(column family)已经存在了吧?有具体的复现步骤吗?”
5
暂未提供

感兴趣or擅长的领域:

暂无
更多>
ApsaraDB Cassandra
ApsaraDB Cassandra
文章:3丨 粉丝:4丨 话题:0
云栖公开课
云栖公开课
文章:1丨 粉丝:313丨 话题:1
瑾谦
瑾谦
文章:21丨 粉丝:6496丨 话题:0
遥翔
遥翔
文章:2丨 粉丝:2214丨 话题:0
明惠
明惠
文章:14丨 粉丝:1711丨 话题:0
陈江@阿里
陈江@阿里
文章:11丨 粉丝:1718丨 话题:0
更多>
游客iyophknnq2tri
游客iyophknnq2tri
文章:0丨 粉丝:0丨 话题:0
游客zooket6s7bxpq
游客zooket6s7bxpq
文章:0丨 粉丝:0丨 话题:0
游客gw5mgmqaur3au
游客gw5mgmqaur3au
文章:0丨 粉丝:0丨 话题:0
游客55tfwgnxpul7c
游客55tfwgnxpul7c
文章:0丨 粉丝:0丨 话题:0
游客4vf44eiyvxqsq
游客4vf44eiyvxqsq
文章:0丨 粉丝:0丨 话题:0
游客43znrw6gd7p2w
游客43znrw6gd7p2w
文章:0丨 粉丝:0丨 话题:0