开发者社区> 问答> 正文

定时hbase -> parquet数据一致遇到的问题

定时hbase -> parquet,如果hbase中存在追加或补发历史业务时间的数据,或者存在删除操作 ,怎样保证两边存储数据一致 ?又如何能按照业务时间做好分区呢 ?

展开
收起
夏怒 2018-11-21 19:02:13 3634 0
2 条回答
写回答
取消 提交回答
  • 如果有补发历史事件的数据,只能够把两天的数据存储在不同的事件分区中,然后每天对历史的分区做全量的merge。或者使用hudi这种支持upsert的存储格式代替parquet格式

    2020-03-21 17:26:49
    赞同 展开评论 打赏
  • 数据导出要按时间分区,分区键可以是wal的时间,也可以是keyvalue的时间戳,按具体场景选择

    2019-07-17 23:15:44
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
大数据时代的存储 ——HBase的实践与探索 立即下载
Hbase在滴滴出行的应用场景和最佳实践 立即下载
阿里云HBase主备双活 立即下载