1. 云栖社区>
  2. 全部标签>
  3. #hbase#
hbase

#hbase#

已有19人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

kafka 三种消费语义

消费语义at most once:最多消费一次,消息可能会丢失-------log日志at least once:至少消费一次,但是会重复消费 例如手动异步提交offsetexactly once:正好一次,不丢失,不重复 0.10.0.1不支持,官方说0.11已支持 例子1.log日志允许丢失 使用第一种2.log日志算钱的不允许丢,使用第二种+去重+redis部分公司去重方法,对每一条日志取一个hash值,存放到redis里面,如果redis里面有了,就不放到下游去处理3.mysql sql语句入库 选择第二种并使用hbase的put保证去重复。

mysql hbase SQL 日志 LOG

好程序员大数据培训分享之Hadoop的生态系统

  好程序员大数据培训分享之Hadoop的生态系统,这次,我整理了一下hadoop的生态系统。hadoop生态系统,意思就是以hadoop为平台的各种应用框架,相互兼容,组成了一个独立的应用体系,也可以称之为生态圈。

分布式 大数据 算法 storm hbase hdfs hadoop 程序员 日志 数据库 数据流 集群 数据挖掘 spark 培训

Maxcompute Spark 访问 阿里云 Hbase

引子 本来这个东西是没啥好写的,但是在帮客户解决问题的时候,发现链路太长,不能怪客户弄不出来,记录一下 需求列表 MaxCompute Spark包 (写文章时刻为版本 0.32.1, 请自行更新,本文不是文档) Spark 配置 spark.

云栖社区 安全 hbase hadoop shell odps 测试 spark aliyun Access service github MaxCompute

HBase2 使用协处理器删除指定qualifier的全部数据

用户画像的场景中,通常会开发很多标签,每个标签作为一个qualifier,其中有一些不再使用后需要下线,但hbase提供的delete相关api都只能针对单行,要清理某个qualifier的全部数据不太容易,这里提供一个基于协处理器的实现方案; hbase对于compact过程提供了以下5个hoo...

数据存储与数据库 分布式 大数据 hbase PUT timestamp

Ambari和ClouderaManager对比

  好程序员大数据培训分享之Ambari和ClouderaManager对比,1 、什么是CDH,Ambari?   Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。

大数据 hbase hdfs hadoop 程序员 Apache 集群 分布式计算 Ambari Hive 兼容性 培训 Mapreduce 大数据分析

大数据采集和抽取怎么做?这篇文章终于说明白了!

数据是数据中台\数据平台核心中的核心,因此数据汇聚必然是数据中台/平台的入口,本文详细讲述采集模块的方方面面、采集框架的使用选型以及企业真实落地

大数据 消息队列 mysql hbase 日志 数据库 工单 同步 Hive 数据同步 编程 数据采集 alibaba 存储 github

使用phoenix踩的坑与设计思考

云栖号资讯:【点击查看更多行业资讯】在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 本文主要介绍在压测HBase的二级索引phoenix时踩的一个坑,使用时需要特别注意,而且背后的原因也很有意思,可以看出HBase和Phoenix对元数据设计上的差异。

hbase 索引 数据同步 varchar

数据中台的存储系统和计算平台枚举

采集&传输层 SqoopHadoop、关系型数据库之间传输数据的工具。传输时,会启动多个MR作业并发的传输数据 DataX阿里巴巴开源的数据同步工具,用来在各种异构数据源之间同步数据。

分布式 大数据 消息队列 hbase hdfs hadoop 日志 Apache 数据处理 数据库 数据仓库 spark solr 离线计算 存储

大数据分布式架构单点故障详解(Hdfs+Yarn+HBase+Spark+Storm)构建HA高可用架构

本文梳理了常见的hadoop生态圈中的组件:Hdfs+Yarn+HBase+Spark+Storm的单点故障问题,出现原因以及单点故障的原理和解决方案(构建HA(High Available)高可用架构)。阅读本文之前,最好了解清楚各组件的架构原理。

故障方案 分布式 大数据 架构 开发框架与中间件 分布式系统与计算 storm hbase hdfs hadoop 高可用 配置 spark 分布式架构 单点故障

hbase shell实现原理简析

hbase的交互式命令行是通过jruby实现的,当我们输入hbase shell时,实际上最终执行的是org.jruby.Main,并以bin/hirb.rb作为参数,注意是根目录下bin目录中的hirb.

数据存储与数据库 大数据 分布式系统与计算 hbase 根目录 shell ruby class list github

HBase 如何减少升级时重启rs节点造成的影响

最近被问到这个问题,一时没有很好的回答,事后仔细思考了下,整理如下。 rs节点重启对于应用的影响可分为如下2个阶段: region不可用 region读取慢 不可用的优化 从rs停止到各个region重新上线前都处于不可用阶段,其中包含了master感知到有rs退出,进而调度执行scp的过程,详细的过程可以参考我的另外一篇文章《HBase2.

数据存储与数据库 大数据 分布式系统与计算 hbase LOG 伪代码 磁盘

spark streaming 流式计算-----容错(hbase幂等性修改)

在做流式计算过程中,最复杂最难做的莫过于数据幂等性修改操作的设计。先解释一下概念【幂等性操作】,幂等性概念来源于数学专业表示对一个表达式做多次相同的操作,表达式不会改变。例如:逻辑回归中的Sigmod函数,n次求导之后依然坚挺。

hbase hdfs 线程 spark 流式计算 表达式

phoenix-5.0.0与CDH6.0.1兼容性导致二级索引不可用问题解决

今天在测试phoenix的二级索引功能时,创建完索引写入数据,出现以下异常: Caused by: org.apache.hadoop.hbase.client.RetriesExhaustedWithDetailsException: Failed 1 action: org.

数据存储与数据库 大数据 分布式系统与计算 java hbase hadoop Apache 索引 class 兼容性 index

HBase2.0 procedureV2原理简析

总体流程图 就绪区: 这部分的核心实现类是MasterProcedureScheduler,主要的作用就是对Procedure进行调度; 从排队的角度看,可以认为存在三层队列调度; type队列: type包含meta、server、table,,三者之间存在优先级:meta>server>t.

数据存储与数据库 大数据 分布式系统与计算 hbase entity Server type

【云栖号案例 | 交通&物流】方向物流上云 等保三级合规架构节省部署时间和成本

智慧物流平台需要完成等保2.0合规要求,线下等保成本较高。上云后保证业务平台的稳定性、高可用性和安全性,不需要线下部署,节省部署时间和成本。

redis 架构 服务器 mysql hbase 防火墙 ECS 云服务器 云安全 高可用 数据库 高并发 数据安全 负载均衡

HBase sequenceId知识点略记

在HBase中,sequenceId是实现一致性的灵魂,这里的一致性有两方面意思: 顺序性,即先写的先被读到,未提交的写不能被读到; 完整性,包含如下几点; 未持久化到hfile的数据,对应的wal文件不能删除 如果由于wal文件过多需要清理,则需要先把对应的数据持久化 异常恢复过程中,需要.

数据存储与数据库 大数据 分布式系统与计算 hbase LOG

HBase2.0官方文档翻译-RegionServer Sizing Rules of Thumb

37.1. 热点(Hotspotting) Rows in HBase are sorted lexicographically by row key. This design optimizes for scans, allowing you to store related rows, or rows that will be read together, near each other.

数据存储与数据库 大数据 hbase string timestamp

深入探讨LSM Compaction机制

compaction在以LSM-Tree为架构的系统中是非常关键的模块,log append的方式带来了高吞吐的写,内存中的数据到达上限后不断刷盘,数据范围互相交叠的层越来越多,相同key的数据不断积累,引起读性能下降和空间膨胀。

分布式 hbase 性能 Cache Server

93
GO