十年CDP,专业治疗服务器“脑裂”问题

  1. 云栖社区>
  2. 博客>
  3. 正文

十年CDP,专业治疗服务器“脑裂”问题

行者武松 2017-07-04 16:15:00 浏览1361
展开阅读全文

什么是“脑裂”?

脑残大家都知道,“脑裂”是个什么鬼?肯定不是那本惊悚故事集啦。“脑裂”是高可用方案(HA)中出现的一种服务器故障,在“双机热备”高可用(HA)系统中,当联系2个节点的“心跳线”断开时,本来为一整体、动作协调的HA系统,就分裂成为2个独立的个体。由于相互失去了联系,都以为是对方出了故障,2个节点上的HA软件像“裂脑人”一样,“本能”地争抢“共享资源”、争起“应用服务”,就会发生严重后果:或者共享资源被瓜分、2边“服务”都起不来了;或者2边“服务”都起来了,但同时读写“共享存储”,导致数据损坏(常见如数据库轮询着的联机日志出错)。
服务器“脑裂”的危害

服务器“脑裂”容易引起服务器集群逻辑关系混乱,导致主、备服务器误认为对方宕机而同时接管对方的业务,同时占用共享的文件系统,造成数据库争抢资源,引起数据库表文件的损坏,从而导致数据库服务的中断,对外业务暂停。

据悉,2015年10月,某商业银行核心系统曾因服务器集群的心跳通信异常,引发“脑裂”故障,导致数据库文件损坏,数据库发生逻辑错误而停止对外服务,造成该行柜面和渠道业务较长时间中断。为了防止此类事件再次发生,银监会特意下发(2015)175号办公厅文件提醒各银监局和银行注意风险防范。
出现“脑裂”怎么办?

脑裂可以防范,经验丰富的运维工程师会建议采用下面的措施来防范“脑裂”的发生:1. 添加冗余的心跳线,例如双线条线。这样能够尽量减少“裂脑”发生的机会。2. 启用磁盘锁。3. 设置仲裁机制。

但是脑裂无法根除,发生脑裂时即使是所有的节点都可以工作,业务也会被迫中断。既然无法根除,那么我们就要面对。这就需要在脑裂之后可以有一种预案以最快的速度恢复业务!

有人会疑问:“都脑裂了,还咋最快的恢复业务?”,答案就四个字“任意回退”!HA系统正常时是同一个大脑在指挥,脑裂后的各自瞎指挥最终造成了数据的不可用。而业务的长时间中断就是因为这种数据的不可用所造成的。

找到问题的原因,就基本上有了解决问题的办法。既然脑裂所造成的业务停顿是因为数据的不可用,那么要想恢复业务让数据重新可用就行了。如何让数据重新可用?让时光回到脑裂前的那一刻,一切都会美好起来。那时候数据库还起的起来,最后一笔业务数据还在。

但是任何人都无法预知脑裂的发生,而脑裂前的那一刻是哪一刻也没有软件预先知道后在那里设置一个回退点。这就需要有一种保护机制将数据变化的所有点全部记录下来,这些所有点必然包含了“脑裂前的那一刻”这个点。这种保护技术就是CDP,通过持续的数据保护,可以做到任意时间点回退。

和力记易十年磨一剑,采用基于主机嵌入式分析的方式对结构化数据进行CDP保护,在记录所有回退点的同时还分析了数据库的内部逻辑结构,保证了每个回退点都是数据库的可用点。可谓居家旅行,专治脑裂,必备良品!

本文转自d1net(转载)

网友评论

登录后评论
0/500
评论
行者武松
+ 关注