如何避免 GitHub 那样断网 43 秒瘫痪 24 个小时?

  1. 云栖社区>
  2. OceanBase数据库爱好者社区>
  3. 博客>
  4. 正文

如何避免 GitHub 那样断网 43 秒瘫痪 24 个小时?

荔子liqi 2018-10-31 17:13:27 浏览1027
展开阅读全文

今日,GitHub技术负责人Jason Warner的一篇技术深度解析稿成为IT圈爆款。文中,Jason坦诚地对外讲述了10月21日100G光缆设备故障后,Github服务降级的应急过程以及反思总结。

从Jason Warner的文章中不难看出,造成断网43秒瘫痪24小时的罪魁祸首是数据库。由于部署在两个数据中心的数据库集群没有实时同步。意外发生时,Github的工程师担心数据丢失,不敢快速将主数据库安全切换到东海岸的备份数据中心。

10311_1

程序员们在GitHub这篇“忏悔录”下面留言,表达对数据库集群的“哀悼”。但更多IT从业者关心的问题是,如何避免这样的灾难事件降临到自己的公司,自己维护的系统。

蚂蚁金服OceanBase分布式数据库专家认为,此次Github事件是典型的城市级故障。如果系统采用的是高可用的三地五中心解决方案,就可以自如应对

网友评论

登录后评论
0/500
评论
荔子liqi
+ 关注