观点| 如何避免GitHub那样断网43秒瘫痪 24 个小时?

  1. 云栖社区>
  2. 蚂蚁金服科技>
  3. 博客>
  4. 正文

观点| 如何避免GitHub那样断网43秒瘫痪 24 个小时?

平生栗子 2018-10-31 19:16:12 浏览1042
展开阅读全文

小蚂蚁说:

蚂蚁金服自研的金融级分布式关系型数据库OceanBase的高可用及容灾能力在发生城市级故障时,让系统秒级完成智能切换,实现自愈,用户的资金、数据0丢失(新来的同学可以移步《现场剪光缆!ATEC上支付宝模拟自断一半服务器,26秒一切恢复正常》了解更多~)。

今日,GitHub技术负责人Jason Warner的一篇技术深度解析稿成为IT圈爆款。文中,Jason坦诚地对外讲述了10月21日100G光缆设备故障后,Github服务降级的应急过程以及反思总结。

从Jason Warner的文章中不难看出,造成断网43秒瘫痪24小时的罪魁祸首是数据库。由于部署在两个数据中心的数据库集群没有实时同步。意外发生时,Github的工程师担心数据丢失,不敢快速将主数据库安全切换到东海岸的备份数据中心。

b396e58551399771f85f338538abf550dbc27515

程序员们在GitHub这篇“忏悔录”下面留


网友评论

登录后评论
0/500
评论
平生栗子
+ 关注
所属云栖号: 蚂蚁金服科技