对《GitHub服务中断24小时11分钟事故分析报告》的分析

  1. 云栖社区>
  2. OceanBase数据库爱好者社区>
  3. 博客>
  4. 正文

对《GitHub服务中断24小时11分钟事故分析报告》的分析

mq4096 2018-11-01 12:59:37 浏览1783
展开阅读全文

对《GitHub服务中断24小时11分钟事故分析报告》的分析

声明

本文是根据公众号“高效开发运维”翻译整理的GitHub服务中断分析报告的信息进行分析。可能存在某些观点有误,如果有欢迎指出。

原文地址:GitHub服务中断24小时11分钟事故分析报告
官方报告英文地址:October 21 post-incident analysis

背景

UTC 时间 10 月 21 日 22:52,为了更换发生故障的 100G 光纤设备,美国东海岸网络中心与美国东海岸数据中心之间的连接被断开。连接在 43 秒后恢复,但这次短暂的中断引发了一系列事故,导致 24 小时 11 分钟的服务降级。

简单分析

根据报告里信息描述,大致意思是要做一个计划中的变更,替换东海岸网络中心和数据中心之间的光纤,网络中断了43秒。在43秒内一个全局的容灾高可用机制(Orches

网友评论

登录后评论
0/500
评论
mq4096
+ 关注