6月27日阿里云故障说明

简介: 6月27日下午,我们在运维上的一个操作失误,导致一些客户访问阿里云官网控制台和使用部分产品功能出现问题。故障于北京时间2018年6月27日16:21左右开始,16:50分开始陆续恢复。对于这次故障,没有借口,我们不能也不该出现这样的失误!我们将认真复盘改进自动化运维技术和发布验证流程,敬畏每一行代码,敬畏每一份托付。

6月27日下午,我们在运维上的一个操作失误,导致一些客户访问阿里云官网控制台和使用部分产品功能出现问题,引发了大量吐槽。故障于北京时间2018年6月27日16:21左右开始,16:50分开始陆续恢复。

经过紧急技术复盘,故障原因如下:

当天下午,工程师团队在上线一个自动化运维新功能中,执行了一项变更验证操作。这一功能在测试环境验证中并未发生问题,上线到自动化运维系统后,触发了一个未知代码bug。错误代码禁用了部分内部IP,导致部分产品访问链路不通。 后续人工介入后,工程师团队快速定位问题进行了恢复。

受影响范围包括阿里云官网控制台,以及MQ、NAS、OSS等产品功能。对于这次故障,没有借口,我们不能也不该出现这样的失误!我们将认真复盘改进自动化运维技术和发布验证流程,敬畏每一行代码,敬畏每一份托付。



阿里云计算有限公司

2018年6月27日

相关文章
|
18天前
|
存储 安全 Linux
服务器数据恢复—如何预防服务器故障?服务器发生故障如何恢复数据?
服务器常见故障: 硬件故障:磁盘损坏、电池故障等。 软件问题:操作系统崩溃、未知的程序运行错误等。 病毒破坏:勒索病毒加密、删除服务器数据等。 不可控力量;服务器浸水、火烧、机房倒塌等导致服务器损坏和数据丢失。 误操作:工作人员操作失误导致数据丢失,如格式化、删除、覆盖等。
41 16
服务器数据恢复—如何预防服务器故障?服务器发生故障如何恢复数据?
|
8月前
|
运维 监控 算法
中间件故障转移故障检测
【7月更文挑战第25天】
77 1
|
8月前
|
运维 监控 Kubernetes
中间件故障转移自动切换
【7月更文挑战第25天】
83 2
|
8月前
|
运维 负载均衡 监控
中间件故障转移(Failover)
【7月更文挑战第24天】
134 2
|
8月前
|
消息中间件 监控 负载均衡
中间件故障转移与容错
【7月更文挑战第23天】
130 1
|
8月前
|
存储 运维 监控
中间件冗余部署故障转移(Failover)
【7月更文挑战第22天】
142 1
|
7月前
|
存储 缓存 运维
无状态故障转移与有状态故障转移
【8月更文挑战第24天】
76 0
|
10月前
|
存储 运维 监控
双活中心故障检测与切换机制
双活中心故障检测与切换机制
340 2
|
监控 安全 数据安全/隐私保护
服务器数据恢复—如何预防服务器故障?发生故障后如何恢复服务器数据?
服务器常见故障: 硬件故障:磁盘、板卡、电源故障等。 软件故障:操作系统崩溃、程序运行错误等。 入侵破坏:加密、删除服务数据等。 不可控力:浸水、火烧、倒塌等。 误操作:格式化、删除、覆盖等。
|
运维 监控 测试技术
故障治理:如何进行故障复盘
故障复盘的重要性无需多说,每一次故障都是宝贵的学习机会,本人接手故障复盘工作已经半年有余,从一开始的手足无措,慢慢变得游刃有余。以下内容为本人从网上查阅学习多个专家经验,并结合工作经历总结而来,仅供参考。