1. 聚能聊>
  2. 话题详情

前有Gitlab删库,后有AWS误删服务器,乌龙频发我们该如何防范?

otwhmlis_jpeg

前有Gitlab程序猿误删除数据库,后有AWS程序猿输错代码,删除了服务器,这些个乌龙事件看似由于各种低级错误引发,实则却暴露出了很多值得令人思考的问题。

我们先来回顾一下3月2日事件
3月2日AWS声称,输错命令导致了亚马逊网络服务(AWS)出现持续数小时的故障事件。
故障原因:
亚马逊简单存储服务(S3)团队当时在调试一个问题,该问题导致S3计费系统的处理速度比预期来得慢。太平洋标准时(PST)上午9:37,一名获得授权的S3团队成员使用事先编写的playbook,执行一条命令,该命令旨在为S3计费流程使用的其中一个S3子系统删除少量服务器。遗憾的是,输入命令时输错了一个字母,结果删除了一大批本不该删除的服务器。
重新启动时,S3无法处理服务请求。该区域依赖S3进行存储的其他AWS服务也受到了影响,包括S3控制台、亚马逊弹性计算云(EC2)新实例的启动、亚马逊弹性块存储(EBS)卷(需要从S3快照获取数据时)以及AWSLambda。
处理结果:
下午1:54分恢复正常。
官方博客解释:“虽然删除容量是一个重要的操作做法,但在这种情况下,使用的那款工具允许非常快地删除大量的容量。我们已修改了此工具,以便更慢地删除容量,并增加了防范措施,防止任何子系统低于最少所需容量级别时被删除容量。”

一个小小的误操作,引发了大规模的故障,暴露出了很多值得令人思考的问题。

比如:
程序员是否应该在线上环境直接敲命令?
有人说,可以,但是干这样的事情时,得一个人干,另一个人在旁边看着。

是否应该做好多重备份?

有人说,当然!但也有人质疑,多重备份就安全了吗?就算所有的备份都可用,也不可避免地会有数据的丢失,或是也会有很多问题。

今天,我们暂时先把这些问题摆到一边,

单纯的来聊一聊如何有效的防范误操作,避免重大故障的发生?

参与话题

奖品区域 活动规则 已 结束

  • 奖品一

    淘公仔 x 3

  • 奖品二

    王坚新著《在线》 x 1

  • 奖品三

    定制笔记本 x 1

520个回答

0

星空1991 复制链接去分享

不懂,

0

xing78 复制链接去分享

Linux 操作脚本化,增加询问确认。

0

1784688171145544 复制链接去分享

想说都己让他人抢先了……哎

0

1626888562930464 复制链接去分享

好久

0

hszhch 复制链接去分享

不知道说什么好啊!

0

hszhch 复制链接去分享

真不知道说什么好!

0

1545888561141750 复制链接去分享

不明白

0

1024888538564193 复制链接去分享

加个备用数据库

0

1542788538629877 复制链接去分享

太好啦

0

1614288533176491 复制链接去分享

删除时需设置重复提醒询问

0

1755188547136975 复制链接去分享

dreamview也挺好的,编辑速度也挺快的!

0

1992788545069637 复制链接去分享

新收

0

1944088544655469 复制链接去分享

新人报到

0

1516079056583703 复制链接去分享

不晓得

0

zack5 复制链接去分享

新人报道

0

1115988535646109 复制链接去分享

看不懂

0

1579588535955732 复制链接去分享

对,要认真一点,细心一些。

0

1173188534292252 复制链接去分享

新来的

0

鬼才神兵 复制链接去分享

不是有双机热备的么?

26