1. 聚能聊>
  2. 话题详情

如何看待顺丰程序员"从删库到跑路"?

9 月 19 日晚,小编突然收到网上爆料,据说是顺丰科技数据中心的一位高级工程师(邓XX)误删生产数据库,导致某项服务大约无法使用10小时。顺丰根据公司相关规定,辞退工程师邓某某,并在顺丰内网通报。

u_1037134935_3636758026_fm_173_app_25_f_JPEG

下面是网上爆料的内部通报邮件截图:

u_1103890783_1009443789_fm_173_app_25_f_JPEG

87953dffgy1fvf19fhxu2j20bt0c7ab1

事情发生了, 锅总要有人背, 我们探讨一下:

1.你如何看待这次失误操作?

2.如何从技术角度避免此类事情再次发生? 你有好的建议吗?

3.发生此类事情, 你如何看待失误操作被辞职?

参与话题

奖品区域 活动规则 已 结束

  • 奖品一

    淘公仔 x 1

  • 奖品二

    阿里云代金券 x 5

  • 奖品三

    云栖帽衫 x 1

40个回答

0

我的中国

1.你如何看待这次失误操作?
一看就是老手觉得熟能生巧,但是在生产业务一般存在大量工作或者业务割接的时候没有遵从规范那早晚会发生这种重大事故。

2.如何从技术角度避免此类事情再次发生? 你有好的建议吗?
对于重要的命令权限限定肯定要有,重要命令的执行需要输入密码或者再次确认,当然事前操作不做备份是大忌。
云计算的快照也是一个好东西,备份、快照,省事有可避免事故的发生。

3.发生此类事情, 你如何看待失误操作被辞职?
网络是最不被领导看重的业务,也是整个互联网公司最重要的部分,影响基本看业务情况秒级或者分钟级就可以走人了,正常现象。
当然还是得提一点,平时涉及到业务操作不要有时间要求和速度要求,很容易疲惫发生命令错误,且行且珍惜。

0

mazha 已获得淘公仔 复制链接去分享

1.你是怎么看的?
这起事件首先让我想到了前些时候,腾讯云对用户数据丢失的问题,发生此类问题,公司的操作规范化制度应该负有首要责任。
操作没详细流程,没具体化。比如,数据库此类的操作必须AB岗,切操作必须AB同时在场。其次,容灾备份机制也存在问题,很多公司过度依赖人的参与,而不是让程序自己运行备份,顺丰这样的企业,同机房热备份,异地双机备份应该都要有的。
最后一个就是程序数据删除的时候统一要求伪删除,如果要释放,就过段时间进行系统自己实体删除。总的来说,规范化对于运维和公司异常重要!
2.怎么避免此类事件再次发生?
如上,完善规范化制度,并且要演练,要切实落实到相关人员执行。
其次提高程序的数据安全意识,做重要操作的时候,谨小慎微,你得一个操作可能会给公司和用户带来巨大的损失。
3.对顺丰的处罚你怎么看?
我个人觉得,如果该员工没有按照操作规范做,那么开除通报是必须得,这样是对其他人员的一种警醒,说白了就是杀鸡儆猴,避免其他人有此类操作。其他人员有类似操作的时候,就会想到该员工。😂
当然了,如果规范化制度不完善作为一部分原因,可以给予员工一定的补偿,但开除可能还是不能避免。

纯手打,一家之言。

0

aoteman675 已获得阿里云代金券 复制链接去分享

1.你如何看待这次失误操作?
这让我想起了某一次运营商的机房用户被删除数据,工程师占有主要责任,因为做为数据安全岗位,每一次操作都要经过模拟演练的,更何况是数据没有备份而是直接删除。这是工程师的岗位失责,其次是公司的操作管理规范,如果一个岗位有AB角,互相监督,重要操作应当两人在场,一人操作一人监督审查操作规范性,并按照上报的操作流程依次执行。

2.如何从技术角度避免此类事情再次发生? 你有好的建议吗?
做为能操作数据库的工程师,其岗位应当是严瑾和规范化的,所以还是公司的管理问题是主要的,没有对数据安全足够重视。凡事设计数据操作都应当提前做好备份,这可以分为两个工程师执行,一个负责备份,一个负责对数据操作。这样才能降低数据风险。

3.发生此类事情, 你如何看待失误操作被辞职?
如果不辞退,难以推行规范化制度,只有辞退了才能引起足够的重视,让其他工程师引以为戒。但是公司更应该认识到自己的不足,作为生产数据中心,应当由一套自动化的灾备和备份机制,当删除了一套数据,可以用副本回滚数据。显然数据中心过多在于人为操作,这样不确定性太大了,如果输入rm -rf /就完了。公司应当对整套系统完善数据安全制度,强化运维体系,设置多角色互为监督,逐步弱化人工运维。

0

盖地虎王晓 已获得云栖帽衫 复制链接去分享

1.你如何看待这次失误操作?
我觉得这次失误操作也不能完全怪那位工程师。两方面来讲,一是大公司特别是数据非常重要的大公司,应该有完善的操作流程和操作规范,如果仅凭个人意志就能随意删除重要数据库的话,说明这家公司的数据安全保护意识非常弱,同时公司的工作规范也很不健全,另外就是这位工程师自己也有问题,对于重要数据操作时都要做好备份,防止意外小情况下能及时恢复。

2.如何从技术角度避免此类事情再次发生? 你有好的建议吗?
技术角度就是可以有二个方面吧,一是公司有规范的操作流程及权限控制,二是,数据操作一定要有备份存在,同时还要有操作记录,可以在出现问题时及时恢复。

3.发生此类事情, 你如何看待失误操作被辞职?
被辞退是很正常的,从公司方面来讲你对公司造成了巨大损失,从个人角度上来讲你的数据安全意识不足,虽然公司没有规范,但是你自己也要相应的备份机制,或者是不太专业。另一方面,公司也应该需要反思,人为的出问题是很正常的,怎么在给人为的问题上加一个安全的操作制度是公司比较紧缺的。

0

浮生递归 已获得阿里云代金券 复制链接去分享

1.你如何看待这次失误操作?
删了就删了呗,谁还没删过数据库啊。不是有自动增量备份吗?暂停下服务,花1分钟,恢复下备份就好咯。啥?没备份?那还不赶紧跑路!

2.如何从技术角度避免此类事情再次发生? 你有好的建议吗?
dbs 数据库增量备份 了解一下。做好备份,随便删、放心删、大胆删。服务停1、2分钟有毛线关系,是吧。

3.发生此类事情, 你如何看待失误操作被辞职?
停了10小时,这么扯的事情,辞职是肯定的、必须的、必要的。怎么说都是高级工程师,居然犯这种低级错误。而且很明显不只是删库这么简单,还没有做好应急预案,这才是最扯淡的失误,辞退都辞晚了,早干嘛去了。
我上个月也刚删过库,不过有备份,不是啥事没有?虽然自动备份做的还不够好,但好歹也能快速恢复到1周前的数据,客户勉强能接受。总比另一个同事的服务器挂了,只能恢复到两个月前要好太多了,哈哈。(自夸不忘顺带嘲讽同事)

0

dongdongfu 已获得阿里云代金券 复制链接去分享

1.你如何看待这次失误操作?
N 个群都有看到这个消息,这波操作给你 82 分,剩下用 666 补齐。

2.如何从技术角度避免此类事情再次发生? 你有好的建议吗?
顺丰这种物流型的,没有数据备份吗?
主库挂了,从库呢?
瞎给权限运维,运维不是修电脑,修网线的么? ;)滑稽脸
DBA 呢?顺丰没有 DBA ?
别用自建数据库了,用阿里的 RDS Mysql 了解一下? 什么?数据不想存放在别人家?阿里私有云了解一下?一堆备份给你用。

3.发生此类事情, 你如何看待失误操作被辞职?
理论上来说,不应该开人,但是要扣年终奖 :),然后让他自己辞职。

PS:来一个 淘公仔

1

ly_2018 复制链接去分享

0

心不能寂寞 复制链接去分享

这是失败案例啊,删完没跑掉。

挂神 回复

优秀 没毛病

评论
1

牧羊小人 复制链接去分享

1.你如何看待这次失误操作?
答:人不是机器,总有累或者犯错的时候,相对应,失误也就无法避免,但无论如何,作为员工,就应当为工作负责,需要承担相关责任。在另一方面,企业应该做好权限管控和数据备份,尤其是针对核心系统,必须要做到RTO和RTO接近于0,避免各种突发事故的带来的损失。
2.如何从技术角度避免此类事情再次发生? 你有好的建议吗?
答:两个方面,(1)权限管控,从企业角度,针对不同技术人员给予不同的权限,并做好审计,一旦出现故障可以实时审查,提高企业员工的重视度;(2)核心系统实时备份,数据是企业的核心资产,尤其是核心系统,企业应该实时备份,以此应对各种突发事故,像阿里云的Ecs、rds都能做到分钟级别的快照备份,灾备一体机更是能够做到近乎0的实时备份;
3.发生此类事情, 你如何看待失误操作被辞职?
答:正如前面所说,人非机器,难免会犯错,辞退显得有些过了,常年的努力工作,因一次失误而抛去所有的功,企业可以基于该员工日常表现,酌情处理,如扣除年终奖;毕竟,数据丢失,不仅仅是员工一人的责任,企业的数据备份没做好也是一方面因素。

牧羊小人 回复

RTO和RPO

评论
1

微wx笑 复制链接去分享

1.你如何看待这次失误操作?
常在河边走,哪有不湿鞋。

2.如何从技术角度避免此类事情再次发生? 你有好的建议吗?
生产数据库没有严格的备份机制吗?
没有完善的日志系统吗?
没有操作前的安全检查吗?

3.发生此类事情, 你如何看待失误操作被辞职?
以后注意吧,库不是随便删的。

0

不做 复制链接去分享

推荐购买阿里云混合云备份....
妈妈才也不怕我跑路了....删库恢复分分钟................

景凌凯 回复

评论
0

1554039129353357 复制链接去分享

在做之前先做好备份,备份完再进行处理,以防误删

0

ly_2018 复制链接去分享

0

少轻狂 复制链接去分享

我就想知道他们在生产环境中怎么找回数据进行补救的。

0

福汽 复制链接去分享

任何的库据库操的第一步就是备份,之后才是操作

0

一本不正经 复制链接去分享

rm -f真是个坏习惯

0

挂神 复制链接去分享

人非圣贤孰能无过 这件事告诉我们需要有自动备份以及操作记录 以备随时恢复

0

skylu 复制链接去分享

回滚,开除,模拟操作,同意楼上

0

jonsen_jr 复制链接去分享

论数据备份的重要性!

0

蛋包饭加蛋 复制链接去分享

有备份就还好…不过恢复也需要时间,对企业来说有经济损失

2