1. 聚能聊>
  2. 话题详情

长假期间,技术人员如何保障系统稳定?

俗话说“儿行年里母担忧”,这就开始放小长假了,身为网络人员,离开了身边的设备,内心总是有些不踏实。不管是做设备的,还是软件开发、网络运维,不管你是甲方还是乙方,长假期间可是不允许出现故障的,毕竟这意味着假期已经结束。

TIM_20170930181023

如果网络消失,会给我们的生活带来很多不便,就像这样。

TIM_20170930181531

所以如何去保障长假过的安稳,不光要拜一拜设备求平安求平稳度过小长假,还得我们技术人员付出劳动来保障才行。

timg

我们能从图中看到设备间为了网络的稳定做了冗余备份,一旦网络线路中断,数据可以立即从另一条冗余线路传输到千家万户,所以千家万户的小长假就掌握在我们手中,通过技术手段保障用户的正常使用,上网不中断,玩游戏不掉线,这一切都离不开网络人员在背后做的付出,各行各业,尽管设备不同,命令不同,但在思想上还是很统一的。做备份做冗余!

那么,说说你所处的行业吧

1. 如何保障平日和小长假,用户的平稳使用的?

2. 使用的怎样的技术呢?双机热备还是什么样的。

3. 你在阿里云上使用哪些功能给自己的网站等应用提供技术保障的?

参与话题

奖品区域 活动规则 已 结束

  • 奖品一

    云栖定制电脑包 x 2

  • 奖品二

    免费套餐邀请码 x 6

  • 奖品三

    手机话费 x 2

147个回答

2

shawn.ss

1. 如何保障平日和小长假,用户的平稳使用的?
在处理意外情况方面,没有任何程序能比得过人,所以基本上各种长假都是排值班人员,1线on call是公司待命,2线 on call是在家电脑前待命,3线on call是可以外出必须带笔记本随时可以联网,还有4线on call就是1小时内找到联网的办法。。。
排好1,2,3,4线支援人员,随时等着出事,就是保障绝对不出事的手段了。
其实也没有那么low,技术手段也用了,例如发个短信就重启服务器上的某个服务之类的这种手段也有,
当然自动的故障切换平时就在用,和放假不放假没关系
2. 使用的怎样的技术呢?双机热备还是什么样的。
故障切换很简单,nginx反向代理一下,弄3个服务器分担流量,再加一个备份服务器,随便挂两个服务器都不会出事,nginx也做好备份,可惜这块需要人工干预
之后就是各种健康监控,接口调用超时,服务器资源超负荷,网络带宽超载之类的,都会发短信通知。部分判断监控结果可以自动重启服务器程序或者执行特定脚本(例如redis的flush all)。
如果流量过载会做系统降级,若干个接口会直接返回不做处理,基本上就这些了。
3. 你在阿里云上使用哪些功能给自己的网站等应用提供技术保障的?
阿里云的云监控和主机监控很好用,通知短信比较及时,用接口也可以随时获取服务器状态,可以编写程序根据状态自动处理很多情况,等于多了一个低级的自动运维人员。
VPC很好用,绑定一个EIP(弹性IP)之后,带宽可以暂时不用担心了,配置一下规则可以快速的切换服务器的整个线路,其实这部分也可以写到上面的那个运维程序里,只可惜目前还没有实现。
SLB用的不多,貌似也是可以维护多台服务器备份的,只可惜网站流量比较小,成本考虑,大部分情况是不用的
另外域名调用接口自动切换解析地址也想尝试下,目前还没有实际试用(DNS有扩散时间,所以这个估计只有极端情况被攻击了才会用)

以上,长假电话多,求个话费吧,哈哈

我的中国 回复

写得不错

玉玉丹丹 回复

请问一下,独享主机包括服务器吗?

评论
8

青藤木子 已获得云栖定制电脑包 复制链接去分享

  1. 如何保障平日和小长假,用户的平稳使用的?
    我是做服务器的,对于我来说,首先肯定要有多线路输出,即使一个线路出错,那么其他的线路也能稳定输出数据。然后就是假日前先进行一次大规模的数据检查和服务器的检查。把失误率降到最低!当然别以为长假就可以安心玩了,除非你想被炒鱿鱼!像我的话至少会半天去用手机连接服务器查看一下数据的波动,只要不宏机,那么就没事了。千万别在假期前对服务器进行清洗,除非你做足了准备,上次因为觉得洗了服务器能保证服务器的稳定运营,结果洗着洗着就出问题了,那个清明节我是陪着服务器过日子的😭。还有就是保证服务器的承载能力稳定。
  2. 使用的怎样的技术呢?双机热备还是什么样的。
    肯定双机热备啊!
  3. 你在阿里云上使用哪些功能给自己的网站等应用提供技术保障的?
    首先购买云解析,可以不要太贵。然后就是cnd控制

。最主要的就是web防火墙和木马查杀工具。我的一个网站一般会绑定多个域名。其他的就没了,如果数据过大我也会购买云储存,一般不买。
觉得我说得对的赏个电脑包吧,我以前的那个装苹果的电脑包太难看了,😁😁😁

smile霜冷 回复

呵呵

评论
0

五好青年 已获得云栖定制电脑包 复制链接去分享

对服务器进行全面检查,外部环境不限于机房UPS供电检测、空调运行监测、环境温湿度报警正常监测、物理连线是否有松动破损检查以及机房门禁密码修改(防止擅入),然后再做一遍彻底的清洁;然后服务器内部检查,增补最新补丁、更新病毒库、再检查一下是否还有多余的端口和账号关掉它,然后修改现在的管理员密码复杂度要高(防止被容易破解),查看服务器近期运行日志,报错和警告最好解决掉,所有检查无异常后进行服务器全备份,本次备份最好是离线备份

我的中国 回复

日志的查看还是很重要的,提供服务的问题提醒和一些警示信息

评论
1

1230003326392184 已获得免费套餐邀请码 复制链接去分享

小长假前做好硬件检测,抗压检测。
上线多路服务,预防突发情况。
做好监控预警工作,即使出现情况也可以在最短时间内做出反应降低风险。
如能分析以往小长假流量模型,必能更加从容地把握事态。

0

justinzhou 已获得免费套餐邀请码 复制链接去分享

1.规范的管理制度流程,2.备份与冗余,3.监控,4.定期巡检,我们要相信墨菲定律,不规范的那一次,后面百分百会出事。。。

0

fsi 已获得免费套餐邀请码 复制链接去分享

  1. 如何保障平日和小长假,用户的平稳使用的?
    我会选择多买几台服务器,用一台服务器不断地ping其他的服务器,其中一台挂了会立马调用dns解析api将域名解析到另一台上,不同地区还会有不同的服务器来实现分流,有点类似于cdn的性质。
  2. 使用的怎样的技术呢?双机热备还是什么样的。
    肯定是双机啊
  3. 你在阿里云上使用哪些功能给自己的网站等应用提供技术保障的?
    我会选择购买云解析vip版本来增加区域的解析线路选择,然后果断安骑士和cdn,如果所有服务器真的都挂了cdn的缓存还会撑一段时间,安骑士也会自动给我发短信让我去修复。

本人学生党,技术水平可能较低,但以上技术让我成功的扛过了两次数据高防。
题外话:
可不可以赏我一个电脑包啊,以前的电脑包用破了。。。谢谢!

0

walkfor 已获得手机话费 复制链接去分享

在多个可用区建立服务实例,通过负载均衡动态分配流量,通过autoscaling动态增删实例,做好容灾备份。

0

第三方阿萨 已获得免费套餐邀请码 复制链接去分享

数据库服务器的双机热备 用hrd方式

0

szm. 已获得免费套餐邀请码 复制链接去分享

目前我所处的行业还不是那种刚需业务,出了问题不需要太急着解决,但是我们公司还是做了相关的工作的,主要采用的双机热备,对主服务,数据库和文件系统都进行了备份,一旦其中一部分出了问题,还可以通过备份提供必要的功能。
当然除了这个,运维也是处于随时待命的状态,一旦出现问题,会及时处理的。
公司的业务就是放在阿里云上的,阿里云的稳定也为防止服务终止做出了重要的贡献。

0

nission 已获得免费套餐邀请码 复制链接去分享

关键业务都是阿里云的服务,使用了rds oss ecs redis,并且架构微服务话,做负载均衡、弹性扩容,且服务远程管理方便

0

正在创建中 复制链接去分享

不知道把wordpress上传到什么地方
575a237f06f94f429ecc371892efa433_1_1507452198.327478.jpg

我的中国 回复

打开的不对吧

评论
1

1649006948881391 复制链接去分享

我总觉得一天不盯着控制台就不安宁。

艾_aa 回复

我也这样想呢

评论
1

华权投资 复制链接去分享

用共享服务器!

0

linlu.com 复制链接去分享

可以给我吗?

哼嗯哼 回复

很好很好很好

评论
1

浮生递归 复制链接去分享

系统在,不远游,游必有方

0

1488807266408541 复制链接去分享

邀请码可以给我吗 我一直想要的 别的买不起

xzlgzmcm 回复

123

评论
1

小学扛霸子 复制链接去分享

虚拟机跑业务,网络备份冗余,异常短信提醒,安安稳稳过长假

0

1587007113535268 复制链接去分享

累了 有空再聊

0

horserman 复制链接去分享

app服务器服务活跃用户一万,需要规格多少的云服务器

0

一猫 复制链接去分享

你目前还没想到好的解决方案,后端工程师都是轮流值班的...来参会都是背着笔记本随时看

8