1. 聚能聊>
  2. 话题详情

【阿里云新品发布】怎样才能做好云上自动化运维?让运维同学少“背锅”!

云上运维时代

阿里云经过9年多的发展,成长为中国第一全球前三的云服务提供商,为上百万用户提供IT基础设施云服务。这些用户几乎都会使用ECS弹性计算服务,这其中既有面向消费者(to C)、企业(to B)提供服务的互联网应用、电商、娱乐等类型的用户,也有面向企业内部效率提升搭建信息化数字化平台和应用的用户,还有广泛的个人网站、开发者等,不论哪种类型的用户,从创建第一台ECS云服务器开始,就已经进入了云上运维的阶段。

当提起运维时,大家脑海中第一反应是什么?

救火的。。。

_2

背锅的

_3

还是----

_1

业界从不同的视角总结出ITIL、DevOps、SRE等系统的运维运营体系,相信很多运维同学都在各自领域探索将这些理念和方法论落地实践。伴随着从On-Premise环境到云上环境,一方面,不论哪种方式始终未变的是运维的本质——为业务发展提供稳定可靠的支撑,保障业务永续运行,并通过有效的手段提高效率并降低成本。而另一方面,由于基础架构运维的对象如数据中心、服务器、存储、网络设备等变为阿里云提供的弹性计算服务,在运维的关注点、方法、工具等方面确实发生着改变。

云上运维的差异性

与传统IDC环境相比,云上运维有哪些差异?大量的计算资源怎样方便快捷地部署、管理?如何发挥弹性响应业务负载变化的同时保持较低TCO总拥有成本?ECS出现异常是什么原因,如何保持业务连续性?……等等这些,是很多用户在使用和运维ECS过程中提出的问题。从用户的声音中,我们听到用户对稳定、弹性、透明的诉求,我们也在不断升级ECS的运维能力和体验,助力用户建立主动运维体系,赋能业务永续运行。

关于云上运维我的问题是:

1 您的系统做了哪些高可用设计和故障响应机制来应对各类异常故障,比如服务器的非预期宕机?效果怎么样?
2 您的系统所支撑的业务存在经常性的负载变化吗?是使用弹性伸缩服务还是自己实现一套应对机制?
3 您如何在ECS上做应用发布部署,是将新的发布做成自定义镜像,或者使用userdata在实例创建时做初始化部署,还是利用第三方工具在运行时部署?
4 这个过程中你觉得阿里云有那些可以做得更好的吗?

阿里云自动化运维产品发布会

带着这些问题,8月8日在阿里云自动化运维产品发布会上阿里云高级产品专家张鹏程(践远))将分享ECS升级主动运维能力
主要针对企业运维人员,通过阿里云提供的实例健康状态、系统事件等丰富信息,及时感知ECS实例的运行状态和变化影响,并基于ECS丰富的API和部署编排能力自动化响应,使云上运维更精细、更智能,保障业务永续运行。
发布会地址:https://yq.aliyun.com/webinar/play/485

参与话题

奖品区域 活动规则 10天后 结束

  • 奖品一

    淘公仔 x 1

  • 奖品二

    星座淘公仔 x 1

  • 奖品三

    福禄寿淘公仔 x 1

69个回答

4

黄一刀 复制链接去分享

1 您的系统做了哪些高可用设计和故障响应机制来应对各类异常故障,比如服务器的非预期宕机?效果怎么样?
我的系统通过应用集群和数据集群来应对各类异常故障。在单节点异常的情况下,系统还能继续正常运行,而且能很好的应对分布式攻击。
2 您的系统所支撑的业务存在经常性的负载变化吗?是使用弹性伸缩服务还是自己实现一套应对机制?
每年都有固定的几个点负载加大。通常都是通过临时提升CPU、内存、带宽来应对;
3 您如何在ECS上做应用发布部署,是将新的发布做成自定义镜像,或者使用userdata在实例创建时做初始化部署,还是利用第三方工具在运行时部署?
我们有专门的软件,通过文件比对替换掉旧的文件,通常都是局部更新。
4 这个过程中你觉得阿里云有那些可以做得更好的吗?
一个是阿里的高防价格太昂贵了,我们通常都是自己通过技术手段来应对,另外一个是阿里对于ECS的负载没有预警,负载一旦达到极限,应用就崩了。
ps:想要那只大黄鸡。

践远 回复

感谢您的介绍!您提到阿里云对于ECS的负载没有预警,这部分您有使用云监控来设定一些监控告警吗,还是负载增加后告警不及时导致您应用受损呢?

黄一刀 回复
回复@践远:

有设置,就是告警不及时。

评论
2

rippletek 复制链接去分享

1 您的系统做了哪些高可用设计和故障响应机制来应对各类异常故障,比如服务器的非预期宕机?效果怎么样?

综合运用“云计算十字真言”中的“冗余“和”漂移”,服务器宕机完全无感知,运维机器人甚至可以经常重启或关闭线上服务器。

2 您的系统所支撑的业务存在经常性的负载变化吗?是使用弹性伸缩服务还是自己实现一套应对机制?

各个服务的负载情况和变化趋势很不相同,使用“云计算十字真言”中的“伸缩”实践,运维机器人自动处理伸缩。

3 您如何在ECS上做应用发布部署,是将新的发布做成自定义镜像,或者使用userdata在实例创建时做初始化部署,还是利用第三方工具在运行时部署?

全面使用容器化部署,发布系统制作好容器镜像后通知容器调度系统进行部署,可实现无感知漂移上线。

4 这个过程中你觉得阿里云有那些可以做得更好的吗?

在容器计算的方向上可以跟得更紧一些,比如支持最新的minimal ubuntu系统。

上面提到的各种实践方法在这篇文章中有比较详细的介绍:https://yq.aliyun.com/articles/62686

践远 回复

这么强大的运维机器人,一定要认识下!

评论
2

痞子姜 复制链接去分享

1 您的系统做了哪些高可用设计和故障响应机制来应对各类异常故障,比如服务器的非预期宕机?效果怎么样?
集群、熔断、降级+故障自动重启,和以前相比,故障减少了,服务可用性明显提升了,机器的负载能力也提升了

2 您的系统所支撑的业务存在经常性的负载变化吗?是使用弹性伸缩服务还是自己实现一套应对机制?
存在,跟交通打交道,人流、车流多,数据量就飙升。使用弹性服务和自己的一些熔断机制来减轻压力,把对时效要求不高的任务往后排一排

3 您如何在ECS上做应用发布部署,是将新的发布做成自定义镜像,或者使用userdata在实例创建时做初始化部署,还是利用第三方工具在运行时部署?
Jenkins+gradle,采用第二种方案

4 这个过程中你觉得阿里云有那些可以做得更好的吗?
降低费用,提供免费额度,像七牛云那样,为个人开发者赋能

践远 回复

感谢您的分享,非常赞的云上实践!看到您的回复中提到有使用弹性伸缩服务,请问您对这个功能满意吗,如果有遇到哪些使用中的问题欢迎您的反馈,谢谢!

评论
1

浮生递归 复制链接去分享

1 您的系统做了哪些高可用设计和故障响应机制来应对各类异常故障,比如服务器的非预期宕机?效果怎么样?
主要是先前期调研好一个系统的各个时间节点,在不同的峰值进行针对行的解决方案。比如单纯的高流量,就提前设置好临时带宽升级。一些日期比较确定的系统,比如报名系统,用这种方式,可以一次设置,全年无忧。
对于非预期宕机,主要采用监控报警的方式,宕机了,就让技术人员赶紧上去排查原因呗。

2 您的系统所支撑的业务存在经常性的负载变化吗?是使用弹性伸缩服务还是自己实现一套应对机制?
我的系统有的应用负载变化非常明显。最大的就是报名系统的选位功能吧。一年里只有几天是报名时间,其他时间,访问量几乎为0。但是报名期间,特别是选位那一天,在选位功能刚开放的那一分钟,访问量会瞬间突破到上万。今年用了比较Low的解决方案,明年准备用负载均衡了。

3 您如何在ECS上做应用发布部署,是将新的发布做成自定义镜像,或者使用userdata在实例创建时做初始化部署,还是利用第三方工具在运行时部署?
现在都是用初始化部署的方式,但是现在感觉到这种方式很不方便,估计接下来会采用自定义镜像。

4 这个过程中你觉得阿里云有那些可以做得更好的吗?
目前应该做不到,将来能实现吧,当服务器宕机出现故障,希望阿里云的系统能够自动解决故障,恢复运行。这样就没我们运维什么事了,哈哈。

践远 回复

谢谢您的反馈!对于您提到的第四点,其实目前阿里云ECS实例在发生宕机时会有自动迁移恢复的机制,但这个过程通常需要几分钟的时间,而且应用能否恢复还取决于是否设定了完善的随系统启动的机制,因此还是建议能够在架构上规避单点故障的影响。

评论
0

1875333287957704 复制链接去分享

免费申请服务器在哪申请啊

小石_ 回复

符合条件就可以了啊

smartzmq 回复

如果是学生的话可以申请学生机;如果不是,这里有优惠券,https://promotion.aliyun.com/ntms/yunparter/invite.html?userCode=fk1p2n5w

评论
0

钟天毓瑞 复制链接去分享

做为一个举足轻重的国内大企业,希望工作能更加严谨细致,用户众多,容不得造成失误。

践远 回复

谢谢您的反馈,作为数字化时代的基础设施,我们敬畏每一位客户,敬畏每一行代码

评论
0

markds 复制链接去分享

1 您的系统做了哪些高可用设计和故障响应机制来应对各类异常故障,比如服务器的非预期宕机?效果怎么样?
有些跑在容器上的应用利用集群本身的HA,有些站点服务利用站点检测,设定合适的告警阈值,收到告警立即通知业务相关人员排查原因。

2 您的系统所支撑的业务存在经常性的负载变化吗?是使用弹性伸缩服务还是自己实现一套应对机制?
每年有几个点,负载会有突增的情况,临时调整带宽资源可以应对。对于弹性伸缩需要应用本身支持才有效果。

3 您如何在ECS上做应用发布部署,是将新的发布做成自定义镜像,或者使用userdata在实例创建时做初始化部署,还是利用第三方工具在运行时部署?
应用发布不是很频繁,应用发布过程还是比较传统。

4 这个过程中你觉得阿里云有那些可以做得更好的吗?
云监控在实例界面有显示可能更好,只要一个ECS被创建都应该被监控。

践远 回复

谢谢您的反馈!关于云监控的建议我们会有更多的优化工作来完善这方面的运维体验。

评论
0

aoteman675 复制链接去分享

1 您的系统做了哪些高可用设计和故障响应机制来应对各类异常故障,比如服务器的非预期宕机?效果怎么样?
我们有自己的机房,目前最好的方法就是集群,用分布式解决。我们的服务器用了负载均衡,服务器够用。
2 您的系统所支撑的业务存在经常性的负载变化吗?是使用弹性伸缩服务还是自己实现一套应对机制?
个别业务大的服务器就是增加配置,临时增加专线带宽。
3 您如何在ECS上做应用发布部署,是将新的发布做成自定义镜像,或者使用userdata在实例创建时做初始化部署,还是利用第三方工具在运行时部署?
有时候用自定义镜像,一般情况下都是用版本工具发布的。
4 这个过程中你觉得阿里云有那些可以做得更好的吗?
接入成本可以降低一些,提供一些接入文档或者视频,可以快速迁移整个运维系统,或者有一套解决方案等。

践远 回复

谢谢您的反馈,目前阿里云提供迁云工具,欢迎体验云上环境!

评论
1

2048iteration 复制链接去分享

对于运维背锅这件事,我是深有体会,我觉得更重要的是需要运维人员发现故障做好运维日志即使反馈

1

ap1253j8y 复制链接去分享

得视力具体情况而定吧,如果作为运维什么方案都没做,这个锅肯定运维背了
7951a18e62464106a77686c831071e40_1_1533347724.570168.jpg

1

山中 复制链接去分享

走进阿里云,看到的是新概念,新任务,会有什么新收获,还要往前走。

0

1848833209226604 复制链接去分享

阿里云可以代替QQ邮箱吗

小石_ 回复

代替?仅当做邮箱使用都可以吧

评论
0

satanboy 复制链接去分享

新人,就来看看大佬们发炎,但我也想要奖励怎么办。

0

一支云 复制链接去分享

阿里云1000元优惠券免费领,到期可再次领取 https://promotion.aliyun.com/ntms/yunparter/invite.html?userCode=4qfg8cpn

0

mobilego 复制链接去分享

各位大爷,请允许在下说句话:臣独秀,得阿里云如同得尚方宝剑,得心应手也

0

1533058255054537 复制链接去分享

jcnxcnmmmjumuumX
Dffc
N.
.Un

C,cc,fu,jj.。n

0

amol 复制链接去分享

能否介绍下自动化运维采用的技术,用在了哪些系统,实施后的效果这些内容?

0

初之夏 复制链接去分享

0

林明 复制链接去分享

您的系统做了哪些高可用设计和故障响应机制来应对各类异常故障,比如服务器的非预期宕机?效果怎么样?

做了主备,主挂了后备会上;为防止双活,使用了fence机制

0

1561233697309456 复制链接去分享

做为以为设计师我想知道阿里云可以代替哪些东西?

4
9572
浏览
0
收藏
邀请他人互动
关注
8
粉丝
107
话题
6

简介:

好好努力做好一个云计算的翻译官
专注于企业工作效率提升,解决重复有规律的工作并且帮助用户连接不同的系统和服务,实现工作流程自动化。

为您提供简单高效、处理能力可弹性伸缩的计算服务,帮助您快速构建更稳定、安全的应用,提升运维效率,降低 IT 成本...

全球畅游,绿色可靠,办公协同好帮手