让运维更高效:关于ECS系统事件

本文涉及的产品
轻量应用服务器 4vCPU 16GiB,适用于搭建游戏自建服
轻量应用服务器 2vCPU 4GiB,适用于搭建Web应用/小程序
轻量应用服务器 2vCPU 1GiB,适用于搭建电商独立站
简介: 阿里云会针对ECS实例发布系统事件,当您收到阿里云计划维护的通知时,可以利用ECS系统计划事件了解与实例相关的计划维护操作,并根据您的业务特性选择合适的时间安排运维操作进行故障转移,减少对系统可靠性和业务连续性的影响。
       阿里云作为领先和值得信赖的云计算服务提供商,提供和保障计算、存储、网络资源以及底层基础设施的可用性、稳定性、安全性。根据自身战略发展和业务需求,您可以设计高可用的云上IT架构,在阿里云上选择合适的产品、服务来搭建部署业务系统,并管理其中的数据。在此基础上,通过阿里云提供的API、监控、编排等多样化手段实现快速配置资源,搭建多套环境,自动化部署等IT运维能力。

       相较于普通的IDC机房以及服务器厂商,阿里云会使用更严格的IDC标准、服务器准入标准以及运维标准,以保证云计算整个基础框架的高可用性、数据的可靠性以及云服务器的高可用性。在此基础之上,阿里云在各地域提供多可用区服务,当您需要更高的可用性时,可以利用阿里云的多可用区搭建自己的主备服务或者双活服务。对于金融等对业务连续性有更高要求的行业领域,还可以通过多地域和多可用区搭建出更高的可用性服务,并实现更高的RTO、RPO数据保障能力。对于单台ECS实例, 阿里云承诺一个服务周期内单台ECS实例的服务可用性不低于99.95%;对于单地域多可用区,阿里云承诺一个服务周期内该单地域多可用区的服务可用性不低于99.99%。为了保障高水平的服务可用性,阿里云会主动对承载ECS实例运行的物理服务器做日常维护并修复潜在的软硬件等系统故障,以持续提升系统可靠性、性能和安全防护能力,并在探测到物理服务器存在故障隐患时在线热迁移实例至健康的服务器之上,保持ECS实例的健康运行状态。

       但作为阿里云的用户,您仍有可能会收到这样的消息通知,提醒您的ECS实例由于所在物理服务器存在故障风险需要维护,阿里云设定了一个实例重启的系统计划事件,将在大约2天后重启该实例并迁移至安全的物理机运行。

       您可能会疑惑,为什么还会受到这样的信息呢?其实,这是由阿里云平台主动运维自动触发的维护通知。在主动运维过程上,某些软硬件故障会导致实例无法在线迁移,这样的情况下,阿里云会向用户发送上述通知,提醒您系统即将通过重启实例执行迁移操作。为了提升您运维ECS实例的效率和体验,阿里云会发布ECS实例系统事件功能,当您接收到通知时,可以在ECS控制台或使用OpenAPI查看系统计划事件,并根据业务的需要选择合适的时间点执行系统事件(某些情况下只能等待系统事件按计划时间执行)。这样便免去了通过工单联系客服人工介入的过程,减少风险的同时,也为基于系统事件实现自动化故障转移提供了基础,让运维更高效。

       那么ECS实例会存在哪些类型的系统事件呢?阿里云会优先发布系统主动运维触发的实例重启(Reboot)类型事件,随后会给大家提供更丰富的事件类型来满足多种运维场景。如果存在系统计划事件,ECS 控制台待处理事件按钮上会出现显著标示提醒您查看。点击该按键后进入 待处理事件 > 系统计划事件 页面,在这里您可以看到实例 ID、地域、运行状态等实例相关信息,计划执行的系统事件相关信息,推荐的用户操作和可执行操作按键。您也可以通过调用OpenAPI DescribeInstanceFullStatus手动查询或自动轮询实例的系统计划事件。

       可以想象,当ECS实例承载关键业务时,任何非预期的实例重启都有可能对系统可用性和业务连续性造成威胁或严重影响,因此我们建议您在搭建应用系统时能充分利用可用区、负载均衡等功能和服务来提升架构和服务的整体可用性。在此基础上,对于阿里云主动修复系统故障触发的系统事件,通常系统会提前48小时给您发送通知,因此您可以利用事件计划时间之前的这段用户操作窗口期,做有准备的负载和故障转移操作并重启实例,比如,在集群环境中及时将负载从有计划事件的实例上转移到其他实例,或提前备份、转移本地磁盘的数据,或主动调整负载均衡和弹性伸缩的配置,以及基于业务逻辑做有顺序的启停实例等主动运维操作,最大限度地降低实例重启对业务连续性的冲击。

       对于系统事件生命周期的状态变化和ECS实例重启系统事件的来龙去脉,用两张图来说明:
187cd426e1e911c5a6cc8f44c0d14e6e0f171e72
daaa555152c93b257a794a988b87bb245a51a837

       ECS系统事件的类型和场景会不断完善和扩展,我们希望通过这样的方式,逐步提升您在阿里云上的运维效率和体验,提供更完备的接口和服务来支持用户在阿里云上实现无忧运维和业务永续。

       关于实例系统事件的更多信息,可以参考 帮助文档。对于如何在控制台和OpenAPI处理系统事件,请参阅:
        ECS主动运维事件--让你HOLD住全场 ,收到主动运维通知怎么办,不用工单,控制台上全搞定

相关实践学习
快速体验PolarDB开源数据库
本实验环境已内置PostgreSQL数据库以及PolarDB开源数据库:PolarDB PostgreSQL版和PolarDB分布式版,支持一键拉起使用,方便各位开发者学习使用。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
践远
+关注
目录
打赏
0
0
0
0
119
分享
相关文章
精通服务器推送事件(SSE)与 Python 和 Go 实现实时数据流 🚀
服务器推送事件(SSE)是HTML5规范的一部分,允许服务器通过HTTP向客户端实时推送更新。相比WebSocket,SSE更轻量、简单,适合单向通信场景,如实时股票更新或聊天消息。它基于HTTP协议,使用`EventSource` API实现客户端监听,支持自动重连和事件追踪。虽然存在单向通信与连接数限制,但其高效性使其成为许多轻量级实时应用的理想选择。文中提供了Python和Go语言的服务器实现示例,以及HTML/JavaScript的客户端代码,帮助开发者快速集成SSE功能,提升用户体验。
“AI医生”入驻运维现场:聊聊系统健康检查的新姿势
“AI医生”入驻运维现场:聊聊系统健康检查的新姿势
151 78
摆脱繁琐命令-让运维更加流畅-阿里云ECS操作系统控制台运维篇
阿里云操作系统控制台提供了便捷的服务器监控与管理功能,简化了运维工作。通过将多台服务器纳入统一监控平台,用户可以快速查看CPU、内存、磁盘和网络等关键资源的使用情况,避免了逐一远程连接查询的繁琐操作。此外,该工具支持自动化数据汇总,极大地方便了日报、周报和月报的编写。测试过程中,系统展示了良好的稳定性和响应速度,尤其在网络抖动和大文件健康状态测试中表现出色。整体体验流畅,显著提升了运维效率。 操作系统控制台地址:[点击访问](https://alinux.console.aliyun.com/)
63 26
摆脱繁琐命令-让运维更加流畅-阿里云ECS操作系统控制台运维篇
【阿里云】控制台使用指南:从创建ECS到系统诊断测评
本文介绍了如何通过阿里云获取ECS云服务器并进行操作系统配置与组件安装,以实现高效的资源管理和系统监控。阿里云凭借强大的基础设施和丰富的服务成为用户首选。文中详细描述了获取ECS、RAM授权、开通操作系统控制台及组件安装的步骤,并展示了如何利用控制台实时监控性能指标、诊断系统问题及优化性能。特别针对idle进程进行了深入分析,提出了优化建议。最后,建议定期进行系统健康检查,并希望阿里云能推出更友好的低成本套餐,满足学生等群体的需求。
92 17
【阿里云】控制台使用指南:从创建ECS到系统诊断测评
CentOS 7.9系统备份:每日定期发送最新备份文件到另一台服务器。
注意,这个解决方案忽略了很多细节,例如错误处理和通知、备份版本控制、循环处理旧的备份文件等等。此外,你也应该尽量保持源服务器和目标服务器之间快速,稳定且安全的网络连接,并且目标服务器应该有足够的空间用于存放每天的备份文件。如果你需要更高级的备份解决方案,可能需要考虑一下使用专门的备份工具或者服务。
36 18
AI 实时流量分析:运维老司机的“天眼”系统
AI 实时流量分析:运维老司机的“天眼”系统
44 14
中小医院云HIS系统源码,系统融合HIS与EMR功能,采用B/S架构与SaaS模式,快速交付并简化运维
这是一套专为中小医院和乡镇卫生院设计的云HIS系统源码,基于云端部署,采用B/S架构与SaaS模式,快速交付并简化运维。系统融合HIS与EMR功能,涵盖门诊挂号、预约管理、一体化电子病历、医生护士工作站、收费财务、药品进销存及统计分析等模块。技术栈包括前端Angular+Nginx,后端Java+Spring系列框架,数据库使用MySQL+MyCat。该系统实现患者管理、医嘱处理、费用结算、药品管控等核心业务全流程数字化,助力医疗机构提升效率和服务质量。
机器学习+自动化运维:让服务器自己修Bug,运维变轻松!
机器学习+自动化运维:让服务器自己修Bug,运维变轻松!
63 14
基于进程热点分析与系统资源优化的智能运维实践
智能服务器管理平台提供直观的可视化界面,助力高效操作系统管理。核心功能包括运维监控、智能助手和扩展插件管理,支持系统健康监控、故障诊断等,确保集群稳定运行。首次使用需激活服务并安装管控组件。平台还提供进程热点追踪、性能观测与优化建议,帮助开发人员快速识别和解决性能瓶颈。定期分析和多维度监控可提前预警潜在问题,保障系统长期稳定运行。
69 17
深度体验阿里云系统控制台:SysOM 让 Linux 服务器监控变得如此简单
作为一名经历过无数个凌晨三点被服务器报警电话惊醒的运维工程师,我对监控工具有着近乎苛刻的要求。记得去年那次大型活动,我们的主站流量暴增,服务器内存莫名其妙地飙升到90%以上,却找不到原因。如果当时有一款像阿里云 SysOM 这样直观的监控工具,也许我就不用熬通宵排查问题了。今天,我想分享一下我使用 SysOM 的亲身体验,特别是它那令人印象深刻的内存诊断功能。

热门文章

最新文章

相关产品

  • 云服务器 ECS
  • AI助理

    你好,我是AI助理

    可以解答问题、推荐解决方案等