弘积科技SuperSR:让业务系统拥有自愈能力

简介:

20170710124221265.jpg

随着业务的增长,服务器数量不断增多,IT运维压力也逐渐增大。各种软、硬件故障而造成的业务中断,已经成为数据中心管理者的噩梦。

“我们观察到,越来越多的用户投入大量的人力精力到运维和管理中,已经达到所能承受的极限了。尤其是一些金融、政府行业的用户,以及高校和医院,所拥有的业务系统很多,但是信息中心的人手非常不足的,导致没有办法实时监控到业务的状态。” 弘积科技技术总监邢韬表示。

不过,传统网络管理平台的监测关注点仍在于硬件设备的状态以及网络流量的状况,而并不在于应用层。因此,往往无法从业务层面进行更有效地监测和管理。

对于这些用户来说,亟需一个更智能、更自动化的网管解决方案,来释放IT人手,快速有效地监控、管理系统和网络。

弘积科技全新的SuperSR业务自愈方案由此而生。作为国内第一个关注于应用层的网络管理产品,SuperSR能实现对应用系统进行全面而深度的后台监测,并智能、自动地进行业务恢复。

“SuperSR可以实时监控系统中的业务状态,一旦监控到异常,会自动地进行恢复性的尝试,来恢复出现故障的业务系统,通常可在1-3分钟内可使业务自愈。”

利用可编程脚本模拟用户行为

20170710124341318.jpg

目前,弘积科技的SuperSR业务自愈方案已经在金融、政府、教育、医疗等行业进入落地阶段。

据悉,SuperSR的运行机制是通过可编程脚本自定义探测行为,从而模拟用户对于业务的数据访问需求,以及模拟管理员的恢复操作,可以帮助95%以上的业务系统实现自愈。

“就好比有一个虚拟用户全程模拟各种业务应用的请求,通过判断服务器的答复是不是和预期一致,从而监测业务状态。不论应用是什么样的,我们都可以根据应用特点来构建相应的脚本或者说数据包,来模拟用户的访问行为。一旦访问出现了异常,就会从用户切换到管理员视角,通过模拟管理员的操作手段,触发业务恢复动作。”

对于管理员来说,这些业务探测和恢复的行为都是自定义的,可以根据当前的系统状态,灵活选择是否自动恢复。

“要进行恢复操作的时候,系统会向管理员进行确认:现在发现问题了,是否要尝试进行这种业务恢复?如果管理员判断当前时间点不适宜,可以只看到告警,不进行操作。”

在今年发布的最新版本中,弘积科技SuperSR业务自愈方案增加了微信端推送功能,第一时间把告警推送到手机端,让管理人员哪怕在度假、出差过程中都能进行处理。

“告警通过微信平台公众号进行推送,管理员可以在微信上控制设备,进行业务恢复。哪怕在高铁上,只要手机有网、有微信,就能知道这个服务器是否出现问题了,并在出现问题的时候,确定是否要进行自愈恢复。”

愿景:AI与SuperSR的结合

20170710125222617.jpg

此外,SuperSR业务自愈系统还定期提供服务器运行状态报告,把业务服务器的运行状态进行汇总,让管理员更加方便地了解系统的运行情况。

“根据一定的时间段,比如说一个月,形成服务器运行状态报告。某台服务器在哪天几点几分出现了故障,不管是网络不通了,还是死机了,都会以报告的形式发送到管理员的邮箱。这样,管理员直接从这份报告就能了解这一个月服务器的运行情况。要是服务器在某个时间段频繁地出现问题,就能通过报告判断究竟是哪方面的原因。”

在谈到未来IT运维管理的前景时,邢韬认为,在人工智能和大数据的趋势浪潮下,让机器自主深度学习,理解业务需求,从而把重复的人力维护工作转移给智能化的网管设备,会是一种探索方向。

“目前我们还是通过人工预制好的脚本,来判断业务状态的正常与不正常。随着人工智能的发展,有一天也许可以完全抛开人力,通过机器学习,让产品能理解网络和应用,自主学习什么样的状态是正常的、什么样是不正常的。这样,就能真正摆脱目前繁琐、重复性的大量人力劳动,实现更灵活、更高效的管理。”





本文出处:畅享网
本文来自云栖社区合作伙伴畅享网,了解相关信息可以关注vsharing.com网站。
目录
相关文章
|
12月前
|
存储 运维 Prometheus
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.3 平台网站业务稳定性保障——5.3.1监控预警体系建设
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.3 平台网站业务稳定性保障——5.3.1监控预警体系建设
210 0
|
10月前
|
数据采集 运维 监控
如何保障业务稳定性?一文详解蚂蚁业务智能可观测平台BOS
本文将从可观测性视角出发,分析云上云下业务稳定性的难点,介绍蚂蚁集团的BOS平台是如何建设完善的解决方案来解决这些实际的痛点难点,并通过多个实践案例分享企业与机构如何利用BOS平台来实现云上云下全链路可观测性的需求。
228 0
如何保障业务稳定性?一文详解蚂蚁业务智能可观测平台BOS
|
12月前
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.3.5 改进追踪
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.3.5 改进追踪
106 0
|
12月前
|
负载均衡 监控 架构师
【业务架构】LEANIX : 业务能力
【业务架构】LEANIX : 业务能力
|
12月前
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.3 平台网站业务稳定性保障——5.3.4故障演练与紧急预案设计
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.3 平台网站业务稳定性保障——5.3.4故障演练与紧急预案设计
147 0
|
12月前
|
算法 BI
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.2故障分体系
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.2故障分体系
249 0
|
12月前
|
运维 监控 中间件
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.3.1故障发现
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.3.1故障发现
138 0
|
边缘计算 缓存 Kubernetes
应对网络不可靠挑战,用 OpenYurt 实现边缘业务连续性
应对网络不可靠挑战,用 OpenYurt 实现边缘业务连续性
应对网络不可靠挑战,用 OpenYurt 实现边缘业务连续性
|
存储 消息中间件 缓存
支撑性服务 & 自动化能力
云原生系统依赖于许多不同的辅助资源,例如数据存储、消息队列、监视和身份服务,这些服务统称为支撑性服务。
支撑性服务 & 自动化能力
|
缓存 监控 Cloud Native
阿里大规模业务混部下的全链路资源隔离技术演进
本文作为混部实践系列开篇,本篇文章将介绍资源隔离技术在混部中的重要性、其落地挑战及我们的应对思路。
阿里大规模业务混部下的全链路资源隔离技术演进