弘积科技SuperSR:让业务系统拥有自愈能力-阿里云开发者社区

弘积科技SuperSR:让业务系统拥有自愈能力

2018-03-20 1499

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

随着业务的增长，服务器数量不断增多，IT运维压力也逐渐增大。各种软、硬件故障而造成的业务中断，已经成为数据中心管理者的噩梦。

“我们观察到，越来越多的用户投入大量的人力精力到运维和管理中，已经达到所能承受的极限了。尤其是一些金融、政府行业的用户，以及高校和医院，所拥有的业务系统很多，但是信息中心的人手非常不足的，导致没有办法实时监控到业务的状态。” 弘积科技技术总监邢韬表示。

不过，传统网络管理平台的监测关注点仍在于硬件设备的状态以及网络流量的状况，而并不在于应用层。因此，往往无法从业务层面进行更有效地监测和管理。

对于这些用户来说，亟需一个更智能、更自动化的网管解决方案，来释放IT人手，快速有效地监控、管理系统和网络。

弘积科技全新的SuperSR业务自愈方案由此而生。作为国内第一个关注于应用层的网络管理产品，SuperSR能实现对应用系统进行全面而深度的后台监测，并智能、自动地进行业务恢复。

“SuperSR可以实时监控系统中的业务状态，一旦监控到异常，会自动地进行恢复性的尝试，来恢复出现故障的业务系统，通常可在1-3分钟内可使业务自愈。”

利用可编程脚本模拟用户行为

目前，弘积科技的SuperSR业务自愈方案已经在金融、政府、教育、医疗等行业进入落地阶段。

据悉，SuperSR的运行机制是通过可编程脚本自定义探测行为，从而模拟用户对于业务的数据访问需求，以及模拟管理员的恢复操作，可以帮助95%以上的业务系统实现自愈。

“就好比有一个虚拟用户全程模拟各种业务应用的请求，通过判断服务器的答复是不是和预期一致，从而监测业务状态。不论应用是什么样的，我们都可以根据应用特点来构建相应的脚本或者说数据包，来模拟用户的访问行为。一旦访问出现了异常，就会从用户切换到管理员视角，通过模拟管理员的操作手段，触发业务恢复动作。”

对于管理员来说，这些业务探测和恢复的行为都是自定义的，可以根据当前的系统状态，灵活选择是否自动恢复。

“要进行恢复操作的时候，系统会向管理员进行确认：现在发现问题了，是否要尝试进行这种业务恢复?如果管理员判断当前时间点不适宜，可以只看到告警，不进行操作。”

在今年发布的最新版本中，弘积科技SuperSR业务自愈方案增加了微信端推送功能，第一时间把告警推送到手机端，让管理人员哪怕在度假、出差过程中都能进行处理。

“告警通过微信平台公众号进行推送，管理员可以在微信上控制设备，进行业务恢复。哪怕在高铁上，只要手机有网、有微信，就能知道这个服务器是否出现问题了，并在出现问题的时候，确定是否要进行自愈恢复。”

愿景：AI与SuperSR的结合

此外，SuperSR业务自愈系统还定期提供服务器运行状态报告，把业务服务器的运行状态进行汇总，让管理员更加方便地了解系统的运行情况。

“根据一定的时间段，比如说一个月，形成服务器运行状态报告。某台服务器在哪天几点几分出现了故障，不管是网络不通了，还是死机了，都会以报告的形式发送到管理员的邮箱。这样，管理员直接从这份报告就能了解这一个月服务器的运行情况。要是服务器在某个时间段频繁地出现问题，就能通过报告判断究竟是哪方面的原因。”

在谈到未来IT运维管理的前景时，邢韬认为，在人工智能和大数据的趋势浪潮下，让机器自主深度学习，理解业务需求，从而把重复的人力维护工作转移给智能化的网管设备，会是一种探索方向。

“目前我们还是通过人工预制好的脚本，来判断业务状态的正常与不正常。随着人工智能的发展，有一天也许可以完全抛开人力，通过机器学习，让产品能理解网络和应用，自主学习什么样的状态是正常的、什么样是不正常的。这样，就能真正摆脱目前繁琐、重复性的大量人力劳动，实现更灵活、更高效的管理。”

本文出处：畅享网

本文来自云栖社区合作伙伴畅享网，了解相关信息可以关注vsharing.com网站。

弘积科技SuperSR:让业务系统拥有自愈能力