可用性监控-先于用户知道应用挂了

2018-01-13 1794

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 背景：任何服务都避免不了出现以下问题，你的用户访问不了你的服务或者站点，用户偶尔碰到5xx，服务响应延迟比较慢，某台应用进程挂掉，导致访问时好时坏。问题在于，_你是否要等你的用户来告诉你，你的程序是问题了_。

背景：

任何服务都避免不了出现以下问题，你的用户访问不了你的服务或者站点，用户偶尔碰到5xx，服务响应延迟比较慢，某台应用进程挂掉，导致访问时好时坏。问题在于，_你是否要等你的用户来告诉你，你的程序是问题了_。

困难：

然而，当企业上云后，应用程序的运行环境也变得复杂。
也许你的应用程序跑在了ecs上，可能是在vpc的内网环境里，无法有效的触达到你的应用程序。
也许你的应用程序跑在docker容器里。
也许你的应用程序是直接run在serverless架构里。
也许你懒于自己维护了一个zabbix，需要付出较大的维护成本。

以上这些，都让应用程序的运行时可用性监控变得困难。

解决方案：

可用性监控

云监控推出了应用可用性监控，可以通过在控制台创建一个可用性监控任务，从分组内选择部分机器，发起到本地127.0.0.1或者到内网组件（rds，oss，redis等），或者是远程api的探测任务，并将探测结果反馈到云监控，同时用户可以对探测结果设置一个报警，当探测不通或者不符合预期时，通过短信，邮件，钉钉，消息，回调等方式，在出问题的第一时间通知给你，让你在第一时间作出反应。

目前支持的探测类型包括：ping，telnet，http(s)三种，其中http支持对返回结果做简单检验，判断是否包括某些关键字等。