先于用户发现服务故障-内网可用性监控

  1. 云栖社区>
  2. 阿里云监控服务>
  3. 博客>
  4. 正文

先于用户发现服务故障-内网可用性监控

裴旻 2018-05-22 16:15:00 浏览2001
展开阅读全文

背景:

任何服务都避免不了出现以下问题,你的用户访问不了你的服务或者站点,用户偶尔碰到5xx,服务响应延迟比较慢,某台应用进程挂掉,导致访问时好时坏。问题在于,_你是否要等你的用户来告诉你,你的程序出问题了_。

出问题的原因很多,应用进程挂了,java应用大GC导致应用不响应,应用依赖的rds,redis响应慢或者干脆不响应。应用依赖的其他http服务响应慢或者不响应等。

困难:

然而,当企业上云后,应用程序的运行环境也变得复杂。
也许你的应用程序跑在了ecs上,可能是在vpc的内网环境里,无法有效的触达到你的应用程序。
也许你的应用程序跑在docker容器里。
也许你的应用程序是直接run在serverless架构里。
也许你懒于自己维护了一个zabbix,需要付出较大的维护成本。

以上这些,都让应用程序的运行时可用性监控变得困难

网友评论

登录后评论
0/500
评论
裴旻
+ 关注
所属云栖号: 阿里云监控服务