记一次集群内无可用http服务问题排查-阿里云开发者社区

记一次集群内无可用http服务问题排查

2017-11-07 1649

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

前一阵子发现服务会有偶发的服务不可用的情况，记录一下这个问题的排查过程。

现象是这样的：每天到了某个时间点，就会出现服务不稳定的情况，偶发接口调不通。

线上业务使用了lvs-nginx-tomcat三层结构，首先查看tomcat监控，没有什么特别异常的情况，响应时间和错误码没发现有什么异常，CPU、IO等等指标也都正常。

再查看nginx上的监控，发现在某个时刻这个服务的5xx报错突增，大概7、8秒之后又恢复了。

继续在nginx服务器上找线索，发现Nginx在那个时间点会出现报错：

1 2	2015/12/24 10:30:38 [error] 13433#0: check time out with peer: 10.79.40.1xx:80

线上nginx会每秒探测后端所有服务器的某个uri，如果返回的http状态码是200则认为正常，连续3次探测失败则摘除探测失败的服务器，直到探测成功再恢复。

从日志中可以发现nginx在出问题的时间点对于后端所有tomcat的探测请求都出现了问题，导致摘除了所有后端服务器，在这段时间里请求会报502异常。

从nginx上的日志可以看到探测请求没有返回，那么请求实际发到tomcat了没有？线上业务中的探测频率是1s/次，于是到tomcat的访问日志里查找线索，过滤一个nginx对tomcat的所有探测请求：

可用看出从7:00:10-7:00:40左右的探测请求是有丢失的。

前端机的负载并不高，于是我们第一时间认为这可能是nginx到tomcat服务器的网络有问题。统计了一下线上日志，出问题的机器集中在某个网段，并且集中在一天之内的某几个时间点，这似乎也进一步印证了我们的猜测。

但到此为止仅仅是怀疑，为了证明我们的猜测，我们尝试去复现问题。我们在nginx上部署了一个简单的脚本，用curl命令对同样的tomcat发起每秒一次的请求，但结果比较诡异：

监测方式	监测地址	http版本	频率	所在服务器	目的服务器	问题
nginx	/	1.0	1s	nginx	tomcat	有
curl	/	1.0	1s	nginx	tomcat	无

这跟我们之前的猜测不一致，没办法，尝试在两端抓包查看网络状况，

tomcat抓包：

nginx抓包：

tomcat服务器在7:00:10已经接收了请求并且回复了ACK，7:00:13 nginx超时主动断开连接，7:00:15时tomcat才返回数据，网络的问题被排除了。

http://chenpipi.blog.51cto.com/8563610/1682450

本文转自Tenderrain 51CTO博客，原文链接：http://blog.51cto.com/tenderrain/1901963，如需转载请自行联系原作者

记一次集群内无可用http服务问题排查