一个系统,搞定闲鱼服务端复杂问题告警-定位-快速处理

  1. 云栖社区>
  2. 闲鱼技术>
  3. 博客>
  4. 正文

一个系统,搞定闲鱼服务端复杂问题告警-定位-快速处理

闲鱼技术 2019-07-24 11:32:13 浏览10947
展开阅读全文

作者:闲鱼技术-吴白

引言

服务端问题排查(服务稳定性/基础设施异常/业务数据不符合预期等)对于开发而言是家常便饭,问题并不可怕,但是每天都要花大量时间去处理问题会很可怕;另一方面故障的快速解决至关重要。那么目前问题排查最大的障碍是什么呢?我们认为有几个原因导致:
1) 大量的告警信息。
2) 链路的复杂性。
3) 排查过程繁复。
4) 依赖经验。
然而实际工作中的排查过程并非无迹可寻,其排查思路和手段是可以沉淀出一套经验模型。

沉淀路径

下面是我的订单列表的简单抽象,其执行过程是先拿到我买到的订单列表。订单列表中又用到了卖家,商品以及店铺信息服务,每个服务又关联着单次请求中提供服务对应的主机信息。
我的订单列表
以线上常见的服务超时为例,上图中因为127.123.12.12这台机器出现异常导致商品服务超时,进而导致我的订单列表服务超时。根据日常中排查思路可以总结

网友评论

登录后评论
0/500
评论
闲鱼技术
+ 关注
所属云栖号: 闲鱼技术