如何设计高可用系统之故障隔离

  1. 云栖社区>
  2. 博客>
  3. 正文

如何设计高可用系统之故障隔离

子夜初商南 2019-08-06 22:39:05 浏览281
展开阅读全文

image.png

作者:大谷

什么是故障

简单来说,当功能或性能不符合预期,就是故障。

故障有两个比较重要的衡量指标:

RPO(Recovery Point Objective):主要指的是业务系统能容忍的最大数据丢失量,针对的是数据丢失。对于资金业务来说,一般 RPO 不能大于 0 的。

RTO(Recovery Time Objective): 主要指的是所能容忍的所业务停止服务的最长时间,针对的是服务丢失。

从单系统的角度看故障

image.png

一个系统,从头到脚,有非常多的故障点,所以,对于一个分布式系统来说,一定要假定故障是随时、而且一定会发生的。

故障隔离的目的

减少故障的方式有多种,包括系统优化、监控、风险扫描、链路分析、变更管控、故障注入演练、故障隔离等。故障隔离是其中一种手段,并且要求在系统设计时就需要考虑清楚。

从系统的角度看

故障隔离是指在系统设计的时候,要尽可能

网友评论

登录后评论
0/500
评论
子夜初商南
+ 关注