Redis开发运维实践高可用和集群架构与实践(四)

本文涉及的产品
云数据库 Redis 版,社区版 2GB
推荐场景:
搭建游戏排行榜
简介:

11.1.4 高可用和异常测试

11.1.4.1 测试环境介绍

 

sentinel的消息可以通过sentinel日志(/redis/log/sentinel.log)以及sentinel:hello订阅此频道进行查看。

11.1.4.2 手动切换测试

集群情况,2.128为主

发起主动切换:

 

查看sentinel日志:

 

在2.129上看,集群已经切换过来:


11.1.4.3 主实例宕测试

接上,此时master为2.129,找出redis实例的pid,然后kill:

 

此时查看sentinel日志:

 

从日志中可以看出已经切换到2.128,此时在2.128上看集群状态:

目前2.128为主,2.130为从,2.129上的redis宕掉。现在重启2.129上的redis实例,启动后该节点会从原先的主变为从,并对2.128进行同步,最后达到同步状态:

查看redis.conf和redis-sentinel.conf,发现都被改写。

11.1.4.4 单从实例宕测试

接上,2.129为从,此时杀掉该进程,redis.log日志记录如下:

 

此时集群正常提供对外服务,并不影响。

11.1.4.5 双从实例宕测试

接上,此时Master为2.128,还有一个活着的从2.130,集群状态如下:

此时,杀掉2.130的redis实例后,集群状态如下:

此时由于配置了最小slave个数为1,已经不满足,因此集群变为只读状态:

11.1.4.6 单sentinel宕测试

恢复集群状态,2.128为主,2.129、2.130为从。


此时,从2.128上看sentinel状态:
由于sentinel都是对等的,在此选择对2.128上的sentinel进行进程宕测试: 此时,本节点sentinel日志为: 其他节点sentinel日志为: 表示2.128上的sentnel已经宕。 此时集群读写正常,在一个sentinel宕机的基础上宕master后切换正常。

11.1.4.7 双sentinel宕测试

恢复集群状态,2.128为主,2.129、2.130为从。此时,将2.128的sentinel和2.129的sentinel都宕掉。此时主从集群读写均正常。 在双方sentinel宕机时,杀掉master,主从集群切换失效,原因是因为设置sentinel 的quorum为2,最少有两个sentinel活集群才正常切换。

11.1.4.8 master所在主机整体宕测试

恢复集群状态,2.128为主,2.129、2.130为从。此时,对2.128进行宕机测试,直接关闭电源。 主从切换至2.130,从2.129指向新的主:


sentinel日志为:

11.1.4.9 slave所在主机整体宕测试

恢复集群状态,2.128为主,2.129、2.130为从。此时直接关闭2.129,这时相当于一个redis slave进程和一个sentinel进程宕。主不受影响,并且感知到一个从已经宕机。


sentinel日志记录了此事件。

11.1.4.10 脑裂测试

恢复集群状态,2.128为主,2.129、2.130为从。首先进行一个从网络分离的测试:


此时集群状态为(从master看):
此时切断2.130这个链路,2.128和2.129分别为主从形成一个集群,2.130会失败,因为没有足够的sentinel进行投票完成failover。剩余集群如下:
第三台机器则为slave失败状态:


此时由于没有发生切换,因此对应用没有影响。

另一种情况,如果将主机网络断开,剩余两个从成为一个新的集群,其中一个从(2.129)成为主:

原来的主机则为没有slave的主:

此时由于没有可用的slave,旧主无法写入(实际上由于网络断开也根本无法访问,因此从网络和数据库本身都不具有可写性):


新主从可以接受读写请求: 此时如果旧主的网络恢复,由于它的epoch比较旧,因此会成为从,将部分同步(psync)网络宕期间产生的新数据。

从上述两种情况测试,此架构不会导致双主对外服务,也不会因为网络恢复而数据混乱。

脑裂的场景还可以进行的一个测试时多个sentinel,例如下列架构(为了便于测试在两台机器上开多端口模拟多台机器):

这个场景配置Quorum=3. 此时切断两台机器的通信网络(模拟两个机房之间通信中断),左边的机器(模拟主机房)集群不会受到影响,右边的机器(模拟灾备机房)由于不够大多数因此不会产生新的Master。

11.1.4.11 quorum测试

在一个如下的四节点环境中,

如果sentinel monitor的quorum设置为3,则宕机一台后再宕机,此时还剩余两台,存在两个sentinel,两个slave。由于quorum为3,而必须有>=max(quorum, num(sentinels)/2 +1) = max(3,2) = 3个sentinel都同意其中某一个sentinel主持failover,因此此时无sentinel可主持切换,因此测试表明,没有新的master被选出来,此时只能手动通过slaveof命令设置主从,并且手动切换(redis、sentinel和都应用不用重启):

 

如果sentinel monitor的quorum设置为2,则宕机一台后再宕机,此时还剩余两台,存在两个sentinel,两个slave。由于quorum为2,必须有>=max(quorum, num(sentinels)/2 +1)=max(2,2) =2个的sentinel都同意其中某一个sentinel主持failover,因此此时存在sentinel可主持切换,因此测试表明,新的master被选出来。

但是设置为2有一个危险就是如果出现如下的网络隔离状况:

集群就会脑裂,就会出现两个master。因此,生产上为了万无一失,宁可牺牲掉一定的高可用容错度也要避免脑裂。如果希望两台宕机依然可以切换,最好的方案不是降低quorum而是增多sentinel的个数,这个建议也是antirez在stackoverflow中回答一个人的提问时给的建议(http://stackoverflow.com/questions/27605843/redis-sentinel-last-node-doesnt-become-master#)。 如下场景测试:

此时其中两台宕机,必须有>=max(quorum, num(sentinels)/2 +1)=max(3,3) =3个的sentinel都同意其中某一个sentinel主持failover,因此此时存在sentinel可主持切换,测试结果表明此种部署方案可以正常切换。

11.1.4.12 Master hang死测试

由于我们的sentinel down-after-milliseconds为3100,即3.1s,因此在master上执行: debug sleep 3.0,系统不会切换,但是执行debug sleep 3.7或者更大的数值,系统就会判定为主sdown,进而变为odown随后发起投票切换。很难模拟取消odown的,因为时间差很短。

11.1.4.13 附:sentinel.conf被修改后的含义

port 26379 dir "/var/lib/redis/tmp" sentinel monitor mymaster 192.168.65.128 6379 2 sentinel config-epoch mymaster 18 ###确认mymater SDOWN时长 sentinel leader-epoch mymaster 18 ###同时一时间最多18个slave可同时更新配置,建议数字不要太大,以免影响正常对外提供服务 sentinel known-slave mymaster 192.168.65.129 6379 ###已知的slave sentinel known-slave mymaster 192.168.65.130 6379 ###已知的slave sentinel known-sentinel mymaster 192.168.65.130 26379 be964e6330ee1eaa9a6b5a97417e866448c0ae40 ###已知slave的唯一id sentinel known-sentinel mymaster 192.168.65.129 26379 3e468037d5dda0bbd86adc3e47b29c04f2afe9e6 ###已知slave的唯一id sentinel current-epoch 18 ####当前可同时同步的salve数最大同步阀值


本文为《Redis开发运维实践指南》内容,该书作者为黄鹏程,已授权云栖社区转载。


相关实践学习
基于Redis实现在线游戏积分排行榜
本场景将介绍如何基于Redis数据库实现在线游戏中的游戏玩家积分排行榜功能。
云数据库 Redis 版使用教程
云数据库Redis版是兼容Redis协议标准的、提供持久化的内存数据库服务,基于高可靠双机热备架构及可无缝扩展的集群架构,满足高读写性能场景及容量需弹性变配的业务需求。 产品详情:https://www.aliyun.com/product/kvstore     ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
相关文章
|
4天前
|
监控 Java 测试技术
现代化软件开发中的微服务架构设计与实践
随着软件开发的发展,传统的单体应用架构已经无法满足现代化应用的需求。微服务架构作为一种新的设计理念,为软件开发提供了更灵活、可扩展的解决方案。本文将介绍微服务架构的设计原则、实践方法以及相关技术工具,并结合实例展示其在现代化软件开发中的应用。
|
1天前
|
JavaScript Java 持续交付
构建高效微服务架构:后端开发的新范式
【5月更文挑战第3天】 在现代软件开发的浪潮中,微服务架构以其灵活性、可扩展性和技术多样性而受到重视。本文深入探讨了如何构建一个高效的微服务系统,包括关键的设计原则、技术选型、以及实现细节。我们将通过分析微服务的核心概念,提供一套实用的步骤和最佳实践,以指导开发者构建出既健壮又易于维护的分布式系统。文章将重点讨论如何在保证系统性能和稳定性的前提下,实现服务的解耦与独立部署,从而推动后端开发工作流的优化和创新。
|
2天前
|
Kubernetes API 开发者
构建高效微服务架构:后端开发的新范式
【5月更文挑战第2天】 随着现代软件开发的演进,传统的单体应用已难以满足快速变化的业务需求和敏捷开发的挑战。本文探讨了如何通过构建高效的微服务架构来提升后端开发的灵活性、可维护性和扩展性。我们将深入分析微服务的核心组件,包括服务拆分、容器化、API网关和持续集成/持续部署(CI/CD)等关键技术,并讨论它们如何共同作用以支持复杂的业务场景和云原生应用的需求。
11 1
|
4天前
|
监控 安全 开发者
构建高效可靠的微服务架构:后端开发的新范式
【4月更文挑战第30天】随着现代软件开发的复杂性日益增加,传统的单体应用架构已难以满足快速迭代与灵活部署的需求。微服务架构作为一种新兴的设计理念,它通过将一个大型应用程序拆分成一系列小而专注的服务来提供解决方案。本文旨在探讨如何构建一个高效且可靠的微服务架构系统,涵盖从设计原则、技术选型到部署实践的全方位知识,为后端开发者提供一种全新的开发思路和实践指导。
|
4天前
|
Java 调度 开发者
构建高效微服务架构:后端开发的新趋势深入理解操作系统之进程调度策略
【4月更文挑战第30天】 随着企业数字化转型的不断深入,传统的单体应用逐渐不能满足快速迭代和灵活部署的需求。微服务架构以其高度模块化、独立部署和易于扩展的特性,成为现代后端开发的重要趋势。本文将探讨如何构建一个高效的微服务架构,包括关键的设计原则、技术选型以及可能面临的挑战。
|
4天前
|
Cloud Native Devops 持续交付
构建未来:云原生架构在企业数字化转型中的关键作用构建高效微服务架构:后端开发的新范式
【4月更文挑战第30天】 随着企业加速其数字化进程,云原生架构已成为支撑复杂、可伸缩和灵活应用的骨干。本文探讨了云原生技术的崛起,重点分析了其在促进业务敏捷性、提高运营效率及推动创新方面的核心价值。通过深入剖析云原生生态系统的关键技术组件,如容器化、微服务、持续集成/持续部署(CI/CD)和DevOps实践,揭示了企业如何利用这些技术来构建和维护高度可用且动态的IT环境。文章还提出了一个多维度的采纳框架,帮助企业评估和实施云原生解决方案,以实现真正的业务价值。 【4月更文挑战第30天】在现代软件开发的快速演变中,微服务架构已经成为一种领先的设计模式,用于构建可扩展、灵活且容错的应用程序。与传
|
4天前
|
消息中间件 监控 负载均衡
构建高效微服务架构:后端开发的新范式
【4月更文挑战第30天】 在现代软件开发的浪潮中,微服务架构已成为一种广泛采用的设计模式。它通过将大型应用程序拆分成一组小型、松散耦合的服务来增强系统的可维护性、可扩展性和敏捷性。本文将探讨如何构建一个高效的微服务架构,包括关键的设计原则、技术选型、以及实现过程中的最佳实践。我们将深入讨论微服务间的通信机制、数据一致性问题、服务发现与负载均衡策略,以及如何确保系统的安全性和监控。
|
4天前
|
机器学习/深度学习 安全 网络安全
数字堡垒的构筑者:网络安全与信息安全的深层剖析构建高效微服务架构:后端开发的新趋势
【4月更文挑战第30天】在信息技术高速发展的今天,构建坚不可摧的数字堡垒已成为个人、企业乃至国家安全的重要组成部分。本文深入探讨网络安全漏洞的本质、加密技术的进展以及提升安全意识的必要性,旨在为读者提供全面的网络安全与信息安全知识框架。通过对网络攻防技术的解析和案例研究,我们揭示了防御策略的关键点,并强调了持续教育在塑造安全文化中的作用。
|
4天前
|
缓存 监控 API
构建高效微服务架构:后端开发的新范式
【4月更文挑战第30天】 随着现代软件开发的演进,传统的单体应用逐渐向微服务架构转变。本文将深入探讨微服务的核心概念、优势以及在设计高效后端系统时所面临的挑战。通过实例分析与最佳实践的结合,我们将揭示如何优化微服务的性能,保证系统的可扩展性、可维护性和安全性。
|
4天前
|
监控 API 开发者
构建高效可靠的微服务架构:后端开发的实践指南
【4月更文挑战第30天】 在当前软件开发的浪潮中,微服务架构以其灵活性、可扩展性和技术多样性成为企业数字化转型的宠儿。本文旨在探讨构建一个既高效又可靠的微服务系统所涉及的关键后端技术和策略。我们将深入分析微服务设计原则,讨论如何通过容器化、服务发现、API网关和断路器模式等技术手段来优化系统性能并确保其稳定性。同时,文章还将介绍持续集成/持续部署(CI/CD)的实践以及监控和日志管理的重要性。