Redis混合存储产品与架构介绍

本文涉及的产品
云原生多模数据库 Lindorm,多引擎 多规格 0-4节点
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
云数据库 MongoDB,独享型 2核8GB
推荐场景:
构建全方位客户视图
简介: 简介 Redis混合存储实例是阿里云自主研发的完全兼容Redis协议和特性的混合存储产品。通过将部分冷数据存储到磁盘,在保证绝大部分访问性能不下降的基础上,大大降低了用户成本并突破了内存对Redis单实例数据量的限制。

简介

Redis混合存储实例是阿里云自主研发的完全兼容Redis协议和特性的混合存储产品。通过将部分冷数据存储到磁盘,在保证绝大部分访问性能不下降的基础上,大大降低了用户成本并突破了内存对Redis单实例数据量的限制。
目前阿里云Redis混合存储产品在华北2(北京)可用区D,华东1(杭州)可用区E,华南1(深圳)可用区C已开放售卖,相关产品介绍详见https://promotion.aliyun.com/ntms/act/hybridstore.html

与Redis高性能内存型实例差别

Redis高性能内存型实例中,所有的Key和Value都存储在内存中以达到极致性能。
Redis混合存储型实例中,所有的Key和经常访问的Value会被保存在内存中,保证绝大部分请求的极致性能。不常访问的Value(冷数据)则会被存储到磁盘上,以达到内存利用最高性价比。

产品优势

  1. 简单易用
    完全兼容Redis协议,用户无需修改任何代码。
  2. 低成本
    相同数据量下,NVMe盘成本仅为内存的1/10。
  3. 大容量
    突破内存容量限制,单实例最高可支持TB级别的数据容量。
  4. 高性能
    Redis混合存储型实例的绝大部分热点请求直接从内存获取,其性能与高性能内存型实例完全一致。后台异步IO,冷数据访问不影响正常请求的响应。在90%数据落在磁盘上的极端场景下,正态访问的QPS仍可达纯内存性的70%。底层存储采用阿里自研下一代高性能全用户态存储引擎Alibaba FusionEngine:通过结合上层应用深入定制,以及与底层硬件深度结合,将新一代存储介质如NVMe SSD性能发挥到极致。4KB数据读取速度在20us左右,相比业界同类引擎性能有80%提升。

整体架构

image

存储模型

image
在Redis混合存储实例中,我们将所有的Key和经常访问的Value保留在内存中,将不经常访问的Value保存在磁盘上。之所以在内存中保留所有Key是处于以下两点考虑:

  1. Key的访问频度比Value要高很多。
    作为KV数据库,通常的访问请求都需要先查找Key确认Key是否存在,而要确认一个key不存在,就需要以某种形式检查所有Key的集合。在内存中保留所有Key,可以保证key的查找速度与纯内存版完全一致。
  2. Key的大小占比很低。
    在通常的业务模型里面,即使是普通字符串类型,Value比Key要大几倍。而对于Set,List,Hash等集合对象,所有成员加起来组成的Value更是比Key大了好几个数量级。

Redis混合存储实例将所有的Key都认为是热数据,以少量的内存为代价保证所有Key的访问请求的性能是高效且一致的。而对于Value部分,Redis混合存储实例会在必要时根据最近访问时间,访问频度,Value本身大小等维度选取出一部分Value作为冷数据后台异步存储到磁盘上。

因此,Redis混合存储实例最适合以下使用场景:

  1. 数据访问不均匀,存在热点数据;
  2. 内存不足以放下所有数据,且Value较大(相对于Key而言)

线程模型

image
Redis混合存储实例采用单工作线程的模式,主线程为工作线程,负责处理用户请求等主要逻辑。此外,Redis混合存储实例中根据需要会配置若干个独立的IO线程负责与磁盘进行交互读写数据,IO线程读写数据时,主线程仍可继续响应其它用户请求。

数据从内存到磁盘

  1. 在周期巡检函数serverCron中,如果发现当前内存快满了,大于设定的阈值vm-max-memory(略小于maxmemory)时,会尝试挑选出一些key,将其Value保存到磁盘;
  2. 挑选的维度为最近访问时间和value大小, 公式为swappability = age*log(估算内存大小)。
  3. 主线程为挑选出的value生成IO任务,加入到IO任务队列中;
  4. IO线程会从IO任务队列中取出任务,将Value存储到底层存储引擎(RocksDB)中, 并通知主线程。
  5. 主线程收到通知后释放Value所占用内存并标记内存中该Key对应的Value已被存储到磁盘上。

数据从磁盘到内存

  1. 当Redis混合存储实例收到用户请求时,会先判断请求是否需要读取对应Key的Value;
  2. 如果请求不需要读取相关value(比如set foo bar是不需要关心foo这个key原有的值是多少的)或者value已经在内存中,则正常执行该命令;
  3. 如果有涉及到的Value不在内存中,主线程会对应生成一个读取Value的IO任务,加入到IO任务队列中;
  4. 主线程将需要等待IO任务完成的客户端加入到等待列表,然后继续处理其余客户端的请求;
  5. IO线程获取到读取Value的IO任务时,从底层存储引擎中读取数据,并通知主线程;
  6. 主线程收到通知后,依次处理等待该Value的所有客户端请求。

同步IO

在以下情况下,Redis混合存储的异步IO模型会退化成同步方式:

  1. 写入量太大导致后台线程不能及时将数据交换到磁盘,内存不断增加到超出maxmemory时。
  2. 由于无法预知脚本会操作哪些value以及原子性的要求,lua脚本中涉及到的value如果在磁盘上的话将会采用同步IO的方式从磁盘读取。

数据淘汰机制

在 Redis 中,允许用户设置最大使用内存大小 server.maxmemory,在内存限定的情况下是很有用的。Redis 内存数据集大小上升到一定大小的时候,就会施行数据淘汰策略。Redis 提供 6 种数据淘汰策略:

  • volatile-lru:从已设置过期时间的数据集(server.db[i].expires)中挑选最近最少使用的数据淘汰
  • volatile-ttl:从已设置过期时间的数据集(server.db[i].expires)中挑选将要过期的数据淘汰
  • volatile-random:从已设置过期时间的数据集(server.db[i].expires)中任意选择数据淘汰
  • allkeys-lru:从数据集(server.db[i].dict)中挑选最近最少使用的数据淘汰
  • allkeys-random:从数据集(server.db[i].dict)中任意选择数据淘汰
  • no-enviction(驱逐):禁止驱逐数据

Redis混合存储实例的淘汰策略与纯内存版完全一致,唯一不同的是触发条件。在混合存储实例中,除了内存规格大小server.maxmemory外,还有一个数据磁盘大小的限制server.maxdisksize。触发数据淘汰的条件响应的变为以下两者之一:

  1. 使用内存 > server.maxmemory 且 磁盘数据 > server.maxdisksize。
  2. 使用内存 > server.maxmemory, 且当前内存中无Value(全部为Key)。

持久化

Redis有两种持久化的方式:快照(RDB文件)和追加式文件(AOF文件):

RDB持久化方式会在一个特定的间隔保存那个时间点的一个数据快照。
AOF持久化方式则会记录每一个服务器收到的写操作。在服务启动时,这些记录的操作会逐条执行从而重建出原来的数据。写操作命令记录的格式跟Redis协议一致,以追加的方式进行保存。

Redis混合存储实例在RDB+AOF基础之上,采用了RocksDB的Checkpoint保存当前实例冷数据的部分。 在生成数据快照时,RDB中仅存储Key + 热数据部分,而冷数据部分则保存在RocksDB的Checkpoint中。RocksDB checkpoint生成过程如下:

  • 禁止删除SST文件;
  • 为SST文件创立硬链接;
  • 备份manifest等文件;
  • 允许删除SST文件;
    由于冷数据在RocksDB中的大部分是以SST文件形式存在的,使用硬链接的方式备份几乎不需要消耗额外的时间。通过使用RDB+CheckPoint的方式存储快照,Redis混合存储实例可以有效的降低数据快照生成和加载的时间,避免了过程中冷数据数据在RDB, 内存,RocksDB之间的来回转换。

底层存储引擎

Amber_001_jpeg
Redis混合存储实例通过精心定义的编码转换层最小化IO SIZE,定制调优的RocksDB最大化读写性能,阿里自研下一代高性能全用户态存储引擎压榨硬件性能以及搭配最新的硬件,将IO速度提升到极致。
底层存储采用阿里自研下一代高性能全用户态存储引擎Alibaba FusionEngine:通过结合上层应用深入定制,以及与底层硬件深度结合,将新一代存储介质如NVMe SSD性能发挥到极致。4KB数据读取速度在20us左右,相比业界同类引擎性能有80%提升。

性能数据

在线上机器上,我们使用memtier_benchmark测试了Redis纯内存高性能实例和Redis混合存储实例的性能对比如下(Value大小为1024字节):
image

  1. 当访问内存中数据时,Redis混合存储实例的性能与Redis纯内存高性能实例几乎一致;
  2. 当内存仅能容纳10%的value数据时,正态访问(70%的访问落在33%的数据范围内)时,Redis混合存储实例的性能为Redis纯内存高性能实例的70%左右。

产品详情

https://promotion.aliyun.com/ntms/act/hybridstore.html

相关实践学习
基于Redis实现在线游戏积分排行榜
本场景将介绍如何基于Redis数据库实现在线游戏中的游戏玩家积分排行榜功能。
云数据库 Redis 版使用教程
云数据库Redis版是兼容Redis协议标准的、提供持久化的内存数据库服务,基于高可靠双机热备架构及可无缝扩展的集群架构,满足高读写性能场景及容量需弹性变配的业务需求。 产品详情:https://www.aliyun.com/product/kvstore     ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
怀听
+关注
目录
打赏
0
0
0
1
9159
分享
相关文章
阿里面试:Redis 为啥那么快?怎么实现的100W并发?说出了6大架构,面试官跪地: 纯内存 + 尖端结构 + 无锁架构 + EDA架构 + 异步日志 + 集群架构
阿里面试:Redis 为啥那么快?怎么实现的100W并发?说出了6大架构,面试官跪地: 纯内存 + 尖端结构 + 无锁架构 + EDA架构 + 异步日志 + 集群架构
阿里面试:Redis 为啥那么快?怎么实现的100W并发?说出了6大架构,面试官跪地: 纯内存 + 尖端结构 +  无锁架构 +  EDA架构  + 异步日志 + 集群架构
新闻聚合项目:多源异构数据的采集与存储架构
本文探讨了新闻聚合项目中数据采集的技术挑战与解决方案,指出单纯依赖抓取技术存在局限性。通过代理IP、Cookie和User-Agent的精细设置,可有效提高采集策略;但多源异构数据的清洗与存储同样关键,需结合智能化算法处理语义差异。正反方围绕技术手段的有效性和局限性展开讨论,最终强调综合运用代理技术与智能数据处理的重要性。未来,随着机器学习和自然语言处理的发展,新闻聚合将实现更高效的热点捕捉与信息传播。附带的代码示例展示了如何从多个中文新闻网站抓取数据并统计热点关键词。
新闻聚合项目:多源异构数据的采集与存储架构
Codota的存储架构通过多种方式保障数据安全
Codota的存储架构通过多种方式保障数据安全
53 4
Redis分片集群中数据是怎么存储和读取的 ?
Redis集群采用的算法是哈希槽分区算法。Redis集群中有16384个哈希槽(槽的范围是 0 -16383,哈希槽),将不同的哈希槽分布在不同的Redis节点上面进行管理,也就是说每个Redis节点只负责一部分的哈希槽。在对数据进行操作的时候,集群会对使用CRC16算法对key进行计算并对16384取模(slot = CRC16(key)%16383),得到的结果就是 Key-Value 所放入的槽,通过这个值,去找到对应的槽所对应的Redis节点,然后直接到这个对应的节点上进行存取操作
Redis Stream:实时数据流的处理与存储
通过上述分析和具体操作示例,您可以更好地理解和应用 Redis Stream,满足各种实时数据处理需求。
213 14
基于Redis海量数据场景分布式ID架构实践
【11月更文挑战第30天】在现代分布式系统中,生成全局唯一的ID是一个常见且重要的需求。在微服务架构中,各个服务可能需要生成唯一标识符,如用户ID、订单ID等。传统的自增ID已经无法满足在集群环境下保持唯一性的要求,而分布式ID解决方案能够确保即使在多个实例间也能生成全局唯一的标识符。本文将深入探讨如何利用Redis实现分布式ID生成,并通过Java语言展示多个示例,同时分析每个实践方案的优缺点。
155 8
Codota的服务器存储架构
Codota的服务器存储架构
72 5
Codota的存储架构
Codota的存储架构
62 3
|
5月前
|
Redis分片集群中数据是怎么存储和读取的 ?
Redis集群采用哈希槽分区算法,共有16384个哈希槽,每个槽分配到不同的Redis节点上。数据操作时,通过CRC16算法对key计算并取模,确定其所属的槽和对应的节点,从而实现高效的数据存取。
117 13

相关产品

  • 云数据库 Tair(兼容 Redis)