提高cassandra读存储性能的四大技巧

简介:

cassandra作为一个分布式的存储性能,其特点是写快读慢。最近看了cassandra 1.0的文档,发现1.0在读性能上做了一些提高。用户可以根据系统的要求,合理配置,从而提高读的性能。总结一下,有下面4个方面可以提高读性能。

  1、禁用read repair

  每一次读操作,cassandra都会在后台进行read repair操作。如果只要求读一个节点数据,cassandra在读到一个节点后,就将结果返回客户端,然后用read repair对其他的replicas进行同步(根据timestamp)。如果要求读多个节点,那么cassandra就读多个节点,然后根据timestamp进行比较,返回客户端最新的数据,然后再调用read repair对其他节点进行同步。Read repair在后台的操作,会占用一定的CPU和I/O,所以影响读性能。要提高读的性能,可以将read repair禁用掉,当然这会影响到一致性,但是对于节点比较稳定的系统,是可以考虑的。一种方法时用hinted off和nodel tool的node reapair定期对其进行同步,提高一致性。在cassandra1.0之前,禁用read repair需要修改代码,新的cassandra1.0可以通过对每个读操作调参(0到1),来设定read repair的机率。

  Compaction:使用Leveled compaction,并设定multithreaded_compaction,提高compaction的速度。

  在《cassandra中的压缩策略》(http://www.cnblogs.com/marysam/articles/2266061.html)这个文章中,我介绍了cassandra1.0目前支持的两种compaction策略---Tiered Compaction和Leveled Compaction。

  对于leveled compaction,可以对读写性能带来提升。在cassandra1.0的文档中说明,使用了leveled compaction,读性能提高了400%。

  Leveled compaction能够给读性能带来提高的原因是,leveled comapction中每一层都没有重复的记录,这样保证了可以保证90%的读都可以在一个sstable中完成。最坏的情况是一个记录存在在每一层,但是这个时候10TB的数据也就7层,查7个SStable就可以了。

   2、Compression

  在http://www.datastax.com/dev/blog/whats-new-in-cassandra-1-0-compression中对cassandra 的compression做了介绍。这里说道,用compression,其读的性能提高了25%-35%。

  Compression 之所以能够提高读的性能,是因为经过compression之后,每个节点能够存储更多的数据。同时Cassandra能在SStable index中够迅速地定位到记录的位置,然后解压这些记录进行操作。也就是说compression从两方面提高了读的速度:

  允许更多的数据在内存

  对于不再内存中,但是经常访问的数据,也能通过SStable index更快地访问。

  3、调整key cache和row cache的值

  Key cache:在内存中保存了记录的位置。当一个row的column很大时,不适宜将row整个放在内存中,这个时候只要保存key的位置,也就是row的位置就可以。这样可以让程序快速定位到row并进行操作。对于有大量对row进行操作的系统,有很大的提高。默认时200,000。可以用nodetool cfstats或者时jconsole进行检测,查看其命中率。

  Row cache:row cache 把整个row 的内容都放在内存中。适合的情况是,有一小部分hot data是经常反问的,或者要返回整个columns.在使用row cache时,用注意它对内存的影响。

  key cache 如果命中的话,会减少一次的查询。Row cache如果命中的话,减少两次的查询,对于column的类型是图片的系统,当然每个row是很大的,不能寄希望于row cache提高性能。但是我们可以把key cache提高,甚至设置成全部row的keys。这样保证所有的读操作,都能在key cache中命中。

  4、设置JVM heap的大小

  在cassandra 1.0中的,key cache时保存在JVM heap中,而Row cache是保存在电脑的内存中。如果想要提高row cache 的命中率,就要注意JVM heap大小的设置。既要保证JVM heap可以容纳menber table, key cache以及其他大概1GB的使用,又要防止JVM heap过大,影响电脑中row cache的命中。在http://www.datastax.com/docs/1.0/operations/tuning#cache-config中有讲到应该怎么对JVM heap大小进行合理的配置。










本文转自 wws5201985 51CTO博客,原文链接:http://blog.51cto.com/wws5201985/735618,如需转载请自行联系原作者
目录
相关文章
|
1月前
|
存储 关系型数据库 OLAP
TiDB适用场景解析:海量数据存储与高并发读写的利器
【2月更文挑战第25天】随着大数据时代的到来,海量数据存储和高并发读写成为众多企业面临的挑战。TiDB作为一种高性能、分布式的关系型数据库,以其独特的架构和强大的功能,在多个场景中展现出了卓越的性能。本文将详细探讨TiDB在海量数据存储、高并发读写等场景下的适用情况,分析其在不同业务场景中的优势与应用价值。
|
4月前
|
存储 对象存储 块存储
高性能数据存储有哪些方式
高性能数据存储有哪些方式
54 0
|
9月前
|
存储 大数据
大数据数据存储的分布式文件系统的HDFS的核心机制理解的数据读/写原理
在 Hdfs 中,数据的读写原理是基于块的分布式存储。
52 0
|
10月前
|
存储 监控 负载均衡
大数据数据存储的搜索引擎Elasticsearch的调优的磁盘读写优化
Elasticsearch是一个可扩展的搜索引擎,可以在同一个集群中部署多个Elasticsearch节点,以提高性能和可用性。
65 0
|
10月前
|
存储 缓存 JSON
大规模数据量下ES如何实现高性能检索?
大规模数据量下ES如何实现高性能检索?
493 0
|
11月前
|
存储 NoSQL Java
「数据库」YugaByte源于Cassandra,具有强一致性和更强性能
「数据库」YugaByte源于Cassandra,具有强一致性和更强性能
|
存储 缓存 固态存储
数据存储方式——KVELL:快速持续键值存储的设计与实现
数据存储方式——KVELL:快速持续键值存储的设计与实现
数据存储方式——KVELL:快速持续键值存储的设计与实现
|
canal 缓存 负载均衡
应用多级缓存模式支撑海量数据的读操作
应用多级缓存模式支撑海量数据的读操作
214 0
应用多级缓存模式支撑海量数据的读操作
|
cobar 关系型数据库 MySQL
关系型数据的分布式处理系统:Cobar
Cobar简介 Cobar是关系型数据的分布式处理系统,它可以在分布式的环境下像传统数据库一样为您提供海量数据服务。
230 0
关系型数据的分布式处理系统:Cobar