提高cassandra读存储性能的四大技巧-阿里云开发者社区

提高cassandra读存储性能的四大技巧

2017-11-17 2449

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

cassandra作为一个分布式的存储性能，其特点是写快读慢。最近看了cassandra 1.0的文档，发现1.0在读性能上做了一些提高。用户可以根据系统的要求，合理配置，从而提高读的性能。总结一下，有下面4个方面可以提高读性能。

　　1、禁用read repair

　　每一次读操作，cassandra都会在后台进行read repair操作。如果只要求读一个节点数据，cassandra在读到一个节点后，就将结果返回客户端，然后用read repair对其他的replicas进行同步(根据timestamp)。如果要求读多个节点，那么cassandra就读多个节点，然后根据timestamp进行比较，返回客户端最新的数据，然后再调用read repair对其他节点进行同步。Read repair在后台的操作，会占用一定的CPU和I/O,所以影响读性能。要提高读的性能，可以将read repair禁用掉，当然这会影响到一致性，但是对于节点比较稳定的系统，是可以考虑的。一种方法时用hinted off和nodel tool的node reapair定期对其进行同步，提高一致性。在cassandra1.0之前，禁用read repair需要修改代码，新的cassandra1.0可以通过对每个读操作调参(0到1)，来设定read repair的机率。

　　Compaction：使用Leveled compaction，并设定multithreaded_compaction,提高compaction的速度。

　　在《cassandra中的压缩策略》(http://www.cnblogs.com/marysam/articles/2266061.html)这个文章中，我介绍了cassandra1.0目前支持的两种compaction策略---Tiered Compaction和Leveled Compaction。

　　对于leveled compaction,可以对读写性能带来提升。在cassandra1.0的文档中说明，使用了leveled compaction,读性能提高了400%。

　　Leveled compaction能够给读性能带来提高的原因是，leveled comapction中每一层都没有重复的记录，这样保证了可以保证90%的读都可以在一个sstable中完成。最坏的情况是一个记录存在在每一层，但是这个时候10TB的数据也就7层，查7个SStable就可以了。

　　 2、Compression

　　在http://www.datastax.com/dev/blog/whats-new-in-cassandra-1-0-compression中对cassandra 的compression做了介绍。这里说道，用compression,其读的性能提高了25%-35%。

　　Compression 之所以能够提高读的性能，是因为经过compression之后，每个节点能够存储更多的数据。同时Cassandra能在SStable index中够迅速地定位到记录的位置，然后解压这些记录进行操作。也就是说compression从两方面提高了读的速度：

　　允许更多的数据在内存中

　　对于不再内存中，但是经常访问的数据，也能通过SStable index更快地访问。

　　3、调整key cache和row cache的值

　　Key cache:在内存中保存了记录的位置。当一个row的column很大时，不适宜将row整个放在内存中，这个时候只要保存key的位置,也就是row的位置就可以。这样可以让程序快速定位到row并进行操作。对于有大量对row进行操作的系统，有很大的提高。默认时200,000。可以用nodetool cfstats或者时jconsole进行检测，查看其命中率。

　　Row cache:row cache 把整个row 的内容都放在内存中。适合的情况是，有一小部分hot data是经常反问的，或者要返回整个columns.在使用row cache时，用注意它对内存的影响。

　　key cache 如果命中的话，会减少一次的查询。Row cache如果命中的话，减少两次的查询，对于column的类型是图片的系统，当然每个row是很大的，不能寄希望于row cache提高性能。但是我们可以把key cache提高，甚至设置成全部row的keys。这样保证所有的读操作，都能在key cache中命中。

　　4、设置JVM heap的大小

　　在cassandra 1.0中的，key cache时保存在JVM heap中，而Row cache是保存在电脑的内存中。如果想要提高row cache 的命中率，就要注意JVM heap大小的设置。既要保证JVM heap可以容纳menber table, key cache以及其他大概1GB的使用，又要防止JVM heap过大，影响电脑中row cache的命中。在http://www.datastax.com/docs/1.0/operations/tuning#cache-config中有讲到应该怎么对JVM heap大小进行合理的配置。