索引压缩算法New PForDelta简介以及使用SIMD技术的优化

  1. 云栖社区>
  2. AI·OS推荐与搜索技术>
  3. 博客>
  4. 正文

索引压缩算法New PForDelta简介以及使用SIMD技术的优化

alizhen 2018-03-23 11:42:47 浏览2682
展开阅读全文

written by 普队

New PForDelta算法介绍

倒排索引的数据包括docid, term frequency, term position等,往往会占用很大的磁盘空间,需要进行压缩。压缩算法需要考虑两点:压缩效果和解压缩效率。一般来说,提升解压缩效率,减少用户查询的响应时间更加重要。PForDelta算法以及它的改进版本New PForDelta算法在拥有不错压缩率的情况下解压缩性能也十分优秀。

PForDelta算法

算法的第一步是要进行Delta Encoding操作,对于一组按照顺序从小到大排列的数据,不需要保存每个元素的值,只需要保存相邻元素的差值即可。例如存储docid时就需要这么做,而对于不是递增排列的TF和TP,则没有这个操作,此时仅被称为PFor算法。

完成Delta Encoding后得到的数据会被拆分成多

网友评论

登录后评论
0/500
评论
alizhen
+ 关注
所属云栖号: AI·OS推荐与搜索技术