TODO

简介:
1、搜索引擎原理——从索引、搜索、facet底层原理看搜索引擎的本质
2、开源搜索引擎分析——lucene(ES、Solr)、sphinx、wukong、bleve、poseidon、indextank-engine
3、商业搜索引擎Splunk介绍——性能,架构,底层窥探
4、提升CIS智能检索性能的方案——站在巨人肩上
从业务特点(写多余读,追加为主,删除过时数据)说起——时间范围分片,排序时间,放弃tf-idf、BM25,多条数据放一起(360)
提升写速度兼顾读性能,参考数据库存储引擎LSM(LevelDB、RocksDB)、B+mmap(LMDB、BoltDB、VoltDB)、WiredLSM、 Druid.io(InfluxDB后端存储由LevelDB换成了BoltDB,Bolt类似于LMDB,这个被认为是在现代kye/value存储中最好的)
数据压缩——LZ4/Deflate->zstd,列存储parquet,时间序列数据库( Riak IoT,openTSDB,InfluxDB-go+BoltDB, Akumuli,尤其是Druid.io concise压缩、Bitmap indexing加速查询,TokuDB分形树),日志相似度去重和加入分析统计

统计分析能力——特定字段数值的分布统计,topK,min/max/平均值,facet功能,TODO















本文转自张昺华-sky博客园博客,原文链接:http://www.cnblogs.com/bonelee/p/6351774.html,如需转载请自行联系原作者



相关文章
|
数据库 Python
AssertionError: Model app can‘t have more than one auto-generated field.
AssertionError: Model app can‘t have more than one auto-generated field.
313 0
AssertionError: Model app can‘t have more than one auto-generated field.
|
算法 Java Linux
难怪我看不懂!call_stub竟然这么玄乎!
哈喽,我是子牙。十余年技术生涯,一路披荆斩棘从技术小白到技术总监到JVM专家到创业。技术栈如汇编、C语言、C++、Windows内核、Linux内核。特别喜欢研究虚拟机底层实现,对JVM有深入研究。分享的文章偏硬核,很硬的那种。
109 0
难怪我看不懂!call_stub竟然这么玄乎!
|
Java Android开发
Todo List
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/voidreturn/article/details/78702613 fragment里面如何处理back按键事件。
980 0
|
Linux API 网络安全
netlink(todo)
http://www.cnblogs.com/hoys/archive/2011/04/09/2010788.html http://www.cnblogs.com/wenqiang/p/6306727.html    Netlink套接字是用以实现用户进程与内核进程通信的一种特殊的进程间通信(IPC) ,也是网络应用程序与内核通信的最常用的接口。
1122 0
TIPC协议(todo)
http://blog.chinaunix.net/uid-24020646-id-3317615.html http://tipc.sourceforge.net/tipc_linux.shtml
1325 0
openBMC(todo)
https://github.com/facebook/openbmc   1、GPIO int gpio_open(gpio_st *g, int gpio) { char buf[128]; int rc; snprintf(buf, sizeof(buf), "/sys/cla...
3033 0
todo: setsockopt
http://blog.chinaunix.net/uid-9688646-id-3476132.html https://my.oschina.net/u/2381372/blog/802844
716 0