开发者社区人工智能文章正文

IKAnalyzer - 轻量级的中文分词工具

2019-07-22 1142

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 采用了特有的“正向迭代最细粒度切分算法“，具有60万字/秒的高速处理能力。采用了多子处理器分析模式，支持：英文字母（IP地址、Email、URL）、数字（日期，常用中文数量词，罗马数字，科学计数法），中文词汇（姓名、地名处理）等分词处理。

采用了特有的“正向迭代最细粒度切分算法“，具有60万字/秒的高速处理能力。

采用了多子处理器分析模式，支持：英文字母（IP地址、Email、URL）、数字（日期，常用中文数量词，罗马数字，科学计数法），中文词汇（姓名、地名处理）等分词处理。
对中英联合支持不是很好,在这方面的处理比较麻烦.需再做一次查询,同时是支持个人词条的优化的词典存储，更小的内存占用。

支持用户词典扩展定义。

针对Lucene全文检索优化的查询分析器IKQueryParser；采用歧义分析算法优化查询关键字的搜索排列组合，能极大的提高Lucene检索的命中率。

文章标签：

自然语言处理

verdalee

小刘丶

自然语言处理 Java 数据库连接

Java中文分词插件-Ansj中文分词

中文分词、java

小刘丶

353 0 0

阿甘兄

6月前

自然语言处理应用服务中间件

43分布式电商项目 - 中文分词器IK Analyzer配置

阿甘兄

31 0 0

小小工匠

11月前

自然语言处理安全关系型数据库

白话Elasticsearch30-IK中文分词之热更新IK词库

小小工匠

127 0 0

wyn-365

自然语言处理算法 Java

【Solr】之中文分词及IK库的安装使用-4

wyn-365

155 0 0

大数据资讯

自然语言处理 Java Maven

HanLP中文分词Lucene插件

基于HanLP，支持包括Solr（7.x）在内的任何基于Lucene（7.x）的系统。

大数据资讯

1965 0 0

大数据资讯

自然语言处理算法

中文分词算法工具hanlp源码解析

词图指的是句子中所有词可能构成的图。如果一个词A的下一个词可能是B的话，那么A和B之间具有一条路径E(A,B)。一个词可能有多个后续，同时也可能有多个前驱，它们构成的图我称作词图。

大数据资讯

1672 0 0

大数据资讯

自然语言处理搜索推荐 Java

Hanlp等七种优秀的开源中文分词库推荐

中文分词是中文文本处理的基础步骤，也是中文人机自然语言交互的基础模块。由于中文句子中没有词的界限，因此在进行中文自然语言处理时，通常需要先进行分词。

大数据资讯

3743 0 1

jli113

自然语言处理 Linux

中文分词工具比较

五款中文分词工具的比较，尝试的有jieba，SnowNLP，thulac（清华大学自然语言处理与社会人文计算实验室），StanfordCoreNLP，pyltp（哈工大语言云），环境是Win10，anaconda3.

jli113

4993 0 0

大数据资讯

自然语言处理 Java 索引

全文检索Solr集成HanLP中文分词

以前发布过HanLP的Lucene插件，后来很多人跟我说其实Solr更流行（反正我是觉得既然Solr是Lucene的子项目，那么稍微改改配置就能支持Solr），于是就抽空做了个Solr插件出来，开源在Github上，欢迎改进。

大数据资讯

3320 0 0

玄学酱

自然语言处理索引

8.6. 中文分词插件管理

玄学酱

2234 0 0

IKAnalyzer - 轻量级的中文分词工具

热门文章

最新文章

相关电子书