部分常用分词工具使用整理-阿里云开发者社区

部分常用分词工具使用整理

2019-05-29 2085

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 以下分词工具均能在Python环境中直接调用（排名不分先后）。1、jieba（结巴分词）免费使用2、HanLP（汉语言处理包）免费使用3、SnowNLP（中文的类库）免费使用4、FoolNLTK（中文处理工具包）免费使用5、Jiagu（甲骨NLP）免费使用6、pyltp（哈工大语言云）商用需要付费7、THULAC（清华中文词法分析工具包）商用需要付费8、NLPIR（汉语分词系统）付费使用1、jieba（结巴分词）“结巴”中文分词：做最好的 Python 中文分词组件。

以下分词工具均能在Python环境中直接调用（排名不分先后）。
1、jieba（结巴分词）免费使用
2、HanLP（汉语言处理包）免费使用
3、SnowNLP（中文的类库）免费使用
4、FoolNLTK（中文处理工具包）免费使用
5、Jiagu（甲骨NLP）免费使用
6、pyltp（哈工大语言云）商用需要付费
7、THULAC（清华中文词法分析工具包）商用需要付费
8、NLPIR（汉语分词系统）付费使用

1、jieba（结巴分词）
“结巴”中文分词：做最好的 Python 中文分词组件。
项目Github地址：jieba
安装：
pip install jieba
使用：
import jieba
jieba.initialize()
text = '化妆和服装'
words = jieba.cut(text)
words = list(words)
print(words)

2、HanLP（汉语言处理包）
HanLP是一系列模型与算法组成的NLP工具包，由大快搜索主导并完全开源，目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。
项目Github地址：pyhanlp

安装：
pip install pyhanlp
使用：
import pyhanlp
text = '化妆和服装'
words = []
for term in pyhanlp.HanLP.segment(text):

words.append(term.word)

print(words)

3、SnowNLP（中文的类库）
SnowNLP是一个python写的类库，可以方便的处理中文文本内容，是受到了TextBlob的启发而写的，由于现在大部分的自然语言处理库基本都是针对英文的，于是写了一个方便处理中文的类库，并且和TextBlob不同的是，这里没有用NLTK，所有的算法都是自己实现的，并且自带了一些训练好的字典。
项目Github地址：snownlp
安装：
pip install snownlp
使用：
import snownlp
text = '化妆和服装'
words = snownlp.SnowNLP(text).words
print(words)

4、FoolNLTK（中文处理工具包）
可能不是最快的开源中文分词，但很可能是最准的开源中文分词。
项目Github地址：FoolNLTK

安装：
pip install foolnltk
使用：
import fool
text = '化妆和服装'
words = fool.cut(text)
print(words)

5、Jiagu（甲骨NLP）
基于BiLSTM模型，使用大规模语料训练而成。将提供中文分词、词性标注、命名实体识别、关键词抽取、文本摘要、新词发现等常用自然语言处理功能。参考了各大工具优缺点制作，将Jiagu回馈给大家。
项目Github地址：jiagu
安装：
pip3 install jiagu
使用：
import jiagu
jiagu.init()
text = '化妆和服装'
words = jiagu.seg(text)
print(words)

6、pyltp（哈工大语言云）
pyltp 是 LTP 的 Python 封装，提供了分词，词性标注，命名实体识别，依存句法分析，语义角色标注的功能。
项目Github地址：pyltp，3.4模型下载链接：网盘
安装：
pip install pyltp
使用：
import pyltp
segmentor = pyltp.Segmentor()
segmentor.load('model/ltp_data_v3.4.0/cws.model') # 模型放置的路径
text = '化妆和服装'
words = segmentor.segment(text)
words = list(words)
print(words)

7、THULAC（清华中文词法分析工具包）
THULAC（THU Lexical Analyzer for Chinese）由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包，具有中文分词和词性标注功能。
项目Github地址：THULAC-Python
安装：
pip install thulac
使用：
import thulac
thu = thulac.thulac(seg_only=True)
text = '化妆和服装'
words = thu.cut(text, text=True).split()
print(words)

NLPIR（汉语分词系统）
主要功能包括中文分词；英文分词；词性标注；命名实体识别；新词识别；关键词提取；支持用户专业词典与微博分析。NLPIR系统支持多种编码、多种操作系统、多种开发语言与平台。
项目Github地址：pynlpir
安装：
pip install pynlpir
下载证书覆盖到安装目录，NLPIR.user 例如安装目录：/usr/lib64/python3.4/site-packages/pynlpir/Data

使用：
import pynlpir
pynlpir.open()
text = '化妆和服装'
words = pynlpir.segment(text, pos_tagging=False)
print(words)
pynlpir.close()

部分常用分词工具使用整理

热门文章

最新文章

相关电子书

相关实验场景