NLP学习------HanLP使用实验-阿里云开发者社区

NLP学习------HanLP使用实验

2018-10-15 2653

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

在之前的实验中得到了不在词向量里的词与分词结果，结果有500多个词不在词向量里，解决方案就是重新分词，或再追加训练这些词到词向量里。但后者相对麻烦且目前样本量不大。我跟据词向量的作者[6]所使用的分词工具来分词，会比不同工具（jieba）的效果要好，因为都是同一模式的分词，分出来的词应该都会存在于大型语料库中。实验证明思路是对的，最后结果是只有60几个词不在词向量里，其中大部分为名词，还有些为因语音翻译问题所造成的出错连词，所有这些词也只出现一次，这部分可以考虑最后删去也不会影响结果。改善未出现词是个关键步骤，因为此后模型会用到词向量，如果未出现词过多，会影响词向量效果。

问题：不过最后HANLP分词影响了实验判断结果，准确率从93%（jieba分词，同模型同参数）下降到90%。

实验：使用HanLP分词1

1,前期准备，（环境ubuntu，python3）安装JAVA-10[3]（hanlp是JAVA开发的，即使使用python调用pyhanlp需要借助java）, jpype（python中虚拟java环境），hanlp（开源中文处理工具，不只是分词还有各种工具），hanlp的root路径配置及data数据包放置[4]

2,主要程序[5]

w2v_model = KeyedVectors.load_word2vec_format(w2vpath, binary=False, unicode_errors='ignore') # 加载词向量
hanlppath="-Djava.class.path=/media/glados/Learning/project/NLP/hanlp/hanlp-1.6.4.jar:/media/glados/Learning/project/NLP/hanlp/"
jp.startJVM(jp.getDefaultJVMPath(), hanlppath) # , "-Xms1g", "-Xmx1g") # 启动JVM, Xmx1g分配1g内存
jp.JClass('com.hankcs.hanlp.HanLP$Config').ShowTermNature = False # 关闭分词属性显示
HanLP = jp.JClass('com.hankcs.hanlp.HanLP') #普通分词模式
words = str(HanLP.segment(sentence)) #分词将结果转为str
words = re.sub('[反斜杠[反斜杠],n]', ' ', words) # 这里注意实际程序是单，在blog里会出问题，所以用反斜杠替代
words = words.split()
words = del_stopword(words)
...
jp.shutdownJVM() # 最后关闭java虚拟环境

使用的是HANLP的普通分词功能，另外需注意，hanlp.segment()不能直接输出或赋值给python，因为其是java环境中数据，所以只有转为str（）后，再进行处理，否则会报错#A fatal error。（另外还有其他java与python数据对应问题，在这里没遇到，请参考其他）

词向量选用的是“Mixed-large综合”[6]，其包括百度wiki百科、人民日报等，总共1293214个词。

Hanlp的中部份功能没法使用，例如精确分词CRF。另外，要先加载词向量再加载java虚拟环境。#A fatal error has been detected by the Java Runtime Environment

3,实验结果

model

num_topic

limit

accuracy

precision

recall

tflsi

0.45

0.888888889

0.902173913

0.9

0.87804878

（模型使用的是特征为tfidf的lsi模型，参数：num_topics=3, 判断是否相似阀值为0.45,即大于0.45为true相似）

同模型同参数下，jieba分词结果

jieba分词未出现在词向量的约500多，有些词出现了好几次，而hanlp分词只有60几个未出现，且多数为名词，只出现过一次。

4,分析
在样本中，所有样本分词结果jieba比hanlp要多分出100个词左右。所以推测因hanlp分词细粒度大，分出词少，导致较少的共现词出现（也可能是hanlp分词精度更高，分出很多虚词被停止词表过滤造成），也就是说，lsi+tfidf模型对词细粒度大、分词少的分词器不友好，所以最后hanlp出错率更大。

jieba与hanlp都是很不错的分词器，结巴使用更方便。hanlp准确度要高一些（感觉），而且与文中提到的词向量相匹配。

（我免贵姓AI，jieba：我免/贵姓/AI，hanlp：我/免/贵姓/AI，实际：我/免贵/姓AI）
参考资料：
[[自然语言处理中文分词词性标注命名实体识别依存句法分析关键词提取新词发现短语提取自动摘要文本分类拼音简繁]](https://github.com/hankcs/HanLP)
文章来源于gladosAI的博客

NLP学习------HanLP使用实验

热门文章

最新文章

相关课程

相关电子书

相关实验场景