Python3下的NLTK及nltk_data安装问题(Ubuntu环境)

  1. 云栖社区>
  2. 博客列表>
  3. 正文

Python3下的NLTK及nltk_data安装问题(Ubuntu环境)

优惠券发放 2018-12-05 07:36:55 浏览128 评论0

摘要: Python3下的NLTK及nltk_data安装问题(Ubuntu环境) 测试环境:Ubuntu Kylin 14.04 Python版本:3.4.3 在使用Python强大的第三方库nltk进行一些自然语言处理工作的时候遇到了一些困难,折腾一番总算解决。

Python3下的NLTK及nltk_data安装问题(Ubuntu环境)

测试环境:Ubuntu Kylin 14.04

Python版本:3.4.3



在使用Python强大的第三方库nltk进行一些自然语言处理工作的时候遇到了一些困难,折腾一番总算解决。现在在这里记录一下,当作备忘。



网上找到挺多安装nltk的教程,但经测试,好像都是适用于Python2的,对于Python3,就勉为其难了。这里的主要问题是,前辈们分享的nltk_data包是不兼容Python3的。



所以我的解决方案是:

到https://github.com/nltk/nltk_data下载gh-pages分支,里面的Packages就是我们要的资源。(注:截至2016年3月24日时本方案仍有效)



详细情况记录如下:

1.安装nltk。截至今天,安装的是nltk3.2,在有pip这些工具的情况下,安装这些库变得非常简单:

pip install nltk

另外官方的安装说明还附带了numpy,一个“赛Matlab的Python开源的数值计算扩展库”,说不定以后用得上:

pip install numpy





2.安装nltk_data。nltk_data是必要的nltk数据包,实现分词,词性标注,命名实体识别等功能都要用到这个数据包:

进入Python Shell后只需要两句就可以进入nltk_data的下载

$python

>>>import nltk

>>>nltk.download()

然后就可以按提示进行了。



重点是,下载会很慢或干脆卡住。此时需要手动下载nltk_data包。



下载方法:到https://github.com/nltk/nltk_data下载gh-pages分支,里面的Packages就是我们要的资源。


里面有部分是压缩包,需要解压。


将Packages文件夹改名为nltk_data,放在以下任一路径:
/usr/lib
/usr/local/lib
用户目录(比方说可能是/home/bennu)
其他nltk可以识别的路径,出错时有可能会在出错信息看到。


链接: https://pan.baidu.com/s/1UfJhJY9bJ9hqeTuzKxgQvw 密码: 2ce5




剩下就是继续努力学习了~

--------------------- 
作者:BennuChan 
来源:CSDN 
原文:https://blog.csdn.net/cxq2046/article/details/50972715 
版权声明:本文为博主原创文章,转载请附上博文链接!
【云栖快讯】阿里云栖开发者沙龙(Java技术专场)火热来袭!快来报名参与吧!  详情请点击

网友评论

作者关闭了评论