NLTK(Natural Language Toolkit)是一个用于构建处理自然语言数据的Python应用开源平台。NLTK提供了超过50多个素材库和词库资源的易用接口,涵盖了分词、词性标注、命名实体识别、句法分析等各项NLP领域的功能。NLTK支持NLP和教学研究,它收集的大量公开数据集和文本处理库,可以用于给文本分类、符号化、提取词根、贴标签、解析及语义推理等。NLTK也是当前最为流行的自然语言编程与开发工具,在进行NLP研究和应用时,利用NLTK中提供的函数可以大幅度地提高效率。
安装NLTK
conda install nltk (略)
在虚拟环境中安装,用 conda list显示安装是否完成。
2.下载NLTK数据包
(1) 利用spyder,新建文件,编写代码,下载NLTK数据包
(2)在Anaconda Prompt中输入命令
以上两种方法测试是否下载NLTK数据包。此时弹出下载对话框,如图所示。
如报错getaddrinfo failed的错误时不能下载,可以到C:\Windows\System32\drivers\etc 路径下找到hosts文件,添加:185.199.109.133 raw.githubusercontent.com. 如IP地址有变化,https://www.ipaddress.com/,输入raw.githubusercontent.com去解析IP地址,及时更新ip地址。
一般情况下,此种方法下载不能完成,需要离线下载。网上下载nltk_data.zip文件(659M),解压。
此文件安装在哪里呢?可以先进行测试。
出现以上文件路径,选择其中一项路径即可。我安装在如下目录里。
3.测试是否成功
输入命令:from nltk.book import *
到此,NLTK安装成功,可以使用语料库进行获取等其他操作。
4.补充在Win10下安装问题
在win10下安装不用配置环境变量,按照上述步骤操作后仍出现问题。
执行命令操作:
>>> import nltk
>>> nltk.download('book')
可以查看nltk_data安装目录,同时更新包中文件。
继续测试是否安装成功, import nltk from nltk.book import * 如图所示数据包安装成功。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)