我可以成功地将文本读入变量,但在尝试标记文本时出现这个奇怪的错误:
sentences=nltk.sent_tokenize(sample)
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe2 in position 11: ordinal not in range(128)
我确实知道错误的原因是一些特殊的字符串/字符,标记器无法读取/解码,但是如何绕过它?
谢谢
简而言之,NLTK3的pos_tag函数不起作用。
不过,NLTK2 功能运行良好。
pip卸载nltk
点安装http://pypi.python.org/packages/source/n/nltk/nltk-2.0.4.tar.gz http://pypi.python.org/packages/source/n/nltk/nltk-2.0.4.tar.gz
另一方面,标记器非常糟糕(显然“conservatory”是一个动词)。我希望 SpaCy 可以在 Windows 上运行。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)