python nltk.sent_tokenize错误ascii编解码器无法解码

2024-03-20

我可以成功地将文本读入变量，但在尝试标记文本时出现这个奇怪的错误：

sentences=nltk.sent_tokenize(sample)
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe2 in position 11: ordinal not in range(128)

我确实知道错误的原因是一些特殊的字符串/字符，标记器无法读取/解码，但是如何绕过它？谢谢

简而言之，NLTK3的pos_tag函数不起作用。

不过，NLTK2 功能运行良好。

pip卸载nltk

点安装http://pypi.python.org/packages/source/n/nltk/nltk-2.0.4.tar.gz http://pypi.python.org/packages/source/n/nltk/nltk-2.0.4.tar.gz

另一方面，标记器非常糟糕（显然“conservatory”是一个动词）。我希望 SpaCy 可以在 Windows 上运行。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

NLTK

python nltk.sent_tokenize错误ascii编解码器无法解码的相关文章

Python Popen 与 psexec 挂起 - 不良结果

我对 subprocess Popen 和我认为是管道的问题有疑问我有以下代码块从 cli 运行时 100 都不会出现问题 p subprocess Popen psexec serverName get cmd c ver echo
使用 python 进行串行数据记录

Intro 我需要编写一个小程序来实时读取串行数据并将其写入文本文件我在读取数据方面取得了一些进展但尚未成功地将这些信息存储在新文件中这是我的代码 from future import print function import se
python 中的代表

我实现了这个简短的示例来尝试演示一个简单的委托模式我的问题是这看起来我已经理解了委托吗 class Handler def init self parent None self parent parent def Handle self
如何迭代按值排序的 Python 字典？

我有一本字典比如 a 6 b 1 c 2 我想迭代一下by value 不是通过键换句话说 b 1 c 2 a 6 最直接的方法是什么 sorted dictionary items key lambda x x 1 对于那些讨厌 la
在 Python distutils 中从 setup.py 查找脚本目录的正确方法？

我正在分发一个具有以下结构的包 mymodule mymodule init py mymodule code py scripts script1 py scripts script2 py The mymodule的子目录mymodul
Django 模型在模板中不可迭代

我试图迭代模型以获取列表中的第一个图像但它给了我错误即模型不可迭代以下是我的模型和模板的代码我只需要获取与单个产品相关的列表中的第一个图像模型 py class Product models Model title models
if 语句未命中中的 continue 断点

在下面的代码中两者a and b是生成器函数的输出并且可以评估为None或者有一个值 def testBehaviour self a None b 5 while True if not a or not b continue pri
Argparse nargs="+" 正在吃位置参数

这是我的解析器配置的一小部分 parser add argument infile help The file to be imported type argparse FileType r default sys stdin parser
Pandas 中允许重复列

我将一个大的 CSV 包含股票财务数据文件分割成更小的块 CSV 文件的格式不同像 Excel 数据透视表之类的东西第一列的前几行包含一些标题公司名称 ID 等在以下列中重复因为一家公司有多个属性而不是一家公司只有一栏在前几行
填充两个函数之间的区域

import matplotlib pyplot as plt import numpy as np def domain x np arange 0 10 0 001 f1 lambda x 2 x x 2 0 5 plt plot x
为什么在 Python 2.4 中使用 Unicode 数据会出现 ASCII 编码错误，而在 2.7 中却不会？

我有一个程序当在 Python 2 7 中运行时会生成正确的 Unicode 输出到标准输出当在 Python 2 4 中运行时我得到UnicodeEncodeError ascii codec can t encode chara
Python urllib.request.urlopen：AttributeError：'bytes'对象没有属性'data'

我正在使用 Python 3 并尝试连接到dstk 我收到错误urllib包裹我对SO进行了很多研究但找不到与这个问题类似的东西 api url self api base street2coordinates api body jso
从 python 发起 SSH 隧道时出现问题

目标是在卫星服务器和集中式注册数据库之间建立 n 个 ssh 隧道我已经在我的服务器之间设置了公钥身份验证因此它们只需直接登录而无需密码提示怎么办我试过帕拉米科它看起来不错但仅仅建立一个基本的隧道就变得相当复杂尽管代码示例将受
将 matplotlib 颜色图集中在特定值上

我正在使用 matplotlib 颜色图 seismic 绘制绘图并且希望白色以 0 为中心当我在不进行任何更改的情况下运行脚本时白色从 0 下降到 10 我尝试设置 vmin 50 vmax 50 但在这种情况下我完全失去了白色关
在 pytube3 中获取 youtube 视频的标题？

我正在尝试构建一个应用程序来使用 python 下载 YouTube 视频pytube3 但我无法检索视频的标题这是我的代码 from pytube import YouTube yt YouTube link print yt titl
Python 将日志滚动到变量

我有一个使用多线程并在服务器后台运行的应用程序为了无需登录服务器即可监控应用程序我决定包括Bottle http bottlepy org为了响应一些HTTP端点并报告状态执行远程关闭等我还想添加一种查阅日志文件的方法我可以使用以
如何在 OSX 上安装 numpy 和 scipy？

我是 Mac 新手请耐心等待我现在使用的是雪豹 10 6 4 我想安装numpy和scipy 所以我从他们的官方网站下载了python2 6 numpy和scipy dmg文件但是我在导入 numpy 时遇到问题 Library F
使用 PyTorch 分布式 NCCL 连接失败

我正在尝试使用 torch distributed 将 PyTorch 张量从一台机器发送到另一台机器 dist init process group 函数正常工作但是 dist broadcast 函数中出现连接失败这是我在节点 0
列表值的意外更改

这是我的课 class variable object def init self name name alias parents values table name of the variable self name 这是有问题的函数 f
迭代 pandas 数据框的最快方法？

如何运行数据框并仅返回满足特定条件的行必须在之前的行和列上测试此条件例如 1 2 3 4 1 1 1999 4 2 4 5 1 2 1999 5 2 3 3 1 3 1999 5 2 3 8 1 4 1999 6 4 2 6 1 5 1

随机推荐

在动态控件的 GridView 中找不到控件

我有一个网格视图我在运行时将文本框添加到每个单元格但是我似乎无法使用访问这些控件findcontrol 以下是我将文本框添加到网格视图的方法 If e Row RowType DataControlRowType DataRow Th
对象是引用类型还是值类型？

我仍然有疑问object 它是任何事物任何类的主要基类但它是引用类型还是值类型或者喜欢这些行为中的哪一个呢我需要澄清这一点我很难理解这一点 object obj1 OldString object obj2 obj1 obj1 N
更改视图、plot3D、Julia 语言（类似于 matplotlib）

我正在尝试改变 3D 散点图的视角朱莉娅语言例如此代码更改了视角但每次更改时都会单独绘制点而不是一起绘制 for i 1 10 X i Y i 2 Z i 3 fig figure ax gca projection 3d plo
在 Spring Boot 中从属性文件注入值数组

好的所以我有一个config properties market curpairs 0 name EuroDollar market curpairs 0 symbol EURUSD market curpairs 0 minamount
Ryacas 的符号矩阵乘法

我定义两个矩阵mat1 and mat2 in Sym适合 Ryacas 符号计算的类 library Ryacas x lt Sym x mat1 lt List List x 2 List x 3 x and mat2 lt List
处理路径长度的问题

我正在创建一个库用于在 Linux 和 Windows 上进行文件操作所以我需要处理路径主要要求是我的函数将接收 UTF8 格式的字符串但这会导致一些问题其中之一是我正在使用MAX PATH在窗户上和PATH MAX在linux中
为什么vscode中与“Reload Window”绑定的按键“Ctrl + R”不Reload Window？

我是 vscode 的新用户我遇到了一个问题我被告知可以通过重新加载窗口解决所以我首先通过命令面板找到它它确实解决了我的问题但是我注意到它说它绑定到 Ctrl R 那么如果这是它所绑定的键序列为什么按住 Ctrl 并
使用 Getopt::Long 时出现错误“panic: attempts to copy freed scalar”

我收到错误 panic attempt to copy freed scalar a121fb4 to a156be8 at p pl line 13 当我运行以下程序时 p pl use warnings use strict use G
应用程序spyder启动可能会产生错误窗口

在我的Windows 10中当我尝试通过anaconda navigator打开spyder时会发生这种情况 Application spyder launch may have produced errors Traceback mo
在 PHP 中使用冒号属性解析 XML

我有以下 XML 结构
使用 Golang 将 MySQL 表转储为 JSON

正在用 Go 将 MySQL 快速转储到 JSON 但是我发现我从数据库检索的所有内容都是 byte大批因此我将所有内容都编码为字符串而不是本机 JSON 整数或布尔值代码的子集 import encoding json datab
docker 容器中的 root 权限被拒绝

在过去的几天里我在构建或运行 docker 容器时遇到了一些问题 root 似乎没有访问文件系统的权限例如我创建了这个非常简单的 Dockerfile FROM centos RUN id ls l usr bin yum usr b
Elm 中有并行性吗？

可以用 Elm 编写并行代码吗 Elm 是纯函数式的因此不需要锁定当然我可以使用 Javascript FFI 在这里生成工人并自己完成但是我想要更用户友好的方式来做到这一点简短回答不目前还没有但下一个版本 0 15
为什么 npm 安装后 npm 运行准备脚本，如何停止它？

每当我跑步时npm install
inet_ntoa 的分段错误

include
使用 Linux 比较两个不同的 url

我是否可以比较两个不同的网址网站而无需先使用下载文件wget或者先做类似的事情我尝试了以下操作但收到以下错误 root desktop diff http www example net index php http www exa
如何使用 Android FirebaseUI 从 Firebase 进行分页查询

我有一个使用 Firebase Android SDK 作为服务器的聊天项目 3 个月后我的应用程序有了很多用户并且他们互相聊天很多从 Firebase 加载所有聊天列表需要很长时间所以现在我想知道如何使用 Android SDK
获取Postgresql的最后一个插入id

根据问题 PHP Postgres 获取最后插入 ID https stackoverflow com questions 6485778 php postgres get last insert id 6488840 他们指出检索最后一
在处理非常大的图像（即：10.000.000 像素及以上）时如何避免位图内存不足

目前我正在开发一个加载非常大图像的系统最小宽度 x 高度 gt 10 000 000 像素但是用户上传图像的比例通常与我们的要求比例不符所以我必须将其裁剪为适当的比例但是当使用 System Drawing 位图裁剪它时我总是遇到
python nltk.sent_tokenize错误ascii编解码器无法解码

我可以成功地将文本读入变量但在尝试标记文本时出现这个奇怪的错误 sentences nltk sent tokenize sample UnicodeDecodeError ascii codec can t decode byte 0x

python nltk.sent_tokenize错误ascii编解码器无法解码

python nltk.sent_tokenize错误ascii编解码器无法解码 的相关文章

随机推荐

热门标签

python nltk.sent_tokenize错误ascii编解码器无法解码的相关文章