使用带有 utf8 的 NLTK 分词器 [重复]

2023-12-21

我是 Python 的一个相当新的用户，我主要处理导入的文本文件，尤其是 csv 文件，这让我处理起来很头疼。我尝试阅读这样的文档：https://docs.python.org/2/howto/unicode.html https://docs.python.org/2/howto/unicode.html但我完全不明白所说的内容。我只是想要一些直接脚踏实地的解释。

例如，我想将从互联网导出的大量逐字记录标记为 csv 文件。我想使用 NLTK 的分词器来做到这一点。

这是我的代码：

with open('verbatim.csv', 'r') as csvfile:
    reader = unicode_csv_reader(csvfile, dialect=csv.excel)
    for data in reader:
        tokens = nltk.word_tokenize(data)

当我对数据执行 print() 时，我得到干净的文本。

但是当我使用 tokenizer 方法时，它返回以下错误：

“ascii”编解码器无法解码位置 31 中的字节 0xe9：序号不在范围(128)

看起来像是编码问题。我对文本所做的每一个小操作总是遇到同样的问题。你能帮我吗？

这应该可以做到：

with open('verbatim.csv') as csvfile:  # No need to set mode to 'r', r is default
    reader = unicode_csv_reader(csvfile, dialect=csv.excel)
    for data in reader:
        tokens = nltk.word_tokenize(unicode(data, 'utf-8'))

否则你也可以尝试：

import codecs
with codecs.open('verbatim.csv', encoding='utf-8') as csvfile:
        reader = unicode_csv_reader(csvfile, dialect=csv.excel)
        for data in reader:
            tokens = nltk.word_tokenize(data)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

csv

NLTK

使用带有 utf8 的 NLTK 分词器 [重复] 的相关文章

如何在Python中获得更精确的十进制值[重复]

这个问题在这里已经有答案了 from math import sqrt a 1e 8 b 10 c 1e 8 x1 b sqrt b 2 4 a c 2 a x2 b sqrt b 2 4 a c 2 a print x1 format x
swig char ** 作为指向 char * 的指针

我在使用 swig 和 char 作为指向变量 char 的指针时遇到问题而不是作为 char 的列表我找不到将指针包装到 char 的方法目的是将连接的结果写入指针引用的 char 中以下是我的代码文件指针 cpp includ
检查字符串是否以 XXXX 开头

我想知道如何在Python中检查字符串是否以 hello 开头在 Bash 中我通常这样做 if string hello then do something here fi 我如何在Python中实现同样的效果 aString hell
在Python中将距离矩阵转换为成对距离列表[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案假设Python中有以下距离矩阵 0 1 2 3 0 0 1 4 8 1 1 0 3 7 2 4 3 0 3 3 8 7 3 0 我想
Plotly - 不同颜色的表面

我正在尝试在 Plotly for Python 中绘制多个曲面每个曲面具有不同的颜色具体来说表面显示了在相空间中不同点采取行动的预测奖励函数由于我在每个点都有多个可能的操作因此每个点都是不同的表面我想对每个表面进行独特的着色
PySerial 和多个 Python 安装出现问题

我的 Windows 7 计算机上有 Python 2 4 4 和 3 1 3 我想使用 PySerial 听说是内置的所以我尝试了一下import serial在两个版本中两者都造成了Import Error 然后我从以下位置下载了w
Pandas Dataframe.to_csv 小数=',' 不起作用

在 Python 中我正在将 Pandas Dataframe 写入 csv 文件并希望将小数分隔符更改为逗号像这样 results to csv D Data Kaeashi BigData ProcessMining Voorbe
如何在 python 中连接到 GObject 信号，而不保留对连接器的引用？

问题基本上是这样的在 python 的 gobject 和 gtk 绑定中假设我们有一个在构造时绑定到信号的类 class ClipboardMonitor object def init self clip gtk clipboard
seaborn 未在定义的子图中绘制

我正在尝试用这段代码并排绘制两个图表 fig ax1 ax2 plt subplots 1 2 sns displot x X train Age hue y train ax ax1 sns displot x X train Fare
Altair 条形图具有可变宽度的条形？

我正在尝试在 Python 中使用 Altair 制作条形图其中条形的宽度根据源数据帧列中的数据而变化最终目标是获得如下所示的图表条形的高度对应于每种能源技术的边际成本在源数据框中以列形式给出条形宽度对应于每种能源技术的容量也以
如何在 PySide/PyQt 中制作一个位于屏幕中央的小部件？

这段代码有效但我想知道是否有更简单的方法 def center self qr self frameGeometry cp gui QDesktopWidget availableGeometry center qr moveCenter
继承类中的python __init__方法[重复]

这个问题在这里已经有答案了我想为子类提供一些额外的属性而不必显式调用新方法那么有没有办法给继承的类一个 init 不重写的类型方法 init 父类的方法我编写下面的代码纯粹是为了说明我的问题因此属性等的命名很糟糕 class in
SQL查询中的Python列表作为参数[重复]

这个问题在这里已经有答案了我有一个 Python 列表比如说 l 1 5 8 我想编写一个 SQL 查询来获取列表中所有元素的数据例如 select name from students where id IN THE LIST l
Anaconda (Python) - Windows 10 上的 Cmder 集成

我在 Windows 10 64 位上通过 Anaconda 让 Cmder 使用 Python 时遇到了一些麻烦我让 Anaconda 工作得很好测试过用 matplotlib 绘制一些东西它与 Anaconda Prompt 一起
使用 pyinstaller 制作的可执行文件出现运行时错误

所以我使用 Pygame 制作了一个游戏现在我想用它制作一个可执行文件首选独立可执行文件所以我用它来制作可执行文件 pyinstaller onefile main py 编译顺利但运行时出现错误这是错误 Traceback mo
Python 中的“finally”总是执行吗？

对于Python中任何可能的try finally块是否保证finally块总是会被执行吗例如假设我在except block try 1 0 except ZeroDivisionError return finally print
纯Python库读写jpeg格式

伙计们我正在寻找 jpeg 写入阅读会很好但不是必需的库的纯 python 实现我只在以下位置创建了 TonyJPEG 库端口 http mail python org pipermail image sig 2004 Novem
FileAllowed 不显示错误消息

我正在使用 WTForms 我正在对文件上传应用验证并将其限制为仅 jpg png 和 pdf 格式但是如果我输入不正确则不会出现错误消息我按照这个教程https flask wtf readthedocs io en stabl
媒体文件上的 404 - Django

昨晚我将项目上传到 pythonanywhere com 我想在那里测试我的项目生产设置在我允许的模型之一中用户上传JPG 团队徽标上传过程运行良好文件位于我的 MEDIA ROOT 中问题是当我尝试在模板中访问它以将其显示在页
Python 线程与 Linux 中的多处理

基于此question https stackoverflow com questions 807506 threads vs processes in linux我假设创建新流程应该几乎和创造新线程在Linux中然而很少的测试显示出截

随机推荐

NFA 与 DFA 的时间复杂度权衡

我正在寻找关于 nfa 或 dfa 哪个更好使用以及在编译器中什么情况下使用的讨论模拟 nfa 与 dfa 的时间复杂度权衡是什么在编译器的什么情况下哪一个更合适从 NFA 构造 DFA 的时间为 O 2 m 其中 m 是节点数 D
AWS S3 预签名 URL 包含 X-Amz-Security-Token

我正在尝试使用 go sdk 为 S3 存储桶中的文件创建预签名 URL 当我从命令行运行程序时我得到了不包含 X Amz Security Token 的预签名 URL 但如果我使用 lambda 函数中的相同代码我总是会在 URL
在 Python 类中支持等价性（“平等”）的优雅方法

在编写自定义类时通过以下方式允许等效性通常很重要 and 运营商在 Python 中这是通过实现 eq and ne 分别采用特殊方法我发现执行此操作的最简单方法是以下方法 class Foo def init self item
使用 Gtk 3 在 Python 中加载并显示来自网络的图像？

我正在 Ubuntu 12 04 上使用 Python 和 GTK 3 编写一个应用程序我遇到的问题是我不知道应该如何使用来自网络的图像文件在我的应用程序中显示 Gtk Image 据我所知 from gi repository impo
Axlsx - 设置单元格内文本的格式

我似乎找不到任何有关是否可以使用多个格式选项填充单个单元格的信息例如我希望单元格 A1 填充以下文本 Hello世界这是excel 这可能吗如果可以我应该使用什么语法来执行此操作对于内联样式请使用富文本以下是 axlsx 页
当我尝试运行 Python 脚本时，为什么会出现“预期有缩进块”？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案编辑问题以包括期望的行为特定问题或错误以及重现问题所需的最短代码 help minimal reproducible example 这
VS2015 - 更改 TypeScript 版本

我正在尝试更新我的 Visual Studio 2015 Cordova TypeScript 项目以使用 TypeScript 版本1 6 0 beta 我目前正在使用1 5 3 我可以使用 NPM 安装最新版本但我的项目继续使用旧版本
更改列的因子值

我试图根据同一数据帧的另一列 solve status 列将值分配给数据帧的新列 all solved status 是一个具有 3 个标签的因子 ABC XYZ MNP 我必须根据条件 if ABC then 1 else 0 分配给 0
如何从 Django DeleteView 发送错误消息？

假设有两个模型Parent and Child Parent to child是一对多的关系我正在为父模型创建DeleteView 在删除之前我需要检查是否Parent has Children 如果没有Children then Par
计算总 Onclick Javascript

我正在学习 Javascript 并且对该语言还很陌生在我的 HTML 代码中我有两个列表在第一个选择列表中选择您想要的产品在第二步中您选择所需的产品数量我试图编写一个 javascript 代码它执行以下操作获取乘积值并将
使用 Google Maps API 查找某个区域内的街道交叉口

给定一个正方形区域找到给定区域内每个街道交叉口的近似坐标的最佳方法是什么由于没有对您的应用程序的描述我无法判断您是否需要使用 Google 地图或者其他数据源是否可以满足您的需求如果http openstreetmap org h
如何使用资源包设置 fx:value？

在 java fx 中可以使用 i18n 标签来使用组件 key符号例如
如何在加载时处理 webpack ENV 变量？

当您创建构建 webpack 时如何将 ENV 变量传递到代码中是非常清楚的请参阅此现有线程在 webpack 中传递环境相关变量 https stackoverflow com questions 30030031 passing
未应用页脚 CSS

当我写这篇文章时 Hello 一词出现在我的页面顶部而不是底部
如何使 Aero 玻璃背景上的 WPF 文本可读？

我有一个 WPF 应用程序可以在 Aero 玻璃背景上绘制文本问题是根据显示的内容behind在我的应用程序中玻璃背景上绘制的文本可能会变得难以阅读甚至完全无法阅读正如您在下面的屏幕截图中看到的 Save Undo and Redo
在c中获取一个字符而不按“enter”

是否可以使用常规 scanf 或 getchar 不起作用因为输入字符后我必须按输入你正在接近的领域ncurses http www gnu org software ncurses
如何开始使用大型决策表

今天我面临一个有趣的挑战我希望您能就如何处理这种情况提出意见所以问题如下我已将其转换为演示数据因为如果不熟记公司字典真正的问题就没有多大意义我们有一个至少包含 16 个条件的决策表因为管理所有这些 2 16 种可能性是一项不
ubuntu中libevent开发库的安装

我正在使用 ubuntu 10 10 尝试安装 libevent 开发库 libevent1 和 libevent2 我使用了以下命令 apt get install libevent dev libevent1 dev But it sh
Spring Data JPA 有什么方法可以使用方法名称解析来计算实体数量吗？

Spring数据JPA http static springsource org spring data data jpa docs 1 1 0 RELEASE reference html 支持使用规范对实体进行计数但是它有什么方法可以
使用带有 utf8 的 NLTK 分词器 [重复]

这个问题在这里已经有答案了我是 Python 的一个相当新的用户我主要处理导入的文本文件尤其是 csv 文件这让我处理起来很头疼我尝试阅读这样的文档 https docs python org 2 howto unicode ht

使用带有 utf8 的 NLTK 分词器 [重复]

使用带有 utf8 的 NLTK 分词器 [重复] 的相关文章

随机推荐

热门标签