使用带有 utf8 的 NLTK 分词器 [重复]

2023-12-21

我是 Python 的一个相当新的用户,我主要处理导入的文本文件,尤其是 csv 文件,这让我处理起来很头疼。我尝试阅读这样的文档:https://docs.python.org/2/howto/unicode.html https://docs.python.org/2/howto/unicode.html但我完全不明白所说的内容。我只是想要一些直接脚踏实地的解释。

例如,我想将从互联网导出的大量逐字记录标记为 csv 文件。我想使用 NLTK 的分词器来做到这一点。

这是我的代码:

with open('verbatim.csv', 'r') as csvfile:
    reader = unicode_csv_reader(csvfile, dialect=csv.excel)
    for data in reader:
        tokens = nltk.word_tokenize(data)

当我对数据执行 print() 时,我得到干净的文本。

但是当我使用 tokenizer 方法时,它返回以下错误:

“ascii”编解码器无法解码位置 31 中的字节 0xe9:序号不在 范围(128)

看起来像是编码问题。我对文本所做的每一个小操作总是遇到同样的问题。你能帮我吗?


这应该可以做到:

with open('verbatim.csv') as csvfile:  # No need to set mode to 'r', r is default
    reader = unicode_csv_reader(csvfile, dialect=csv.excel)
    for data in reader:
        tokens = nltk.word_tokenize(unicode(data, 'utf-8'))

否则你也可以尝试:

import codecs
with codecs.open('verbatim.csv', encoding='utf-8') as csvfile:
        reader = unicode_csv_reader(csvfile, dialect=csv.excel)
        for data in reader:
            tokens = nltk.word_tokenize(data)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

使用带有 utf8 的 NLTK 分词器 [重复] 的相关文章

  • 如何在Python中获得更精确的十进制值[重复]

    这个问题在这里已经有答案了 from math import sqrt a 1e 8 b 10 c 1e 8 x1 b sqrt b 2 4 a c 2 a x2 b sqrt b 2 4 a c 2 a print x1 format x
  • swig char ** 作为指向 char * 的指针

    我在使用 swig 和 char 作为指向变量 char 的指针时遇到问题 而不是作为 char 的列表 我找不到将指针包装到 char 的方法 目的是将连接的结果写入指针引用的 char 中 以下是我的代码 文件指针 cpp includ
  • 检查字符串是否以 XXXX 开头

    我想知道如何在Python中检查字符串是否以 hello 开头 在 Bash 中我通常这样做 if string hello then do something here fi 我如何在Python中实现同样的效果 aString hell
  • 在Python中将距离矩阵转换为成对距离列表[关闭]

    Closed 这个问题需要多问focused help closed questions 目前不接受答案 假设Python中有以下距离矩阵 0 1 2 3 0 0 1 4 8 1 1 0 3 7 2 4 3 0 3 3 8 7 3 0 我想
  • Plotly - 不同颜色的表面

    我正在尝试在 Plotly for Python 中绘制多个曲面 每个曲面具有不同的颜色 具体来说 表面显示了在相空间中不同点采取行动的预测奖励函数 由于我在每个点都有多个可能的操作 因此每个点都是不同的表面 我想对每个表面进行独特的着色
  • PySerial 和多个 Python 安装出现问题

    我的 Windows 7 计算机上有 Python 2 4 4 和 3 1 3 我想使用 PySerial 听说是内置的 所以我尝试了一下import serial在两个版本中 两者都造成了Import Error 然后我从以下位置下载了w
  • Pandas Dataframe.to_csv 小数=',' 不起作用

    在 Python 中 我正在将 Pandas Dataframe 写入 csv 文件 并希望将小数分隔符更改为逗号 像这样 results to csv D Data Kaeashi BigData ProcessMining Voorbe
  • 如何在 python 中连接到 GObject 信号,而不保留对连接器的引用?

    问题基本上是这样的 在 python 的 gobject 和 gtk 绑定中 假设我们有一个在构造时绑定到信号的类 class ClipboardMonitor object def init self clip gtk clipboard
  • seaborn 未在定义的子图中绘制

    我正在尝试用这段代码并排绘制两个图表 fig ax1 ax2 plt subplots 1 2 sns displot x X train Age hue y train ax ax1 sns displot x X train Fare
  • Altair 条形图具有可变宽度的条形?

    我正在尝试在 Python 中使用 Altair 制作条形图 其中条形的宽度根据源数据帧列中的数据而变化 最终目标是获得如下所示的图表 条形的高度对应于每种能源技术的边际成本 在源数据框中以列形式给出 条形宽度对应于每种能源技术的容量 也以
  • 如何在 PySide/PyQt 中制作一个位于屏幕中央的小部件?

    这段代码有效 但我想知道是否有更简单的方法 def center self qr self frameGeometry cp gui QDesktopWidget availableGeometry center qr moveCenter
  • 继承类中的python __init__方法[重复]

    这个问题在这里已经有答案了 我想为子类提供一些额外的属性 而不必显式调用新方法 那么有没有办法给继承的类一个 init 不重写的类型方法 init 父类的方法 我编写下面的代码纯粹是为了说明我的问题 因此属性等的命名很糟糕 class in
  • SQL查询中的Python列表作为参数[重复]

    这个问题在这里已经有答案了 我有一个 Python 列表 比如说 l 1 5 8 我想编写一个 SQL 查询来获取列表中所有元素的数据 例如 select name from students where id IN THE LIST l
  • Anaconda (Python) - Windows 10 上的 Cmder 集成

    我在 Windows 10 64 位上通过 Anaconda 让 Cmder 使用 Python 时遇到了一些麻烦 我让 Anaconda 工作得很好 测试过用 matplotlib 绘制一些东西 它与 Anaconda Prompt 一起
  • 使用 pyinstaller 制作的可执行文件出现运行时错误

    所以我使用 Pygame 制作了一个游戏 现在我想用它制作一个可执行文件 首选独立可执行文件 所以我用它来制作可执行文件 pyinstaller onefile main py 编译顺利 但运行时出现错误 这是错误 Traceback mo
  • Python 中的“finally”总是执行吗?

    对于Python中任何可能的try finally块 是否保证finally块总是会被执行吗 例如 假设我在except block try 1 0 except ZeroDivisionError return finally print
  • 纯Python库读写jpeg格式

    伙计们 我正在寻找 jpeg 写入 阅读会很好 但不是必需的 库的纯 python 实现 我只在以下位置创建了 TonyJPEG 库端口 http mail python org pipermail image sig 2004 Novem
  • FileAllowed 不显示错误消息

    我正在使用 WTForms 我正在对文件上传应用验证 并将其限制为仅 jpg png 和 pdf 格式 但是 如果我输入不正确 则不会出现错误消息 我按照这个教程https flask wtf readthedocs io en stabl
  • 媒体文件上的 404 - Django

    昨晚我将项目上传到 pythonanywhere com 我想在那里测试我的项目生产设置 在我允许的模型之一中用户上传JPG 团队徽标 上传过程运行良好 文件位于我的 MEDIA ROOT 中 问题是 当我尝试在模板中访问它 以将其显示在页
  • Python 线程与 Linux 中的多处理

    基于此question https stackoverflow com questions 807506 threads vs processes in linux我假设创建新流程应该几乎和创造新线程在Linux中 然而 很少的测试显示出截

随机推荐

  • NFA 与 DFA 的时间复杂度权衡

    我正在寻找关于 nfa 或 dfa 哪个更好使用以及在编译器中什么情况下使用的讨论 模拟 nfa 与 dfa 的时间复杂度权衡是什么 在编译器的什么情况下 哪一个更合适 从 NFA 构造 DFA 的时间为 O 2 m 其中 m 是节点数 D
  • AWS S3 预签名 URL 包含 X-Amz-Security-Token

    我正在尝试使用 go sdk 为 S3 存储桶中的文件创建预签名 URL 当我从命令行运行程序时 我得到了不包含 X Amz Security Token 的预签名 URL 但如果我使用 lambda 函数中的相同代码 我总是会在 URL
  • 在 Python 类中支持等价性(“平等”)的优雅方法

    在编写自定义类时 通过以下方式允许等效性通常很重要 and 运营商 在 Python 中 这是通过实现 eq and ne 分别采用特殊方法 我发现执行此操作的最简单方法是以下方法 class Foo def init self item
  • 使用 Gtk 3 在 Python 中加载并显示来自网络的图像?

    我正在 Ubuntu 12 04 上使用 Python 和 GTK 3 编写一个应用程序 我遇到的问题是我不知道应该如何使用来自网络的图像文件在我的应用程序中显示 Gtk Image 据我所知 from gi repository impo
  • Axlsx - 设置单元格内文本的格式

    我似乎找不到任何有关是否可以使用多个格式选项填充单个单元格的信息 例如 我希望单元格 A1 填充以下文本 Hello世界 这是excel 这可能吗 如果可以 我应该使用什么语法来执行此操作 对于内联样式 请使用富文本 以下是 axlsx 页
  • 当我尝试运行 Python 脚本时,为什么会出现“预期有缩进块”? [关闭]

    Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 编辑问题以包括期望的行为 特定问题或错误以及重现问题所需的最短代码 help minimal reproducible example 这
  • VS2015 - 更改 TypeScript 版本

    我正在尝试更新我的 Visual Studio 2015 Cordova TypeScript 项目以使用 TypeScript 版本1 6 0 beta 我目前正在使用1 5 3 我可以使用 NPM 安装最新版本 但我的项目继续使用旧版本
  • 更改列的因子值

    我试图根据同一数据帧的另一列 solve status 列将值分配给数据帧的新列 all solved status 是一个具有 3 个标签的因子 ABC XYZ MNP 我必须根据条件 if ABC then 1 else 0 分配给 0
  • 如何从 Django DeleteView 发送错误消息?

    假设有两个模型Parent and Child Parent to child是一对多的关系 我正在为父模型创建DeleteView 在删除之前我需要检查是否Parent has Children 如果没有Children then Par
  • 计算总 Onclick Javascript

    我正在学习 Javascript 并且对该语言还很陌生 在我的 HTML 代码中 我有两个列表 在第一个选择列表中选择您想要的产品 在第二步中 您选择所需的产品数量 我试图编写一个 javascript 代码 它执行以下操作 获取乘积值并将
  • 使用 Google Maps API 查找某个区域内的街道交叉口

    给定一个正方形区域 找到给定区域内每个街道交叉口的近似坐标的最佳方法是什么 由于没有对您的应用程序的描述 我无法判断您是否需要使用 Google 地图 或者其他数据源是否可以满足您的需求 如果http openstreetmap org h
  • 如何使用资源包设置 fx:value?

    在 java fx 中 可以使用 i18n 标签来使用组件 key符号 例如
  • 如何在加载时处理 webpack ENV 变量?

    当您创建 构建 webpack 时 如何将 ENV 变量传递到代码中是非常清楚的 请参阅此现有线程 在 webpack 中传递环境相关变量 https stackoverflow com questions 30030031 passing
  • 未应用页脚 CSS

    当我写这篇文章时 Hello 一词出现在我的页面顶部而不是底部
  • 如何使 Aero 玻璃背景上的 WPF 文本可读?

    我有一个 WPF 应用程序 可以在 Aero 玻璃背景上绘制文本 问题是根据显示的内容behind在我的应用程序中 玻璃背景上绘制的文本可能会变得难以阅读甚至完全无法阅读 正如您在下面的屏幕截图中看到的 Save Undo and Redo
  • 在c中获取一个字符而不按“enter”

    是否可以 使用常规 scanf 或 getchar 不起作用 因为 输入字符后我必须按 输入 你正在接近的领域ncurses http www gnu org software ncurses
  • 如何开始使用大型决策表

    今天我面临一个有趣的挑战 我希望您能就如何处理这种情况提出意见 所以问题如下 我已将其转换为演示数据 因为如果不熟记公司字典 真正的问题就没有多大意义 我们有一个至少包含 16 个条件的决策表 因为管理所有这些 2 16 种可能性 是一项不
  • ubuntu中libevent开发库的安装

    我正在使用 ubuntu 10 10 尝试安装 libevent 开发库 libevent1 和 libevent2 我使用了以下命令 apt get install libevent dev libevent1 dev But it sh
  • Spring Data JPA 有什么方法可以使用方法名称解析来计算实体数量吗?

    Spring数据JPA http static springsource org spring data data jpa docs 1 1 0 RELEASE reference html 支持使用规范对实体进行计数 但是它有什么方法可以
  • 使用带有 utf8 的 NLTK 分词器 [重复]

    这个问题在这里已经有答案了 我是 Python 的一个相当新的用户 我主要处理导入的文本文件 尤其是 csv 文件 这让我处理起来很头疼 我尝试阅读这样的文档 https docs python org 2 howto unicode ht