使用 Python NLTK 对大型 (>70MB) TXT 文件进行标记。连接并将数据写入流错误

2024-05-16

首先，我是 python/nltk 的新手，所以如果问题太基本，我深表歉意。我有一个大文件，我正在尝试对其进行标记；我遇到内存错误。

我读过的一种解决方案是一次一行读取文件，这是有道理的，但是，在这样做时，我收到错误cannot concatenate 'str' and 'list' objects。我不确定为什么会显示该错误，因为（读取文件后，我检查了它的类型，它实际上是一个字符串。

我尝试将 7MB 文件分成 4 个较小的文件，运行时，我得到：error: failed to write data to stream.

最后，当尝试一个非常小的文件样本（100KB 或更少）并运行修改后的代码时，我能够对文件进行标记。

对正在发生的事情有任何见解吗？谢谢。

# tokenizing large file one line at a time
import nltk
filename=open("X:\MyFile.txt","r").read()
type(raw) #str
tokens = '' 
for line in filename
        tokens+=nltk.word_tokenize(filename)
#cannot concatenate 'str' and 'list' objects

以下适用于小文件：

import nltk
filename=open("X:\MyFile.txt","r").read()
type(raw)
tokens = nltk.word.tokenize(filename)

问题 1：您正在像这样逐个字符地迭代文件。如果您想有效地读取每一行，只需打开文件（不要读取它）并按如下所示迭代 file.readlines() 。

问题 n°2：word_tokenize 函数返回一个标记列表，因此您试图将一个 str 与一个标记列表相加。首先必须将列表转换为字符串，然后可以将其求和到另一个字符串。我将使用 join 函数来做到这一点。将代码中的逗号替换为您想要用作粘合/分隔符的字符。

import nltk
filename=open("X:\MyFile.txt","r")
type(raw) #str
tokens = '' 
for line in filename.readlines():
    tokens+=",".join(nltk.word_tokenize(line))

如果您需要列表中的令牌，只需执行以下操作：

import nltk
filename=open("X:\MyFile.txt","r")
type(raw) #str
tokens = []
for line in filename.readlines():
    tokens+=nltk.word_tokenize(line)

希望有帮助！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 Python NLTK 对大型 (>70MB) TXT 文件进行标记。连接并将数据写入流错误的相关文章

Python 中的字节数组

如何在 Python 中表示字节数组如 Java 中的 byte 我需要用 gevent 通过网络发送它 byte key 0x13 0x00 0x00 0x00 0x08 0x00 在Python 3中我们使用bytes对象也称为s
如何将base64字符串直接解码为二进制音频格式

音频文件通过 API 发送给我们该文件是 Base64 编码的 PCM 格式我需要将其转换为 PCM 然后再转换为 WAV 进行处理我能够使用以下代码解码 gt 保存到 pcm gt 从 pcm 读取 gt 保存为 wav decod
从Python中的字符串中提取货币金额

我正在制作一个程序从字符串中获取货币并将其转换为其他货币例如如果字符串是 the car cost me 13 250 我需要得到 and 13250 我已经有了这个正则表达式 1 确实如此但是该字符串很有可能有多个价格并且全部使
boto3 资源（例如 DynamoDB.Table）的类型注释

The boto3库提供了几种返回资源的工厂方法例如 dynamo boto3 resource dynamodb Table os environ DYNAMODB TABLE 我想注释这些资源以便我可以获得更好的类型检查和完成但我
查找模块中显式定义的函数 (python)

好的我知道您可以使用 dir 方法列出模块中的所有内容但是有什么方法可以仅查看该模块中定义的函数吗例如假设我的模块如下所示 from datetime import date datetime def test return Thi
当我在 Pandas 中使用 df.corr 时，我的一些列丢失了

这是我的代码 import numpy as np import pandas as pd import seaborn as sns import matplotlib pyplot as plt data pd read csv dea
登录网站并使用 python 请求下载文件

我有一个带有 HTML 表单的网站登录后它会将我带到 start php 站点然后将我重定向到overview php 我想从该服务器下载文件当我单击 ZIP 文件的下载链接时链接后面的地址是 getimage php path
更改 python tkinter canvas 中的线坐标

我画了一条线tkinter Canvas现在我想移动一端这可能吗例如和itemconfig import tkinter tk tkinter Tk canvas tkinter Canvas tk canvas pack line c
WindowsError：[错误 126] 使用 ctypes 加载操作系统时

python代码无法在Windows 7平台上运行 def libSO lib ctypes cdll LoadLibrary ConsoleApplication2 so lib cfoo2 1 3 当我尝试运行它时得到来自python
python 中的 Johansen 协整检验

我找不到任何有关在处理统计和时间序列分析 pandas 和 statsmodel 的 Python 模块中执行 Johansen 协整检验的功能的参考有谁知道是否有一些代码可以执行时间序列之间的协整测试现在这已在 Python 的 s
Apache Spark 中的高效字符串匹配

我使用 OCR 工具从屏幕截图中提取文本每个大约 1 5 句话然而当手动验证提取的文本时我注意到时不时会出现一些错误鉴于文本你好我真的很喜欢 Spark 我注意到 1 像 I 和 l 这样的字母被替换 2 表情符号未被正确提
为什么我无法在 Mac OS X Terminal.app 上的 Python 解释器中显示 unicode 字符？

如果我尝试粘贴 unicode 字符例如中间的点在我的 python 解释器中它什么也不做我在 Mac OS X 上使用 Terminal app 当我只是在 bash 中时我没有遇到任何问题但在解释器中 python Pytho
乘以行并按单元格值附加到数据框

考虑以下数据框 df pd DataFrame X a b c d Y a b d e Z a b c d 1 2 1 3 df 我想在列中附加数字大于 1 的行并在该行中的数字减 1 df 最好应该然后看起来像这样或者它可能看起来
在 Sphinx 中，有没有办法在声明参数的同时记录参数？

我更喜欢在声明参数的同一行记录每个参数根据需要以便应用D R Y http en wikipedia org wiki Don t repeat yourself 如果我有这样的代码 def foo flab nickers a ser
Python]将两个文本文件合并为一个（逐行）[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我是蟒蛇新手我想做的是将文件 a 和文件 b 逐行合并到一个文件中例如 text file a a n b n c text fi
检测 IDLE 的存在/如何判断 __file__ 是否未设置

我有一个脚本需要使用 file 所以我了解到 IDLE 没有设置这个有没有办法从我的脚本中检测到 IDLE 的存在 if file not in globals file is not set 如果你想做一些特别的事情 file 未设置
对数据帧的每 2 小时数据进行 Groupby

我有一个数据框 Time T201FN1ST2010 T201FN1VT2010 1791 2017 12 26 00 00 00 854 69 0 87 1792 2017 12 26 00 20 00 855 76 0 87 1793
更改 Python Cmd 模块处理自动完成的方式

我有一个 Cmd 控制台设置为自动完成 Magic the Gathering 收藏管理系统的卡牌名称它使用文本参数在数据库中查询卡片并使用结果自动完成建议卡片然而这些卡片名称有多个单词 Cmd 会从last到行尾的空间例如
Python：高精度time.sleep

你能告诉我如何在 Win32 和 Linux 上的 Python 2 6 中获得高精度睡眠函数吗您可以在中使用浮点数sleep http docs python org library time html time sleep 该参数可以
使用 urllib 编码时保持 url 参数有序

我正在尝试用 python 模拟 get 请求我有一个参数字典并使用 urllib urlencode 对它们进行 urlencode 我注意到虽然字典的形式是 k1 v1 k2 v2 k3 v3 urlencoding 后参数的顺序切

随机推荐

sql join 告诉我 ID 是否存在于其他表中

我有 2 张桌子 A B ID FKID 1 3 2 3 3 4 4 4 我需要一个 select 语句它显示 A 的所有内容其中一个字段告诉我表 B 是否有任何与该 ID 匹配的 id Desired Result ID hasB 1
jquery 小部件、_create 或 _init

有些jquery插件扩展小部件使用 create方法而另一些则使用 init方法有人可以解释两者之间的区别吗还有什么时候扩展 widget 或直接扩展 jquery fn 更好的指导来自jQuery UI 开发人员指南 http d
Android平台源码中哪里可以找到版本信息

Android 平台源文件中的版本信息在哪里找到我尝试查找设置 gt gt 中列出的有关手机的一些信息显示的一些信息包括固件版本模块编号基带版本内核版本你可以给它办理登机手续platform build core versio
Android：如何从输入流创建 9patch 图像？

我使用下面的代码实例化 9patch 图像并将其设置为按钮的背景下图显示了不理想的结果 InputStream MyClass class getResourceAsStream images btn default normal 9 p
celery可以分配任务给指定worker吗

Celery 会将任务发送给空闲的工人我有一个任务每 5 秒运行一次我希望这个任务只发送给一个指定的工作人员其他任务可以共享剩余的工人芹菜可以这样做吗我想知道这个参数是什么 CELERY TASK RESULT EXPIRES这是
如何在 C# 中获取该月的最后一天？ [复制]

这个问题在这里已经有答案了如何在 C 中找到该月的最后一天另一种方法 DateTime today DateTime Today DateTime endOfMonth new DateTime today Year today Mon
哪种 Javascript 解决方案（不是 .htc）可以真正在 IE7 和 8 中实现抗锯齿圆角？

哪种 JavaScript 解决方案不是 htc 确实可以在 IE7 和 8 中实现抗锯齿圆角CSS3在支持的浏览器中给出我尝试了很多 http www ruzee com blog ruzeeborders http www ruze
PostgreSQL round(v numeric, s int)

Which method http en wikipedia org wiki Rounding Tie breakingPostgres 吗round v numeric s int http www postgresql org doc
IntentService、Service 或 AsyncTask

实现这一点的最佳方法是什么我有一个 Android 应用程序它将使用我的 python 服务器来允许两部手机之间进行轮流通信回合意味着他们在一轮开始之前不能互相交谈一旦他们发送一条消息他们就不能发送另一条消息直到对方做出回应然
Blazor WASM OIDC 指出无论我做什么，重定向 uri 都未定义

因此我遵循了和这个中等文章 https medium com marcodesanctis2 securing blazor webassembly with identity server 4 ee44aa1687ef它建议将 OIDC
如何使用本地安装的gems执行Ruby程序？

我已经使用安装了我的依赖项 bundle package 然后将它们传输到离线服务器并运行 gt bundle install local Using mime types 1 19 Using rest client 1 6 7 Usin
无法更改 Xampp 中的 Apache 端口号

我刚刚下载了Xampp服务器xampp win32 1 8 2 0 VC9 zip http www apachefriends org en xampp windows html 641文件 Windows 并尝试启动 apache 服务
Sql Server 的夏令时

我们正在使用一个以 C Unix 格式存储日期的旧应用程序 C 时间基本上是自 1970 年 1 月 1 日以来的秒数日期以整数形式存储在 SQL Server 数据库中我正在为使用这些日期的报告编写视图到目前为止我正在使用以下命令
FB登录：登录成功后不知道如何获得响应

我在我的网站上添加了一个 fblogin 按钮工作正常放置一个按钮当用户单击它时将打开一个用于登录的对话框但我不知道登录成功后如何获得响应请建议您可以使用JS SDK来订阅该类型的事件看看Facebook JavaScrip
TFS 自动构建：Nuget Pack 失败并显示代码(1)

我正在尝试在 TFS 中为 WPF 项目实现自动构建自动构建效果很好但我无法为该项目准备 nuget 包这是我在 TFS 中的构建过程如果我删除 NuGet 包和 NuGet 推送它就可以正常工作以下是我通过 TFS 收到的消息
在 ios 版 Ionic 中接收 URL

我正在使用离子框架我正在尝试设置一种从另一个应用程序接收网址的方法就像您在浏览器中单击共享然后将链接发送到另一个应用程序我的应用程序我找到了这个cordova https stackoverflow com questions
删除 json 对象字符串中的“\”

如何删除下面字符串中的特殊字符 String x message content toom recipients id 1000001865 room subject room 我使用了 x replaceAll 但它不起作用您必须转义正
JAX-RS 和 JAX-WS 有什么区别？

阅读了几篇有关 JAX RS 和 JAX WS 的文章后我有几个问题想确认一下 JAX RS可以像JAX WS一样做异步请求吗 JAX RS 能否访问不在 Java 平台上运行的 Web 服务反之亦然 REST 对于配置文件有限的设备
Django 将所有未捕获的 url 路由到包含的 urls.py

我希望每个不以 api 开头的网址都使用 foo urls py urls py from django conf urls import include url from foo import urls as foo urls urlpa
使用 Python NLTK 对大型 (>70MB) TXT 文件进行标记。连接并将数据写入流错误

首先我是 python nltk 的新手所以如果问题太基本我深表歉意我有一个大文件我正在尝试对其进行标记我遇到内存错误我读过的一种解决方案是一次一行读取文件这是有道理的但是在这样做时我收到错误cannot concat

使用 Python NLTK 对大型 (>70MB) TXT 文件进行标记。连接并将数据写入流错误

使用 Python NLTK 对大型 (>70MB) TXT 文件进行标记。连接并将数据写入流错误 的相关文章

随机推荐

热门标签

使用 Python NLTK 对大型 (>70MB) TXT 文件进行标记。连接并将数据写入流错误的相关文章