NLP 做词频矩阵时，遇到特大矩阵触发memoryerror的处理方式

2023-11-14

昨天做NLP词频矩阵处理时候，遇到内存不足的问题，遇到memoryerror的情况。查了不少资料，都让我在大的机器上跑，但是有时候资源有限。

由于我的句子中的每个词语都是重要的，所以不设置停用词，也就是countvectoirze才符合我的需求，而并非TFIDFVECTORIZE，TFIDF是为了减小句子中的一些出现频率高但是却没有意义的词的权重。因此我选择了countvectorize。

当数据量小的时候，我们可以这样进行词频矩阵

from sklearn.feature_extraction.text import CountVectorizer
count_vec=CountVectorizer(token_pattern=r"(?u)\b[^/]+\b")
X_count_train = count_vec.fit_transform(word_list1)
X_count_train= X_count_train.toarray()




#结果
成功输出！

但是当我的数据量有130W+的句子。其中存在重复项70W+。一些电脑内存不够时，就会出现memoryerror！！

以下为做COUNTVECTORIZE词频矩阵代码：

from sklearn.feature_extraction.text import CountVectorizer
count_vec=CountVectorizer(token_pattern=r"(?u)\b[^/]+\b")
X_count_train = count_vec.fit_transform(word_list

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

memoryerror

python

NLP

countvectorize

NLP 做词频矩阵时，遇到特大矩阵触发memoryerror的处理方式的相关文章

django_openid_auth TypeError openid.yadis.manager.YadisServiceManager 对象不是 JSON 可序列化

I used django openid auth在我的项目上一段时间以来它运行得很好但今天我测试了该应用程序并遇到了这个异常 Environment Request Method GET Request URL http local
Python - 将宽字符字符串从二进制文件转换为 Python unicode 字符串

这是漫长的一天我有点困惑我正在读取一个包含大量宽字符字符串的二进制文件我想将它们转储为 Python unicode 字符串为了解压非字符串数据我使用 struct 模块但我不知道如何对字符串执行相同的操作例如阅读系列一
如何在 pytest 中将单元测试和集成测试分开

根据维基百科 https en wikipedia org wiki Unit testing Description和各种articles https techbeacon com devops 6 best practices inte
在Python中调整图像大小

我有一张尺寸为 288 352 的图像我想将其大小调整为 160 240 我尝试了以下代码 im imread abc png img im resize 160 240 Image ANTIALIAS 但它给出了一个错误TypeErro
为什么在 Python 2.4 中使用 Unicode 数据会出现 ASCII 编码错误，而在 2.7 中却不会？

我有一个程序当在 Python 2 7 中运行时会生成正确的 Unicode 输出到标准输出当在 Python 2 4 中运行时我得到UnicodeEncodeError ascii codec can t encode chara
更改 `base_compiledir` 以将编译后的文件保存在另一个目录中

theano base compiledir指编译后的文件存放的目录有没有办法可以永久设置theano base compiledir到不同的位置也许通过修改一些内部 Theano 文件的内容 http deeplearning net
如何从Python中的字符串中提取变量名称和值

我有一根绳子 data var1 id 12345 name John White python中有没有办法将var1提取为python变量更具体地说我对字典变量感兴趣这样我就可以获得变量的值 id和name python 这是由提供
如何使用列表作为pandas数据框中的值？

我有一个数据框需要列的子集包含具有多个值的条目下面是一个带有运行时列的数据框其中包含程序在各种条件下的运行时 df condition a runtimes 1 1 5 2 condition b runtimes 0 5 0 7
创建嵌套字典单行

您好我有三个列表我想使用一行创建一个三级嵌套字典 i e l1 a b l2 1 2 3 l3 d e 我想创建以下嵌套字典 nd a 1 d 0 e 0 2 d 0 e 0 3 d 0 e 0 b a 1 d 0 e 0 2 d 0
使用 NumPy 将非均匀数据从文件读取到数组中

假设我有一个如下所示的文本文件 33 346 1223 10 23 11 23 12 23 13 23 14 23 15 23 16 24 10 24 11 24 12 24 13 24 14 24 15 24 16 25 14 25 15
使用 PyTorch 分布式 NCCL 连接失败

我正在尝试使用 torch distributed 将 PyTorch 张量从一台机器发送到另一台机器 dist init process group 函数正常工作但是 dist broadcast 函数中出现连接失败这是我在节点 0
Tkinter - 浮动窗口 - 调整大小

灵感来自this https stackoverflow com a 22424245 13629335问题我想为我的根窗口编写自己的调整大小函数但我刚刚注意到我的代码显示了一些性能问题如果你快速调整它的大小你会发现窗口没有像我希望
当鼠标悬停在上面时，intellisense vscode 不显示参数或文档

我正在尝试将整个工作流程从 Eclipse 和 Jupyter Notebook 迁移到 VS Code 我安装了 python 扩展它应该带有 Intellisense 但它只是部分更糟糕我在输入句点后收到建议但当将鼠标悬停在其上方
Ubuntu 上的 Python 2.7

我是 Python 新手正在 Linux 机器 Ubuntu 10 10 上工作它正在运行 python 2 6 但我想运行 2 7 因为它有我想使用的功能有人敦促我不要安装 2 7 并将其设置为我的默认 python 我的问题是如
无法在前端使用 JavaScript Fetch API 将文件上传到 FastAPI 后端

我正在尝试弄清楚如何将图像发送到我的 API 并验证生成的token那是在header的请求到目前为止这就是我所处的位置 app post endreProfilbilde async def endreProfilbilde requ
限制 django 应用程序模型中的单个记录？

我想使用模型来保存 django 应用程序的系统设置因此我想限制该模型使其只能有一条记录极限怎么办尝试这个 class MyModel models Model onefield models CharField The fiel
在Python中按属性获取对象列表中的索引

我有具有属性 id 的对象列表我想找到具有特定 id 的对象的索引我写了这样的东西 index 1 for i in range len my list if my list i id specific id index i break
检查字典键是否有空值

我有以下字典 dict1 city name yass region zipcode phone address tehsil planet mars 我正在尝试创建一个基于 dict1 的新字典但是它不会包含带有空字符串的键它不会包
从 Twitter API 2.0 获取 user.fields 时出现问题

我想从 Twitter API 2 0 端点加载推文并尝试获取标准字段作者文本和一些扩展字段尤其是用户字段端点和参数的定义工作没有错误在生成的 json 中我只找到标准字段但没有找到所需的 user fields 用户
Scrapy Spider不存储状态（持久状态）

您好有一个基本的蜘蛛可以运行以获取给定域上的所有链接我想确保它保持其状态以便它可以从离开的位置恢复我已按照给定的网址进行操作http doc scrapy org en latest topics jobs html http d

随机推荐

MongoDB 数据库创建删除、表（集合）创建删除、数据增删改查

数据库使用开启 mongodb 服务要管理数据库必须先开启服务开启服务使用 mongod dbpath D mongodb 管理 mongodb 数据库 mongo 一定要在新的 cmd 中输入清屏 cls 查看所有数据库列表 s
Java—面向对象——作用域

一基本使用 1 在java编程中主要的变量就是属性成员变量和局部变量 2 局部变量一般是指在成员方法中定义的变量 3 java中作用域的分类全局变量也就是属性作用域为整个类体局部变量也就是除了属性之外的其他变量作用域为定
ES 搜索21 (function_score查询关键字 functions 和 weight 滤集提升权重分)

过滤集提升权重回到忽略 TF IDF 里处理过的问题我们希望根据每个度假屋的特性数量来评分当时我们希望能用缓存的过滤器来影响评分现在 function score 查询正好可以完成这件事情到目前为止我们展现的都是为所有文档应用
kubesphere多集群管理，实现kubernetes多集群同时应用部署

文章目录一 kubesphere集群部署 1 准备环境 2 下载kubesphere安装工具KubeKey 3 准备集群部署配置文件 4 安装集群 5 验证安装二配置多集群 1 打开集群tower服务的nodeport端口 2 修改主
Jenkins：（看起来挺好看的）邮件模板样式

Jenkins 邮件模板样式目录导航邮件模板样式一根据样式三改编背景图自定义邮件模板样式二邮件模板样式三邮件模板样式四邮件模板样式一根据样式三改编背景图自定义
Linux上安装和使用Wireshark

CentOS下安装Wireshark相当简单两条命令就够了这里主要是记录写使用方面的东西安装 1 yum install wireshark 注意这样并无法使用wireshark命令和图形界面但提供了抓包基本功能 2 yum in
Dlib库中实现正脸人脸关键点(landmark)检测的测试代码

Dlib库中提供了正脸人脸关键点检测的接口这里参考dlib examples face landmark detection ex cpp中的代码通过调用Dlib中的接口实现正脸人脸关键点检测的测试代码测试代码如下 referenc
2014年1月14日星期二（DEMO7-2，加载3D线框立方体物体模型）

上个DEMO 是渲染列表这个DEMO 进行了加载PLG模型仍然是一步步地进行 PLG模型首行包含了物体名称顶点数和多边形数3部分组成加载模型时可以每次读取一行并对其中的数字进行分析现在开始进行代码先设置摄像机坐标和位置朝向
利用cin和cout完成信息的输入输出（TOZJ练习5681）

项目场景问题描述在dev c 上运行正确在TZOJ出现Presentation Error 答案和标准结果非常接近在输出结果中多了或少了不必要的空格或者回车或者其他的代码 include
Java集合排序

一概述 1 集合排序概述数组排序 int arr 1 2 3 Arrays sort arr 集合排序使用Collections类中 sort 方法对List集合进行排序 sort List list 根据元素的自然顺序对指定列表按升
基于内容的图像检索(CBIR) ——以图搜图

文章目录一实现原理二基于内容的图像检索的特征提取三代码实现打赏在CBIR中图像通过其视觉内容例如颜色纹理形状来索引一实现原理首先从图像数据库中提取特征并存储它然后我们计算与查询图像相关的特征最后我们检索
use MinGW compile googletest on windows

table of contents enviornments brief description of software installation MinGW installation cmake installation googlete
word文档墨迹工具的笔不能用_CourseMaker微课制作教程43：手写设备在Word、PPT、PDF里的使用方法大全...

首先我们要有个概念手写设备数位板纸笔手写板数位屏在各个软件里能否书写跟这些设备硬件本身并没有什么关系不是说这个牌子的手写板在A软件里能用那个牌子的手写板在A软件里不能用能否在软件里手写主要还是看软件里的手写功能组件是否完
linux驱动12：主设备号和次设备号

dev目录下执行ls l 设备文件项的最后修改日期前的用逗号分割的两个数对设备文件来说就是相应的主设备号和次设备号第一个字符c表示字符设备 b表示块设备主设备号标识设备对应的驱动程序次设备号由内核使用用于正确确定设备文件所指的设备
[答疑]《软件方法》自测题为什么不直接给出答案？

软件方法下分析和设计第8章连载 20210518更新 gt gt 问题很多同学说软件方法各章的自测题要扫码到全对才知道答案比较费劲能不能直接给出答案统一回答如下这是有意为之的这些题是多年积累下来围绕着书中的知识点精心准
普通光照模型：unityshader

我们都知道物体表面的光照是由自发光镜面光高光环境光漫反射得出来的环境光光照系数环境光颜色 Ambient K GlobalAmbient 漫反射 Diffuse K LightColor max dot N L 0 反射光线
【linux系统安装nvm】

linux系统安装nvm 直接用脚本一键安装 sudo apt install curl curl https raw githubusercontent com creationix nvm master install sh bash
React Antd HelloWorld

react antdesign helloworld 安装antd 第一个示例HelloWorld 报错解决快速解决安装antd 使用 npm 或 yarn 安装我们推荐使用 npm 或 yarn 的方式进行开发不仅可在开发环境轻松
visio 2010激活教程

一下载office2010toolkit zip 若下载链接失效手动搜索office2010toolkit http ys c ys168 com 605279628 o4W138W45JIPI5SiuWf5 office2010too
NLP 做词频矩阵时，遇到特大矩阵触发memoryerror的处理方式

昨天做NLP词频矩阵处理时候遇到内存不足的问题遇到memoryerror的情况查了不少资料都让我在大的机器上跑但是有时候资源有限由于我的句子中的每个词语都是重要的所以不设置停用词也就是countvectoirze才符合我的需

NLP 做词频矩阵时，遇到特大矩阵触发memoryerror的处理方式

NLP 做词频矩阵时，遇到特大矩阵触发memoryerror的处理方式 的相关文章

随机推荐

热门标签

NLP 做词频矩阵时，遇到特大矩阵触发memoryerror的处理方式的相关文章