NLP 做词频矩阵时,遇到特大矩阵触发memoryerror的处理方式

2023-11-14

昨天做NLP词频矩阵处理时候,遇到内存不足的问题,遇到memoryerror的情况。查了不少资料,都让我在大的机器上跑,但是有时候资源有限。

由于我的句子中的每个词语都是重要的,所以不设置停用词,也就是countvectoirze才符合我的需求,而并非TFIDFVECTORIZE,TFIDF是为了减小句子中的一些出现频率高但是却没有意义的词的权重。因此我选择了countvectorize。

当数据量小的时候, 我们可以这样进行词频矩阵

from sklearn.feature_extraction.text import CountVectorizer
count_vec=CountVectorizer(token_pattern=r"(?u)\b[^/]+\b")
X_count_train = count_vec.fit_transform(word_list1)
X_count_train= X_count_train.toarray()




#结果
成功输出!

但是当我的数据量有130W+的句子。其中存在重复项70W+。一些电脑内存不够时,就会出现memoryerror!!

以下为做COUNTVECTORIZE词频矩阵代码:

from sklearn.feature_extraction.text import CountVectorizer
count_vec=CountVectorizer(token_pattern=r"(?u)\b[^/]+\b")
X_count_train = count_vec.fit_transform(word_list
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

NLP 做词频矩阵时,遇到特大矩阵触发memoryerror的处理方式 的相关文章

随机推荐

  • MongoDB 数据库创建删除、表(集合)创建删除、数据增删改查

    数据库使用 开启 mongodb 服务 要管理数据库 必须先开启服务 开启服务使用 mongod dbpath D mongodb 管理 mongodb 数据库 mongo 一定要在新的 cmd 中输入 清屏 cls 查看所有数据库列表 s
  • Java—面向对象——作用域

    一 基本使用 1 在java编程中 主要的变量就是属性 成员变量 和局部变量 2 局部变量一般是指在成员方法中定义的变量 3 java中作用域的分类 全局变量 也就是属性 作用域为整个类体 局部变量 也就是除了属性之外的其他变量 作用域为定
  • ES 搜索21 (function_score查询 关键字 functions 和 weight 滤集提升权重分)

    过滤集提升权重 回到 忽略 TF IDF 里处理过的问题 我们希望根据每个度假屋的特性数量来评分 当时我们希望能用缓存的过滤器来影响评分 现在 function score 查询正好可以完成这件事情 到目前为止 我们展现的都是为所有文档应用
  • kubesphere多集群管理,实现kubernetes多集群同时应用部署

    文章目录 一 kubesphere集群部署 1 准备环境 2 下载kubesphere安装工具KubeKey 3 准备集群部署配置文件 4 安装集群 5 验证安装 二 配置多集群 1 打开集群tower服务的nodeport端口 2 修改主
  • Jenkins:(看起来挺好看的)邮件模板样式

    Jenkins 邮件模板样式目录导航 邮件模板样式一 根据样式三改编 背景图自定义 邮件模板样式二 邮件模板样式三 邮件模板样式四 邮件模板样式一 根据样式三改编 背景图自定义
  • Linux上安装和使用Wireshark

    CentOS下安装Wireshark相当简单 两条命令就够了 这里 主要是记录写使用方面的东西 安装 1 yum install wireshark 注意这样并无法使用wireshark命令和图形界面 但提供了抓包基本功能 2 yum in
  • Dlib库中实现正脸人脸关键点(landmark)检测的测试代码

    Dlib库中提供了正脸人脸关键点检测的接口 这里参考dlib examples face landmark detection ex cpp中的代码 通过调用Dlib中的接口 实现正脸人脸关键点检测的测试代码 测试代码如下 referenc
  • 2014年1月14日星期二(DEMO7-2,加载3D线框立方体物体模型)

    上个DEMO 是渲染列表 这个DEMO 进行了加载PLG模型 仍然是一步步地进行 PLG模型首行包含了物体名称 顶点数和多边形数3部分组成 加载模型时可以每次读取一行 并对其中的数字进行分析 现在开始进行代码 先设置摄像机坐标和位置 朝向
  • 利用cin和cout完成信息的输入输出(TOZJ练习5681)

    项目场景 问题描述 在dev c 上运行正确 在TZOJ出现Presentation Error 答案和标准结果非常接近 在输出结果中 多了或少了不必要的空格或者回车或者其他 的代码 include
  • Java集合排序

    一 概述 1 集合排序概述 数组排序 int arr 1 2 3 Arrays sort arr 集合排序 使用Collections类中 sort 方法对List集合进行排序 sort List list 根据元素的自然顺序对指定列表按升
  • 基于内容的图像检索(CBIR) ——以图搜图

    文章目录 一 实现原理 二 基于内容的图像检索的特征提取 三 代码实现 打赏 在CBIR中 图像通过其视觉内容 例如颜色 纹理 形状 来索引 一 实现原理 首先从图像数据库中提取特征并存储它 然后我们计算与查询图像相关的特征 最后 我们检索
  • use MinGW compile googletest on windows

    table of contents enviornments brief description of software installation MinGW installation cmake installation googlete
  • word文档墨迹工具的笔不能用_CourseMaker微课制作教程43:手写设备在Word、PPT、PDF里的使用方法大全...

    首先我们要有个概念 手写设备 数位板 纸笔手写板 数位屏 在各个软件里能否书写 跟这些设备硬件本身并没有什么关系 不是说这个牌子的手写板在A软件里能用 那个牌子的手写板在A软件里不能用 能否在软件里手写 主要还是看软件里的手写功能组件是否完
  • linux驱动12:主设备号和次设备号

    dev目录下执行ls l 设备文件项的最后修改日期前的用逗号分割的两个数 对设备文件来说就是相应的主设备号和次设备号 第一个字符c表示字符设备 b表示块设备 主设备号标识设备对应的驱动程序 次设备号由内核使用 用于正确确定设备文件所指的设备
  • [答疑]《软件方法》自测题为什么不直接给出答案?

    软件方法 下 分析和设计第8章连载 20210518更新 gt gt 问题 很多同学说 软件方法 各章的自测题要扫码到全对才知道答案 比较费劲 能不能直接给出答案 统一回答如下 这是有意为之的 这些题是多年积累下来 围绕着书中的知识点精心准
  • 普通光照模型:unityshader

    我们都知道物体表面的光照是由 自发光 镜面光 高光 环境光 漫反射得出来的 环境光 光照系数 环境光颜色 Ambient K GlobalAmbient 漫反射 Diffuse K LightColor max dot N L 0 反射光线
  • 【linux系统安装nvm】

    linux系统安装nvm 直接用脚本一键安装 sudo apt install curl curl https raw githubusercontent com creationix nvm master install sh bash
  • React Antd HelloWorld

    react antdesign helloworld 安装antd 第一个示例HelloWorld 报错解决 快速解决 安装antd 使用 npm 或 yarn 安装 我们推荐使用 npm 或 yarn 的方式进行开发 不仅可在开发环境轻松
  • visio 2010激活教程

    一 下载office2010toolkit zip 若下载链接失效 手动搜索office2010toolkit http ys c ys168 com 605279628 o4W138W45JIPI5SiuWf5 office2010too
  • NLP 做词频矩阵时,遇到特大矩阵触发memoryerror的处理方式

    昨天做NLP词频矩阵处理时候 遇到内存不足的问题 遇到memoryerror的情况 查了不少资料 都让我在大的机器上跑 但是有时候资源有限 由于我的句子中的每个词语都是重要的 所以不设置停用词 也就是countvectoirze才符合我的需