使用 scipy.sparse.csc_matrix.toarray() 将稀疏矩阵转换为数组时出错

2024-02-08

我有一个scipy.sparse.csc_matrix http://docs.scipy.org/doc/scipy/reference/generated/scipy.sparse.csc_matrix.html我正在尝试将其转换为数组scipy.sparse.csc_matrix.toarray()。当我将该函数用于小型数据集时，它工作得很好。然而，当我将它用于大型数据集时，Python 解释器在调用该函数时立即崩溃，并且窗口关闭且没有错误消息。我试图转换为数组的矩阵是用以下命令创建的sklearn.feature_extraction.text.CountVectorizer。我在 Ubuntu 12.04 上运行 python 2.7.3。让事情变得复杂的是，当我尝试从终端运行脚本以保存任何错误消息时，日志不会记录任何错误消息，并且确实在脚本中更早地停止（尽管如果toarray()不被调用）。

你不能打电话toarray在大型稀疏矩阵上，因为它将尝试将所有值（包括零）显式存储在连续的内存块中。

让我们举个例子，假设你有稀疏矩阵 A：

>>> A.shape
(10000, 100000)
>>> A.nnz              # non zero entries
47231
>>> A.dtype.itemsize
8

非零数据的大小（以 MB 为单位）为：

>>> (A.nnz * A.dtype.itemsize) / 1e6
0.377848

您可以检查这是否与data稀疏矩阵数据结构的数组：

>>> A.data / 1e6
0.377848

根据稀疏矩阵数据结构的类型（CSR、CSC、COO...），它还以各种方式存储非零条目的位置。一般来说，这大约会使内存使用量增加一倍。所以A使用的总内存约为700kB。

转换为连续数组表示形式将实现内存中的所有零，结果大小将是：

>>> A.shape[0] * A.shape[1] * A.dtype.itemsize / 1e6
8000.0

对于本示例来说，该大小为 8GB，而原始稀疏表示的大小还不到 1MB。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 scipy.sparse.csc_matrix.toarray() 将稀疏矩阵转换为数组时出错的相关文章

如何让python优雅地失败？

我只是想知道如何让 python 在所有可能的错误中以用户定义的方式失败例如我正在编写一个处理大项目列表的程序并且某些项目可能不符合我定义的格式如果 python 检测到错误它目前只会输出一条丑陋的错误消息并停止整个过程但是
Python 的 mysqldb 晦涩文档

Python 模块 mysqldb 中有许多转义函数我不理解它们的文档而且我努力查找它们也没有发现任何结果 gt gt gt print mysql escape doc escape obj dict escape any speci
如何将类添加到 LinkML 中的 SchemaDefinition？

中的图表https linkml io linkml model docs SchemaDefinition https linkml io linkml model docs SchemaDefinition and https link
在谷歌云上训练神经网络时出现“无法获取路径的文件系统”错误

我正在使用 Google Cloud 在云上训练神经网络如下例所示 https cloud google com blog big data 2016 12 how to classify images with tensorflow u
Pandas groupby apply 执行缓慢

我正在开发一个涉及大量数据的程序我正在使用 python pandas 模块来查找数据中的错误这通常工作得非常快然而我当前编写的这段代码似乎比应有的速度慢得多我正在寻找一种方法来加快速度为了让你们正确测试它我上传了一段相当大的
给出 5 个参数，但在终端中只得到 3 个参数

我想将一个文件传递给一个c 程序如果我在 IDE 中执行此操作 test string string lt test txt return argc 5 但在终端上我刚刚得到argc 3 看来这是因为什么是 lt 意思是我正在使用
pandas 中连续数据的平行坐标图

pandas 的 parallel coordinates 函数非常有用 import pandas import matplotlib pyplot as plt from pandas tools plotting import par
uri 警告中缺少端口：使用 Python OpenCV cv2.VideoCapture() 打开文件时出错

当我尝试流式传输 ipcam 时出现了如下所示的错误 tcp 000000000048c640 uri 中缺少端口警告打开文件时出错 build opencv modules videoio src cap ffmpeg impl h
如何正确导入主代码和模块中同时使用的模块？

假设我有一个主脚本 main py 它导入另一个 python 文件import coolfunctions另一个 import chores 现在假设 Coolfunctions 也使用家务活中的东西因此我声明import chore
为什么 __instancecheck__ 没有被调用？

我有以下 python3 代码 class BaseTypeClass type def new cls name bases namespace kwd result type new cls name bases namespace p
Jupyter Notebook 中的深色模式绘图 - Python

我正在使用 Jupyter Notebook 目前正在使用 JupyterThemes 的深色日光主题我注意到我的绘图不是处于黑暗模式并且文本仍然是黑色并且在日光照射的背景上无法读取 JupyterThemes 的自述文件建议在 ipy
在seaborn中对箱线图x轴进行排序

我的数据框round data看起来像这样 error username task path 0 0 02 n49vq14uhvy93i5uw33tf7s1ei07vngozrzlsr6q6cnh8w 39 png 1 0 10 n49vq
具有多个主键的 SQLAlchemy 不会自动设置任何

我有一个简单的表 class test Base tablename test id Column Integer primary key True title Column String def init self title self
线性同余生成器 - 如何选择种子和统计检验

我需要做一个线性同余生成器它将成功通过所选的统计测试我的问题是如何正确选择发电机的数字以及我应该选择哪些统计检验我想均匀性的卡方频率测试每代收集10 000个号码的方法将 0 1 细分为10个相等的细分柯尔莫哥洛夫斯米尔
更换壳牌管道[重复]

这个问题在这里已经有答案了在 subprocess 模块的 Python 2 7 文档中我找到了以下片段 p1 Popen dmesg stdout PIPE p2 Popen grep hda stdin p1 stdout stdo
在 matplotlib 中绘制多边形的并集[重复]

这个问题在这里已经有答案了我正在尝试绘制几个多边形的并集matplotlib 具有一定的 alpha 水平我当前的代码在交叉点处颜色较深有没有办法让交叉路口与其他地方的颜色相同 import matplotlib pyplot as
python dicttoxml 多次使用相同的键

我正在尝试做如下所示的 xml
在 HDF5 (PyTables) 中存储 numpy 稀疏矩阵

我在使用 PyTables 存储 numpy csr matrix 时遇到问题我收到此错误 TypeError objects of type csr matrix are not supported in this context so
更新 SQLAlchemy 中的特定行

我将 SQLAlchemy 与 python 一起使用我想更新表中等于此查询的特定行 UPDATE User SET name user WHERE id 3 我通过 sql alchemy 编写了这段代码但它不起作用 session
沿轴 0 重复 scipy csr 稀疏矩阵

我想重复 scipy csr 稀疏矩阵的行但是当我尝试调用 numpy 的重复方法时它只是将稀疏矩阵视为对象并且只会将其作为 ndarray 中的对象重复我浏览了文档但找不到任何实用程序来重复 scipy csr 稀疏矩阵的行我

随机推荐

在导出 Android 应用程序向导中为 Android 应用程序生成密钥库？

我正在尝试在 Eclipse 中导出已签名的 Android 应用程序我认为我正朝着正确的方向前进右键单击项目 gt 安卓工具 gt 导出已签名的申请包将出现导出 Android 应用程序向导选择我要导出的项目点击Next 出
如何使用 Objective C 在 SQLITE 中启用外键约束

今天我注意到我的 SQLite 表上的外键约束不起作用在阅读 Stack Overflow 后我发现应该启用此功能所以我正在寻找执行此操作的代码片段到目前为止我只能找到这个 self db executeUpdate PRAGM
在VBA中同时设置单元格左边框和右边框

想知道是否有办法用一条语句设置单元格的左边框和右边框类似的东西msgBox配置可以组合添加在一起例如vbYesNo vbQuestion 我试过 Cells j i Borders xlEdgeLeft xlEdgeRight 这给我
如何使用 SQL Server 数据库中的值填充列表？

该列表将根据我的数据库中有多少项目而增长和缩小我需要填充列表而不是列表框我知道我需要打开一个连接 using var conn new SqlConnection Properties Settings Default DBConnec
java bean如何将多个对象封装成一个

在定义中说 java bean将许多对象封装成一个对象 Bean 这里的许多对象是什么意思以及java bean如何将它们封装成一个对象 None
如何在 python 中使用 ipython 笔记本 Markdown 单元格的内容

在 IPython 中我们可以通过以下方式获取先前的输出和输入Out n and In n 变量是否可以使用 Markdown 笔记本单元的内容并在 python 中使用它我想在 Markdown 单元格中写入一些文本 This is
TouchsMoved 以不规则的间隔调用

我正在为 iOS 制作一款游戏您主要在屏幕上拖动大对象当我在实际的 iPad iPhone 上运行游戏一段时间连续在屏幕上画圈拖动对象时每隔 5 分钟左右拖动的对象会卡顿约 10 30 秒然后它又恢复如丝般光滑的移动状态从视
Delphi中如何区分多个键盘？

我的电脑上连接了两个键盘一个用于输入 TMemo1 另一个用于输入 TMemo2 两者都可以同时打字问题是我无法区分键盘一输入的内容和键盘二输入的内容有没有办法区分某些输入来自哪个设备 Dian 你可以使用注册原始输入设备 http
struct.error：解包需要长度为 16 的字符串参数

处理 PDF 时文件 2 pdf https yadi sk i 2vABlTaexZerg使用 pdfminer pdf2txt py 我收到以下错误 pdf2txt py 2 pdf Traceback most recent call
以编程方式将产品添加到购物车并更改价格

我想以编程方式将产品添加到购物车另外我想在添加到购物车时更改产品价格假设我的产品价格是 100 美元添加到购物车后我想将其更改为 90 美元我将产品添加到购物车但是我无法更改产品价格是否可以以下是将产品添加到购物车的代码
使用 nginx/gunicorn 进行 Django 文件上传 - 媒体权限

我试图允许 django 站点的用户通过模型上的 FileField 将文件主要是 PDF 上传到我的服务器但是当我尝试使用我的模型表单生成的上传字段时我不断遇到 Errno 13 Permission Denied 我在四处寻找时
ConcurrentDictionary.GetOrAdd 真的是线程安全的吗？

我有这段代码如果该任务是为相同的输入创建的我想等待正在进行的任务这是我正在做的事情的最小再现 private static ConcurrentDictionary
Jetty SSL 配置 Apache karaf

我正在尝试配置 Jetty 以在 Apache Karaf OSGI 容器中使用 SSL http 有效但 https 无效可能是什么问题呢我的配置详细信息如下等 jetty xml
在 Weblogic 中配置容器管理的安全性

有人知道这方面的任何指南吗我是 weblogic 和容器管理安全性的新手我已经做的是在 Weblogic 中设置 LDAP 身份验证器在 Eclipse 中创建一个简单的 Web 应用程序配置 web xml 添加了 securi
使用 ClassFileTransformer.transform 进行字节码检测

我写了一个类premain方法并在该方法中我添加了一个ClassFileTransformer to Instrumentation Instrumentation addTransformer 我已经使用调用了一个应用程序 java ja
Django 中的对象所有权

我想知道如何使用 django 模型完成一个简单的对象所有权系统这样默认情况下只有对象的所有者可以编辑它我试图允许管理组代表对象所有者编辑所有对象并且此时添加了自定义权限 class Meta permissions man
MS Excel 从上到下查找列

我在寻找 LOOKUP 从上到下搜索列的方法时遇到问题情况是这样的我需要为 Excel 创建一个公式来搜索句子中的硬件部分例子句子 A1 客户电脑无法开机检查主板主板故障更换主板 PSU 电量不足更换电源这是查找范围列硬
如何在角度组件 Angular 1.5 及以上版本中使用 $compile

我正在从指令迁移到组件但使用 compile As 时出现错误 compile ReturnDomElement scope 应该使用什么来代替 scope 因为我没有在我的组件中注入 scope None
在docker环境中设置子域

我在家里的 Ubuntu 服务器 14 04 Trusty Tahr 上的 Docker 容器中运行不同的服务我目前的设置如下詹金斯 jenkins slarti gitlab slarti 下的 Gitlab 和 Leanlabs i
使用 scipy.sparse.csc_matrix.toarray() 将稀疏矩阵转换为数组时出错

我有一个scipy sparse csc matrix http docs scipy org doc scipy reference generated scipy sparse csc matrix html我正在尝试将其转换为数组sc

使用 scipy.sparse.csc_matrix.toarray() 将稀疏矩阵转换为数组时出错

使用 scipy.sparse.csc_matrix.toarray() 将稀疏矩阵转换为数组时出错 的相关文章

随机推荐

热门标签

使用 scipy.sparse.csc_matrix.toarray() 将稀疏矩阵转换为数组时出错的相关文章