如何读入边列表以制作 scipy 稀疏矩阵

2024-03-10

我有一个大文件，其中每行都有一对 8 个字符串。就像是：

ab1234gh iu9240gh

在每行上。

这个文件实际上代表了一个图，每个字符串都是一个节点 ID。我想读入文件并直接制作一个 scipy 稀疏邻接矩阵。然后，我将使用 python 中提供的众多工具之一在此矩阵上运行 PCA

有没有一种巧妙的方法来做到这一点，或者我需要首先在 RAM 中制作一个图，然后将其转换为稀疏矩阵？由于文件很大，我想尽可能避免中间步骤。

最终我将稀疏邻接矩阵输入http://scikit-learn.org/stable/modules/ generated/sklearn.decomposition.TruncatedSVD.html#sklearn.decomposition.TruncatedSVD http://scikit-learn.org/stable/modules/generated/sklearn.decomposition.TruncatedSVD.html#sklearn.decomposition.TruncatedSVD .

我认为这是一项常规任务sklearn，所以包中必须有一些工具可以做到这一点，或者其他问题的答案。我们需要添加正确的标签。

但只是根据我的知识进行工作numpy and sparse，我会做什么：

制作一个示例二维数组 - N 行，2 列，包含字符值：

In [638]: A=np.array([('a','b'),('b','d'),('a','d'),('b','c'),('d','e')])
In [639]: A
Out[639]: 
array([['a', 'b'],
       ['b', 'd'],
       ['a', 'd'],
       ['b', 'c'],
       ['d', 'e']], 
      dtype='<U1')

Use np.unique识别唯一的字符串，并作为奖励从这些字符串到原始数组的映射。这是该任务的主力。

In [640]: k1,k2,k3=np.unique(A,return_inverse=True,return_index=True)
In [641]: k1
Out[641]: 
array(['a', 'b', 'c', 'd', 'e'], 
      dtype='<U1')
In [642]: k2
Out[642]: array([0, 1, 7, 3, 9], dtype=int32)
In [643]: k3
Out[643]: array([0, 1, 1, 3, 0, 3, 1, 2, 3, 4], dtype=int32)

我可以重塑它inverse数组来标识每个条目的行和列A.

In [644]: rows,cols=k3.reshape(A.shape).T
In [645]: rows
Out[645]: array([0, 1, 0, 1, 3], dtype=int32)
In [646]: cols
Out[646]: array([1, 3, 3, 2, 4], dtype=int32)

有了这些，构造一个稀疏矩阵就很简单了1在每个“十字路口”。

In [648]: M=sparse.coo_matrix((np.ones(rows.shape,int),(rows,cols)))
In [649]: M
Out[649]: 
<4x5 sparse matrix of type '<class 'numpy.int32'>'
    with 5 stored elements in COOrdinate format>
In [650]: M.A
Out[650]: 
array([[0, 1, 0, 1, 0],
       [0, 0, 1, 1, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 1]])

第一行，a第 2 列和第 4 列有值，b and d。等等。

===========================

本来我有：

In [648]: M=sparse.coo_matrix((np.ones(k1.shape,int),(rows,cols)))

这是错误的。这data数组应该匹配rows and cols在形状上。这里它没有引发错误，因为k1恰好大小相同。但如果使用不同的组合，独特的值可能会引发错误。

===================

这种方法假设整个数据库，A可以加载到内存中。unique可能需要类似的内存使用。最初是一个coo矩阵可能不会增加内存使用量，因为它将使用作为参数提供的数组。但任何计算和/或转换csr或其他格式将进行进一步的复制。

我可以想象通过分块加载数据库并使用其他结构来获取唯一值和映射来解决内存问题。您甚至可以构建一个coo来自块的矩阵。但迟早你会遇到记忆问题。 scikit 代码将制作该稀疏矩阵的一个或多个副本。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何读入边列表以制作 scipy 稀疏矩阵的相关文章

定义Python源代码编码的正确方法

PEP 263 http www python org dev peps pep 0263 定义如何声明Python源代码编码通常 Python 文件的前两行应以以下内容开头 usr bin python coding
如何在python中附加两个字节？

说你有b x04 and b x00 你如何将它们组合起来b x0400 使用Python 3 gt gt gt a b x04 gt gt gt b b x00 gt gt gt a b b x04 x00
如何调整 matplotlib 单选按钮的大小和纵横比？

我已经尝试了几个小时来使简单的单选按钮列表的大小和纵横比正确但没有成功首先导入模块 import matplotlib pyplot as plt from matplotlib widgets import RadioButtons
numpy：高效执行数组的复杂重塑

我正在将供应商提供的大型二进制数组读入 2D numpy 数组 tempfid M N load data data numpy fromfile file dirname fid dtype numpy dtype i4 convert
OpenCV 跟踪器：模型未在函数 init 中初始化

在视频的第一帧我运行一个对象检测器它返回对象的边界框如下所示
如何使用 opencv python 计算乐高积木上的孔数？

我正在开发我的 python 项目我需要计算每个乐高积木组件中有多少个孔我将从输入 json 文件中获取有关需要计算哪个程序集的信息如下所示 img 001 red 0 blue 2 white 1 grey 1 yellow 1 r
在Python中读取tiff标签

我正在尝试用 Python 读取 tiff 文件的标签该文件是 RGB 的uint16每个通道的值我目前正在使用tifffile import tifffile img tifffile imread file tif 然而 img是一
如何将标记化中的多单词名称保留在一起？

我想使用 TF IDF 特征对文档进行分类一种方法是 from sklearn feature extraction text import TfidfVectorizer import string import re import n
仅当某些值相等时，如何才能将一个文本文件中的值替换为另一个文本文件中的其他值？

我有一个名为finalscores txt我想创建一个 python 脚本它将打开它并从两个单独的列中读取值这是我的finalscores txt file Atom nVa predppm avgppm stdev delta QPr
Jupyter 笔记本中未显示绘图图表

我已经尝试解决这个问题几个小时了我按照上面的步骤操作情节网站 https plot ly python getting started start plotting online并且图表仍然没有显示在笔记本中这是我的情节代码 color
PIL.Image.open和tf.image.decode_jpeg返回值的区别

我使用 PIL Image open 和 tf image decode jpeg 将图像文件解析为数组但发现PIL Image open 中的像素值与tf image decode jpeg不一样为什么会出现这种情况 Thanks 代
App Engine 实体到字典

将 google app engine 实体在 python 中复制到字典对象的好方法是什么我正在使用 db Expando 对象所有属性均为扩展属性 Thanks 有一个名为foo尝试 foo dict
Flask 应用程序路由中的多个参数

烧瓶怎么写app route如果我在 URL 调用中有多个参数这是我从 AJax 调用的 URL http 0 0 0 0 8888 createcm summary VVV change Feauure 我试图写我的烧瓶app rout
检索 geodjango 多边形对象的边界框

如何在 geodjango 中获取 MultiPolygon 对象的边界框在 API 中找不到任何内容http geodjango org docs geos html http geodjango org docs geos html
Discord.py 嵌入中禁用按钮/冻结按钮

I m trying to make a replica of this bot in which when I press any of the buttons below it shows a dropdown menu and you
Python守护进程：保持日志记录

我有一个将一些数据记录到磁盘的脚本 logging basicConfig filename davis debug log level logging DEBUG logging basicConfig filename davis er
基于值而不是类型的单次调度

我在 Django 上构建 SPA 并且有一个庞大的功能其中包含许多功能if用于检查我的对象字段的状态名称的语句像这样 if self state new do some logic if self state archive do s
仅允许正小数

在我的 Django 模型中我创建了一个如下所示的小数字段 price models DecimalField u Price decimal places 2 max digits 12 显然价格为负或零是没有意义的有没有办法将小数
寻找完美的正方形

我有这个Python代码 def sqrt x ans 0 if x gt 0 while ans ans lt x ans ans 1 if ans ans x print x is not a perfect square return
在matlab中，如何读取python pickle文件？

在 python 中我生成了一个 p 数据文件 pickle dump allData open myallData p wb 现在我想在Matlab中读取myallData p 我的Matlab安装在Windows 8下其中没有Pyt

随机推荐

如何防止在 IE9 中加载页面时出现“无法获取属性‘dir’的值：对象为 null 或未定义”错误

我有一个 Dojo 1 7 4 应用程序在 IE9 中加载页面时出现无法获取属性 dir 的值对象为 null 或未定义错误我使用的是 AMD 版本当它必须单独加载所有文件时不会发生错误我可以控制的所有代码都包含在 dojo
Kotlin：抑制未使用的属性？

我的源代码如下有警告从未使用属性我添加了 Suppress UNUSED PARAMETER Suppress UNUSED PROPERTY GETTER Suppress UNUSED PROPERTY SETTER 然而它们都
关闭 vba 生成的 Excel 绘图上的标记阴影

我正在将一些用于在 Excel 中生成散点图的代码从 Win 7 Excel 2010 移植到 OS X Excel 2011 在 Mac 上数据点显示有阴影我不想要阴影也不知道如何摆脱它 Using 这个工作表 http dl dr
C++ 指针数组的内存分配

我有一个关于内存分配的问题假设我创建了一个像这样的指针数组 int numbers new int 1024 1024 我原以为这需要 8MB 内存 Mac 64 位上为 8 字节指针但事实并非如此仅当为每个指针赋值时才分配内存因此
注册一个全局钩子，检测鼠标是否拖动文件/文本

我知道有可能为鼠标注册全局钩子 http www codeproject com KB cs globalhook aspx移动按钮单击滚动等但我想知道是否有任何方法可以检测用户是否实际上使用全局挂钩拖动文件或文本或其他内容似乎找
从三地址代码到 JVM 字节码的代码生成

我正在研究 Renjin 的字节码编译器 R 代表 JVM 并尝试将中间三地址码 TAC 表示形式转换为字节码我查阅过的所有有关编译器的教科书都讨论了代码生成期间的寄存器分配但我还没有找到任何用于在基于堆栈的虚拟机如 JVM 上生成代
向 ggplot 添加图例

这个问题是这篇文章的后续问题上一篇文章 https stackoverflow com questions 21531230 using geom path from ggplot library 我有12个变量 M1 M2 M12 为此
将位图转换为多边形 - （反向光栅化）[关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案给定一个位图图像上面有一些纯色斑点您将使用什么算法来构造与斑点形状相同的多边形这可以通过多个步骤完成稍后可以通过最佳拟合算法来切割高分辨
如何在 WPF 应用程序中构建动态数据输入表单？

我正在计划一个 WPF 应用程序它将能够创造动态数据输入表格这意味着表单从数据库中的数据而不是从 XAML 获取要显示的字段及其顺序等如果可能的话使用 MVVM 模式我计划这样做在客户数据输入视图中我将设置数据上下文
离子应用程序 | Firebase Crashlytics 无法与崩溃报告配合使用？

我在我们的 Ionic 应用程序中使用 ionic native firebase 插件并且该插件中包含崩溃报告由于 Firebase 崩溃报告在 9 月 9 日之后将不再可用因此我们正在尝试切换到 Firebase Crashlyt
无法使用 C# 将 [] 索引应用于“System.Array”类型的表达式

我正在尝试使用包含字符串数组的列表但是当我尝试使用方括号访问数组元素时我收到错误我的数组列表声明如下 public List
在 Valgrind 下运行 Eclipse

这里有人成功运行 Eclipse 吗Valgrind http valgrind org 我正在与涉及 JNI 代码的特别棘手的崩溃作斗争并希望 Valgrind 或许可以再次证明其卓越性但是当我在 Valgrind 下运行 Ecl
nltk 函数计算某些单词的出现次数

nltk书中有一个问题使用 state union 语料库阅读器阅读国情咨文演讲的文本计算每个文档中男性女性和人物的出现次数随着时间的推移这些词的使用发生了什么变化我想我可以使用像 state union 1945 Truman
Selenium WebDriver 中的 DesiredCapability 有什么用？

Selenium WebDriver 中的 DesiredCapability 有什么用我们什么时候想使用它以及如何使用举例回答将不胜感激您应该阅读有关的文档所需能力 https github com SeleniumHQ selen
终端进程命令无法启动退出代码：0 和退出代码：2

Visual Studio 代码终端无法工作捷径ctrl 因为终端不工作 Error The terminal process terminated with exit code 0 终端进程命令 C WINDOWS System32 W
t.Cleanup 有什么用？

问题我想知道的用例t CleanupGo1 14中引入与使用 defer 相比 t Cleanup 有何便利 https golang org pkg testing T Cleanup https golang org pkg tes
图像文件的加密与解密

结合我的另一个question https stackoverflow com questions 12131627 image encryption decryption 并且在更改了这一小部分代码之后 FileOutputStream
使用 Twilio 和 SIP 进行 SMS 消息传递

我正在尝试使用 Twilio 在我的 iPhone 上发送和接收短信我已设置呼入和呼出呼叫遵循这些说明 https stackoverflow com questions 48346740 how do i forward a twili
Azure Functions 错误 - 无法将参数绑定到字符串类型

我正在尝试使用 Azure 函数将文件保存到 FTP json是这样的 type apiHubFile name outputFile path folder ps DateTime txt connection ftp FTP direc
如何读入边列表以制作 scipy 稀疏矩阵

我有一个大文件其中每行都有一对 8 个字符串就像是 ab1234gh iu9240gh 在每行上这个文件实际上代表了一个图每个字符串都是一个节点 ID 我想读入文件并直接制作一个 scipy 稀疏邻接矩阵然后我将使用 pytho

如何读入边列表以制作 scipy 稀疏矩阵

如何读入边列表以制作 scipy 稀疏矩阵 的相关文章

随机推荐

热门标签

如何读入边列表以制作 scipy 稀疏矩阵的相关文章