Python - csr_matrix 的数据结构

2024-02-18

我正在研究TFIDF。我用过tfidf_vectorizer.fit_transform。它返回一个 csr_matrix,但我无法理解结果的结构。

  • 数据输入:

文件=(“天空是蓝色的”,“太阳是明亮的”,“太阳在 天空很亮”,“我们可以看到灿烂的太阳,明亮的太阳”)

  • 陈述:
tfidf_vectorizer = TfidfVectorizer()
tfidf_matrix = tfidf_vectorizer.fit_transform(documents)
print(tfidf_matrix)
  • 结果:

(0, 9) 0.34399327143
(0, 7) 0.519713848879
(0, 4) 0.420753151645
(0, 0) 0.659191117868
(1, 9) 0.426858009784
(1, 4) 0.522108621994
(1, 8) 0.522108621994
(1, 1) 0.522108621994
(2, 9) 0.526261040111
(2, 7) 0.397544332095
(2, 4) 0.32184639876
(2, 8) 0.32184639876
(2, 1) 0.32184639876
(2, 3) 0.504234576856
(3, 9) 0.390963088213
(3, 8) 0.47820398015
(3, 1) 0.239101990075
(3, 10) 0.374599471224
(3, 2) 0.374599471224
(3, 5) 0.374599471224
(3, 6) 0.374599471224

tfidf_矩阵是一个csr_matrix。所以我找到了这个,但没有与结果相同的结构:scipy.sparse.csr_matrix https://docs.scipy.org/doc/scipy/reference/generated/scipy.sparse.csr_matrix.html#scipy.sparse.csr_matrix

(0, 9) 0.34399327143 的值结构是什么?


你看到的只是字符串表示调用时使用print(my_csr_mat)。它列出了(在你的情况下)所有nonzeros在你的矩阵内。 (也许会有大量非零的输出被截断)。

由于这是一个稀疏矩阵,因此它具有二维。

(0, 9) 0.34399327143

意思是:矩阵元素@位置[0,9]是0.34399327143。

小演示:

import numpy as np
from scipy.sparse import csr_matrix

matrix_dense = np.arange(20).reshape(4,5)
zero_out = np.random.choice((0,1), size=(4,5), p=(0.7, 0.3))
matrix_dense_mod = matrix_dense * zero_out

print(matrix_dense_mod)

sparse_mat = csr_matrix(matrix_dense_mod)

print(sparse_mat)

Output:

[[ 0  0  2  0  4]
 [ 0  6  0  8  0]
 [ 0 11  0 13 14]
 [15  0  0 18 19]]
  (0, 2)        2
  (0, 4)        4
  (1, 1)        6
  (1, 3)        8
  (2, 1)        11
  (2, 3)        13
  (2, 4)        14
  (3, 0)        15
  (3, 3)        18
  (3, 4)        19

我不确定你的意思So I find on this, but there are no structure as same as the result,但要注意:scipy.sparse 文档中的大多数示例在打印调用中都有一个 my_mat.toarray() ,这意味着它正在从稀疏矩阵构建一个密集数组,该矩阵具有不同的字符串表示样式.

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Python - csr_matrix 的数据结构 的相关文章

随机推荐

  • emacs 23 python.el 自动缩进样式——可以配置吗?

    我使用 emacs 23 python el 已经一个多月了 我对默认的自动缩进设置不满意 目前 我的 Python 文件自动缩进如下 x a function with dict parameter test Here is a valu
  • 带有时间戳和日期字段的 JPA 选择查询无法检索结果

    我正在尝试使用 JPA 查询获取记录 该查询在 WHERE 子句中具有 DATE 和 TIMESTAMP 列 但不知何故 日期和时间戳列无法从数据库中检索任何内容 代码段 String sql Select F from FIN TABLE
  • json_encode 将带有 Unicode(版权)字符的字符串编码为 null?

    我在对特殊字符进行 JSON 编码时遇到问题 这些字符在我的计算机 记事本 浏览器甚至我的数据库中正常显示 但是 它们不进行 JSON 编码 示例如下 site com 之后的版权符号使 JSON 字符串回显为 copyright str
  • 所有实体的 Spring Data Redis 全局 TTL

    我需要为我拥有的每个实体设置全局 TTL 并且它应该可以在一个地方进行配置 有机会通过 RedisHash 注释来做到这一点 RedisHash value persons timeToLive 100 public class Perso
  • 在全屏 JavaFX 中更改场景

    我是 JavaFX 新手 我有我的主要场景和次要场景 当我从第一个场景更改为第二个场景时 窗口的栏变得可见 我该如何解决这个问题 这是我的代码 public class ProyectoTeoriaBD1 extends Applicati
  • 如何使用反斜杠 x \x 代码解码 ascii 字符串

    我正在尝试从巴西葡萄牙语文本中解码 德迈斯子fun xc3 xa7 xc3 xb5es 12 它应该是 德迈斯子函数 12 gt gt a decode unicode escape gt gt a encode unicode escap
  • 使用 DeviceIoControl 函数读取 MBR 时出现问题

    我在调用 DeviceIoControl 函数读取可移动设备的 MBR 时遇到错误 错误代码是5 这意味着访问被拒绝 我使用的是Windows XP SP2 include stdafx h include
  • 在 SwiftUI 中动态获取视图的 Shape

    使用 Swift 5 2 我想创建一个函数来动态更改Shape 我有一个像 import SwiftUI struct CardView View let suit Suite let rank Rank var body some Vie
  • 如何在 AWS Powershell 脚本中使用 KMS 密钥加密数据

    我正在尝试使用 AWS KMS 加密文本并创建 powershell 脚本 所以我用了New KMSDataKey加密我的 KMS 主密钥 该密钥在输出中返回plaintextDataKey and ciphertextblob 现在我正在
  • 在 Assembly 中实现流程“(1) if {...} else if {...} ... (2)”

    我在 C 中有以下流程 some stuff1 if something1 func1 func2 else if something2 func3 func4 some stuff2 我想知道如何在汇编中对其进行编码 我的意思是 不是精确
  • Windows 控制台%DATE% 数学

    我想将 Windows 批处理文件中的日期设置为从今天起 7 天前 我想按照以下格式执行此操作 set today date 10 4 date 4 2 date 7 2 有什么想法如何减去这里的 7 天时间增量吗 我前段时间在某个网站上发
  • php fputcsv 在 CSV 中使用分号分隔符

    我编写了一段代码 从数据库检索数据并使用函数 fputcsv 将它们填充到 CSV 中 我把以下内容放在上面 file fopen internal customer info csv w 然后我检索数据并将它们放入变量中 运行该函数 cu
  • 意外的 NSAutoresizingMaskLayoutConstraint 将 UIView 从笔尖添加到自动布局故事板场景

    我在 IB 中有以下内容 并且两个视图都打开了 使用自动布局 并关闭了 调整子视图大小 我只是尝试将自动布局视图的实例添加到容器视图中 以便其边缘与其容器视图的边缘相交 容器视图启用了 使用自动布局 并且高度相同 但宽度是其两倍 这是代码
  • Flutter - 在 CustomPainter 上获取触摸输入

    我有一个简单的 CustomPaint CustomPainter 来绘制一段圆 代码如下 我读到我无法使用 GestureDetector 因为它不是一个合适的小部件 那么获取输入的最佳方式是什么 我将把一堆片段放在一起 所以我需要像素精
  • 页面上的 WPF KeyDown 事件

    我有一个NavigationWindow with Page 页面 XAML
  • 如何制作符号表

    我们的任务是制作一个编译器 我们已经进行了词法和语法分析 但我们仍停留在中间代码的生成上 我们意识到我们必须实现一个符号表才能进行中间代码生成 但我们不知道如何做到这一点以及它包含什么 给出下面的代码 符号表应该包含什么 该代码是用教育语言
  • 选择器 - 在 jQuery 中选择页面上的所有表格

    假设我在嵌入式 div 的各个级别的页面上有多个表 没有 ID 或名称 我的选择器会是什么 如果可能的话 来选择所有表 无论它位于页面上的哪个位置 并根据第一行中第一个单元格的内容迭代或过滤表 你可以简单地使用 table 作为你的选择器
  • SQL Server:Oracle 中的 RowVersion 等效项

    Oracle 有类似的数据类型吗SQL服务器RowVersion http technet microsoft com en us library ms182776 aspx 当您插入或更新一行时 相应的版本列 其类型为RowVersion
  • int gl_VertexID 导致 Three.js 出错

    我一直在使用内置顶点索引的 gl VertexID 时遇到问题 通过使用in 与 Three js 一起使用 我不知道为什么 因为文档说它适用于所有版本的 OpenGL http www opengl org sdk docs mangls
  • Python - csr_matrix 的数据结构

    我正在研究TFIDF 我用过tfidf vectorizer fit transform 它返回一个 csr matrix 但我无法理解结果的结构 数据输入 文件 天空是蓝色的 太阳是明亮的 太阳在 天空很亮 我们可以看到灿烂的太阳 明亮的