将 scipy 稀疏 csr 转换为 pandas？

2023-12-31

我已经用过

sklearn.preprocessing.OneHotEncoder

转换一些数据的输出是scipy.sparse.csr.csr_matrix如何将它与其他列一起合并回原始数据框？

我尝试使用pd.concat但我得到

TypeError: cannot concatenate a non-NDFrame object

Thanks

If A is csr_matrix，您可以使用.toarray() http://docs.scipy.org/doc/scipy-0.14.0/reference/generated/scipy.sparse.csr_matrix.toarray.html#scipy.sparse.csr_matrix.toarray（还有.todense()产生一个numpy matrix，这也适用于DataFrame构造函数）：

df = pd.DataFrame(A.toarray())

然后你可以使用它pd.concat().

A = csr_matrix([[1, 0, 2], [0, 3, 0]])
    
  (0, 0)    1
  (0, 2)    2
  (1, 1)    3

<class 'scipy.sparse.csr.csr_matrix'>

pd.DataFrame(A.todense())

   0  1  2
0  1  0  2
1  0  3  0

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 3 columns):
0    2 non-null int64
1    2 non-null int64
2    2 non-null int64

在0.20版本中，pandas介绍稀疏数据结构 https://pandas.pydata.org/pandas-docs/stable/sparse.html#sparse-data-structures，包括SparseDataFrame https://pandas.pydata.org/pandas-docs/stable/sparse.html#sparsedataframe.

在熊猫1.0中，SparseDataFrame was removed https://pandas.pydata.org/pandas-docs/stable/user_guide/sparse.html#migrating:

在旧版本的 pandas 中，SparseSeries and SparseDataFrame类是处理稀疏数据的首选方式。随着扩展数组的出现，不再需要这些子类。通过使用具有稀疏值的常规 Series 或 DataFrame 可以更好地满足其目的。

The 移民 https://pandas.pydata.org/pandas-docs/stable/user_guide/sparse.html#migrating指南展示了如何使用这些新的数据结构。

例如，要创建一个DataFrame从稀疏矩阵：

from scipy.sparse import csr_matrix

A = csr_matrix([[1, 0, 2], [0, 3, 0]])

df = pd.DataFrame.sparse.from_spmatrix(A, columns=['A', 'B', 'C'])

df

   A  B  C
0  1  0  2
1  0  3  0

df.dtypes
A    Sparse[float64, 0]
B    Sparse[float64, 0]
C    Sparse[float64, 0]
dtype: object

或者，您可以将稀疏矩阵传递给sklearn以避免转换回时内存不足pandas。只需通过传递一个参数将其他数据转换为稀疏格式numpy array to the scipy.sparse.csr_matrix构造函数和使用scipy.sparse.hstack合并（参见docs https://docs.scipy.org/doc/scipy/reference/sparse.html).

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

将 scipy 稀疏 csr 转换为 pandas？的相关文章

重新索引错误没有意义

I have DataFrames大小在 100k 到 2m 之间我正在处理这个问题的框架是如此之大但请注意我必须对其他框架执行相同的操作 gt gt gt len data 357451 现在这个文件是通过编译许多文件创建的所以它
pip 安装失败，SSL 证书验证失败 (_ssl.c:833)

我无法通过 pip install 安装任何外部 python 模块我已经正确安装了 python 但如果我使用 pip install 它会显示此错误这是我运行后的代码pip install pytesseract C Users 1
蜘蛛内的Scrapyd jobid值

Scrapy 框架 Scrapyd 服务器我在获取蜘蛛内部的 jobid 值时遇到一些问题将数据发布到后http localhost 6800 schedule json http localhost 6800 schedule jso
turtle.Screen().screensize() 未输出正确的屏幕尺寸[重复]

这个问题在这里已经有答案了我编写了一些代码来在屏幕周围随机放置点但是它并没有覆盖整个屏幕 import turtle import random t turtle Turtle color red green blue pink ye
Windows Defender 检测 Python EXE 为木马

我制作了一个 Python 脚本将 Windows 目录以 zip 形式邮寄给我我使用 sched 模块添加了一个调度程序每小时重复一次我试图制作一个简单的同步应用程序供个人使用在 Windows 启动时启动我使用将其转换为 e
OpenCV - 我需要将彩色图像插入黑白图像并且

我用以下代码将黑白图像插入彩色图像没问题 face grey cv cvtColor face cv COLOR RGB2GRAY for row in range 0 face grey shape 0 for column in ra
了解 asyncio 已经运行的永久循环和挂起的任务

我在理解如何将新任务挂起到已经运行的事件循环中时遇到问题这段代码 import asyncio import logging asyncio coroutine def blocking cmd while True logging in
如何为 C 分配的 numpy 数组注册析构函数？

我想在 C C 中为 numpy 数组分配数字并将它们作为 numpy 数组传递给 python 我可以做的PyArray SimpleNewFromData http docs scipy org doc numpy reference
使用 boto3 从 s3 下载时使用 filename 作为文件名

我正在使用 boto3 上传文件如下所示 client boto3 client s3 aws access key id id aws secret access key key client upload file tmp test
如何使用 xlrd 将新列和行添加到 .xls 文件

如何向 xlrd 中的工作表添加新列和或行我有一个使用 open workbook 读取的 xls 文件我需要在第一张表中添加一个新列 bouncebacks 然后在该表中添加新行但我在 xlrd 文档中找不到任何显示如何添加新行和
如何为 Python 中的应用程序设置专用屏幕区域？

MS OneNote 就是一个很好的例子它可以选择固定在屏幕的一侧并将所有其他窗口推到一侧当最大化或调整其他窗口大小时它们只能扩展到 OneNote 的边缘 Python 使用 Tkinter 或其他模块是否具有此功能感谢您的帮助
pandas to_sql sqlalchemy 与 secure_transport 的连接

我正在尝试将数据发送到具有 require secure transport ON 的服务器上的 mysql 数据库当我尝试使用以下代码连接到它时 import pandas as pd import pymysql from sqlal
检查多个 pd.DataFrame 是否相等

是否有一种 Pythonic 方式无循环或递归来检查是否超过两个pd DataFrames 例如 pd DataFrames 列表彼此相等吗就像是 all x equals dfs 0 for x in dfs with dfs数据
使用 Python 脚本打开特定文件类型？

如何使 Python 脚本成为特定文件类型例如 foo 的默认应用程序例如当我双击 Finder Explorer 中的文件时我希望该文件在 Python 脚本中打开这可以在 Win 和或 OS X 中实现吗如果重要的话该应
在python中安装scipy模块时出错

我正在尝试使用 pip 在 python 中安装 scipy 模块它显示以下错误 Command c users sony appdata local programs python python35 32 python exe u c
如何修改 contenteditable 元素的innerHTML

我使用 Selenium 与 Chrome driver 和 python3 6 来测试网站我在网页中有代码片段如下 div class 3F6QL 2WovP div class 39LWd Type a message div div
如何将 fields 参数传递到 Google Drive Python API 调用中

I have results drive service files list body execute where body q query string maxResults 1 为了提高性能我想限制返回的字段如下所述 https
Pip 突然使用了错误版本的 Python

在 os x 上使用 pip 时遇到一个奇怪的问题据我所知快速查看我的 bash history 似乎可以确认我最近没有对我的配置进行任何更改唉 pip 命令似乎突然使用了与以前不同的 python 版本到目前为止我使用命令 p
VSCode无法切换matplotlib后端：ImportError：无法加载需要“qt5”交互框架的后端“Qt5Agg”

我只想通过在 VSCode 中运行 Python 来进行绘图但结果失败了我无法将后端从 agg 切换到 Qt5Agg 但是我可以在 VSCode 的终端中轻松执行此操作 VSCode集成终端中的问题如下所示我尝试了各种解决方案但失败
部署 Flask 应用程序时如何检测额外文件的更改并重新加载应用程序？ [关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案我在 Flask 中构建了一个小型 Web 应用程序并尝试将其部署在 Pythonanywhere 上在开发过程中

随机推荐

无法在 ubuntu 20.04 中安装 g++ 和 build-essentials

即使在清洁后apt get clean它说有破损的包裹 sudo dpkg l grep r正如 1 中提到的什么也不返回 sudo apt get install build essential Reading package list
MySQL配置不当原因：相对路径的不安全使用

我正在使用 Django 当我运行时python manage py runserver我收到以下错误 ImproperlyConfigured Error loading MySQLdb module dlopen Library Pyt
使用 Jasypt 和 PBKDF2WithHmacSHA1 密钥进行基于密码的 AES 加密

我正在工作中实现加密机制安全人员的要求如下使用 PBKDF2WithHmacSHA512 秘密密码 256 位盐和最少 20000 次迭代创建 256 位密钥盐应该使用 SecureRandom getInstance SHA1PRN
Java 接口是否可以定义为只有 Enum 可以扩展它？

我想这样做并没有什么特别的原因我只是想知道这是否可能如果有帮助的话这是一个可以使用它的虚构情况想象一下一种类型Enum它用作只读数据源这样每个值Enum包含不同的内容这Enum实施Readable 现在假设我们想要一个读取所有
如何处理持久的 http 请求

我有一个持久的http请求后端有大量计算目前这一切都是同步的而服务器计算机浏览器看不到输出结果一段时间后连接断开浏览器中显示超时错误我想立即向浏览器返回一些信息并让它等待结果如何实现这一目标请注意 Java 后端是
多个具有相同名称的单选按钮组

我已经继承了一个动态创建 HTML 的复杂应用程序问题是前面的人不知道单选按钮的名称属性实际上是组关联通过以下标记有什么方法可以将它们分为两组 div div
列出 .gitignore 不忽略的所有文件

我想列出 gitignore 未忽略的所有文件即我的存储库的所有源文件 ag默认情况下效果很好但我不知道有一种方法可以在不安装其他软件的情况下工作 git ls files没有选项几乎可以很好地工作但没有考虑已修改创建的文件例如
如何安装 NODE_MODULE_VERSION 46

如何使用 NODE MODULE VERSION 46 安装 Node js 版本我一直遇到 NODE MODULE VERSION 不匹配的情况并且重新编译没有帮助因此切换节点版本可能会更容易基本上我一直遇到这样的情况 Warn
ini_set('max_execution_time', 0) 是一个坏主意吗？

有没有充分的理由不设置 PHP 配置变量max execution time http www php net manual en info configuration php ini max execution time to 0 一位同
禁用 Wifi 时未收到 NSD 设备丢失消息

我已经使用编写了一个示例应用程序NSD正如所解释的here http developer android com training connect devices wirelessly nsd html 该应用程序工作正常它会发现服务解
如何创建使用 Gradle 构建的 Kotlin 项目？

我正在尝试创建一个新的 Kotlin 项目该项目使用 IntelliJ IDEA Ubuntu 16 04 上的 2016 2 5 通过 Gradle 构建当我这样做时我立即收到一条错误消息这就是我正在尝试的从欢迎屏幕中选择创建
在 NET 6.0 中使用 HttpClient 的最佳实践

我正在为下一个任务寻找最佳实践解决方案我使用 ASP NET Core 6 0 我创建了一个可与公共 API 配合使用的 SDK SDK通过Http请求与API进行通信我用HttpClient类来发出http请求我的目标是构建一个 N
电子邮件 SMTP 验证器

我需要发送数百封新闻通讯但想首先检查服务器上是否存在电子邮件它被称为SMTP http en wikipedia org wiki Simple Mail Transfer Protocol验证至少我是这样认为的基于我在互联网上的研
更新事物列表而不触及每个条目

我在数据库中有一个用户应该能够订购的列表 itemname order value int salad 1 mango 2 orange 3 apples 4 从数据库加载时我简单地order by order value 通过拖放他应
从数据框列名称中删除后缀

我试图从数据框中的所有列中删除后缀但收到错误消息任何建议将不胜感激 df pd DataFrame np random randint 0 10 size 10 4 columns list ABCD df add suffix x
具有动态 ID 的骨干视图

我刚刚意识到我误解了el的属性Backbone View 基本上我的观点需要动态id基于其模型属性的属性我认为我可以正常工作因为我只是在模板中指定了它然而我意识到 Backbone 实际上所做的是将这个编译后的模板放入另一个元素中
无法让 jquery.jqgrid 4.4.1 在 ASP.NET MVC 中工作

我一直在努力让 jquery jqgrid 4 4 1 在我的 ASP NET MVC 4 解决方案中工作我使用 NuGet 将 jquery jqgrid 4 4 1 安装到我的项目中我试图在我的页面中插入一个非常简单的网格只是为了
如果我写了 system.out.println(); 则找不到包系统；

我正在写一个简单的程序 class Demo public static void main String args system out println Hello 编译时它给出了error package system not foun
如何将 xarray 数据集展平为一维 numpy 数组？

有没有一种简单的方法可以将 xarray 数据集展平为单个一维 numpy 数组例如展平以下测试数据集 xr Dataset a xr DataArray data 10 11 12 13 14 coords x 0 1 2 3 4 d
将 scipy 稀疏 csr 转换为 pandas？

我已经用过 sklearn preprocessing OneHotEncoder 转换一些数据的输出是scipy sparse csr csr matrix如何将它与其他列一起合并回原始数据框我尝试使用pd concat但我得到 Typ

将 scipy 稀疏 csr 转换为 pandas？

将 scipy 稀疏 csr 转换为 pandas？ 的相关文章

随机推荐

热门标签

将 scipy 稀疏 csr 转换为 pandas？的相关文章