如何将稀疏矩阵拆分为训练集和测试集？

2024-04-25

我想了解如何使用稀疏矩阵。我有这段代码可以生成多标签分类数据集作为稀疏矩阵。

from sklearn.datasets import make_multilabel_classification

X, y = make_multilabel_classification(sparse = True, n_labels = 20, return_indicator = 'sparse', allow_unlabeled = False)

这段代码给了我以下格式的 X：

<100x20 sparse matrix of type '<class 'numpy.float64'>' 
with 1797 stored elements in Compressed Sparse Row format>

<100x5 sparse matrix of type '<class 'numpy.int64'>'
with 471 stored elements in Compressed Sparse Row format>

现在我需要将X和y分成X_train、X_test、y_train和y_test，这样训练集就占70%。我该怎么做？

这是我尝试过的：

X_train, X_test, y_train, y_test = train_test_split(X.toarray(), y, stratify=y, test_size=0.3)

并收到错误消息：

类型错误：传递了稀疏矩阵，但需要密集数据。使用 X.toarray() 转换为密集 numpy 数组。

错误消息本身似乎暗示了解决方案。两者都需要转换X and y到稠密矩阵。

请执行以下操作，

X = X.toarray()
y = y.toarray()

X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, test_size=0.3)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

NumPy

scikitlearn

sparsematrix

如何将稀疏矩阵拆分为训练集和测试集？的相关文章

如何在多个端口上运行 FastAPI 应用程序？

我有一个 FastAPI 应用程序正在使用 Uvicorn 以编程方式在端口 30000 上运行现在我也想在端口 8443 上运行相同的应用程序相同的应用程序需要在这两个端口上运行我怎样才能在Python代码中做到这一点最小可重现
Google PubSub 在阻止和等待消息时没有标准输出

我正在使用这个问题底部的 Python 代码监听 Google PubSub 消息它实际上是来自 Google 的异步拉取示例我运行我的程序并输出到文件 python my script py tee log txt 如果我在接收消息时
Python，将CSV文件转换为SQL表

我有一个没有标题的 CSV 文件并尝试从文件中的某些列创建 SQL 表我尝试了这里给出的解决方案使用 Python 将 CSV 文件导入 sqlite3 数据库表 https stackoverflow com questions 2
python 2.7 字符 \u2013 [重复]

这个问题在这里已经有答案了我有以下代码 coding utf 8 print u William Burges 1827 81 was an English architect and designer 当我尝试从cmd运行它时我收到以
Python-从Excel文件读取时间时未获得正确的日期时间

我有一个 Excel 文件其中有 3 列作为日期时间或日期或时间字段我正在通过阅读它xlrd包裹我有时间milliseconds我想当我尝试将其转换回日期时间时我得到了错误的结果我尝试将文件转换为csv以及这也没有帮助我得到了我
pyqt5调用url时处于无响应状态

我刚刚在 pyqt 中实现了登录但在调用 url 和获取响应之间 qt 窗口显示无响应状态谁能建议我如何避免不响应状态 code class Login QDialog def init self height width parent
我应该如何优化这个文件系统 I/O 绑定程序？

我有一个 python 程序它执行如下操作从 csv 文件中读取一行对其进行一些变换将其分解为实际的行因为它们将被写入数据库将这些行写入单独的 csv 文件除非文件已完全读取否则返回步骤 1 运行 SQL Loader 并将
tf.keras.utils.image_dataset_from_directory，但标签来自 csv？

请告诉我哪里出错了我正在研究 Kaggle 狗品种分类挑战我想尝试 one hot 编码与标签编码图像未在图像目录中拆分因此我无法将推断与 tf keras utils image dataset from directory
单击按钮时执行 python 脚本

我有一个带有一个按钮的 HTML 页面当我们单击该按钮时我需要执行一个 python 脚本并返回到包含结果的同一 HTML 页面所以我需要对返回值进行一些验证并执行一些操作这是我的代码 HTML
UserDict 类的优点？

使用有什么好处UserDict class 我的意思是我真正得到的不是 class MyClass object def init self self a 0 self b 0 m MyClass m a 5 m b 7 我将写下以下内容
如何在 Ubuntu 上通过 pip 安装 python3 版本的软件包？

我两者都有python2 7 and python3 2安装在Ubuntu 12 04 符号链接python链接到python2 7 当我输入 sudo pip install package name 它将默认安装python2的版本pa
如何在 python 中将 selenium webelement 转换为字符串变量

from selenium import webdriver from time import sleep from selenium common exceptions import NoSuchAttributeException fr
如何使用 OpenCV 检测图像帧中的对象？

我正在使用 Raspberry Pi 开发一个漫游器它将清扫房间并捡起掉落在地上的物体为了检测物体我使用了在流动站操作开始时拍摄的参考图像以及每 10 秒单击一次的图像新图像为了确定图像帧是否发生变化我在参考图像和新图像之间进
如何找到运行代码的 conda 环境的名称？

我正在寻找一种好方法来从正在运行的代码或交互式 python 实例中找出我所在的 conda 环境的名称用例是我通过 miniconda 安装运行带有 Python 2 和 Python 3 内核的 Jupyter 笔记本默认环境是Py
如何解析代码（Python）？

我需要解析一些特殊的数据结构它们采用某种类似 C 的格式大致如下所示 Group GroupName C Style comment Group AnotherGroupName Entry some variables 0 3 141
Pytest - 如何将参数传递给 setup_class？

我有一些代码如下所示我得到了too few args当我运行它时出错我没有打电话setup class明确地所以不确定如何向它传递任何参数我尝试用以下方法装饰该方法 classmethod 但仍然看到相同的错误我看到的错误是这样
Python：使用 FOR 循环插入字典

我已经在论坛中进行了搜索但不明白是否可以使用以下构造将新条目插入到我的 Python 字典中而不将其转换为列表 for x in range 3 pupils dictionary new key input Enter new key
将 2D 数组中的每一列与另一个 2D 数组中的每一列相乘

我有两个 Numpy 数组x有形状 m i and y有形状 m j 所以行数是相同的我想将每一列相乘x每一列y逐元素使结果具有形状 m i j Example import numpy as np np random seed 1 x
Django - 在启动时执行代码

我正在使用 Django 1 9 3 我有一个包含多个应用程序的项目我想在项目启动时更新其中一个应用程序的表用例例如假设我想在我的网站上销售商品我有一个包含模型项目的应用程序我在 Django 之外有一个网络服务它提供服务 g
在 Spark 中分发 scikit learn 分类器的推荐方法是什么？

我已经使用 scikit learn 构建了一个分类器现在我想使用 Spark 在大型数据集上运行 Predict proba 我目前使用以下方法对分类器进行腌制 import pickle pickle dump clf open cl

随机推荐

不懂 C 就开始学习 C#？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案是否建议只了解一点点 C 只是一些基础知识或什至不了解 C 就直接跳到 C C 和 C 非常不同它们共享语法但编程风格却截然不同学习 C
我可以使用反射在类中添加新字段吗

如果我有类文字对象我可以向类添加新字段吗如何确定该类文字中引用或使用了特定的类您不能直接向其中添加新字段Class目的您可以使用第三方 API 来生成或修改类例如 ASM BCEL 但最好避免使用它们因为它们会增加很多复杂性至
WebRTC：强制对等点使用 TURN 服务器

我有一个 webrtc 应用程序它工作正常但出于测试目的我需要测试我的 TURN 服务器是否工作但因为两个测试设备都在同一网络内所以我无法测试认为下面的代码会限制候选人仅那些使用 TURN 服务器的 function onIce
使用 boost asio 枚举我的卡的 ipv4 和 ipv6 地址

我正在尝试枚举我的电脑的所有网卡我有 2 张卡的 ipv4 和 ipv6 地址我正在使用以下代码来执行此操作 using boost asio ip tcp boost asio io service io service tcp r
Pkcs11Interop 从 HSM 读取密钥值

我正在尝试使用 Pkcs11Interop 从 HSM 中提取密钥的值我知道密钥必须留在 HSM 中但我需要它所以我已经用 NCryptoki 做到了我也想用 Pkcs11Interop 做到这一点我尝试了这段代码 Prepa
使用 JavaScript 进行分页

我有一些 html 代码 div class post 里面我想用 javascript 对它们进行分页我怎样才能做到这一点我知道我可以用 PHP 来做但我只想用 JS 来做我的 php 生成的 html 看起来像这样 div d
openMPI/mpich2 不能在多个节点上运行

我正在尝试在多节点集群上使用 install openMPI 和 mpich2 但在这两种情况下我在多台计算机上运行时都遇到问题使用 mpich2 我可以从头节点在特定主机上运行但是如果我尝试从计算节点到不同节点运行某些内容我会得到
如何确定多边形点列表是否按顺时针顺序排列？

有了一个点列表如何找到它们是否按顺时针顺序排列例如 point 0 5 0 point 1 6 4 point 2 4 5 point 3 1 5 point 4 1 0 会说它是逆时针的或者对某些人来说是逆时针的对于非凸多边形例
如果使用多个 EAGLView，则不会绘制纹理

我在使用Apple EAGLView 和Texture2D 时遇到了一些问题如果我创建 EAGLView 的实例并绘制一些纹理效果会很好但是每当我创建 EAGLView 的第二个实例时都不会绘制新视图中的纹理作为 OpenGL
BSSID可以作为唯一标识符吗？

我正在构建一个 Android 应用程序列出用户周围的所有 wifi 网络当用户尝试使用特定服务时我的应用程序需要有关用户网络的信息当我的应用程序从用户网络获取所有信息时它会自动在我的数据库表中插入一个新行其中包含所有这些必要的
JDBC 连接池选项：DBCP 与 C3P0 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案适用于 Java JDBC 的最佳连接池库是什么我正在考虑两个主要候选者免费开源阿帕奇 DBC
Django - 如何直接从表中的按钮删除对象

对不起我的英语不好我需要删除一个对象但直接从模板中的对象列表中删除我有一个工作订单其中有备件但我不知道如何仅使用工作订单详细视图中的按钮来创建备件的删除视图这个想法是用户单击删除按钮这是备件的型号 class Order
SQL Server 使用 Case When 和常量的语法进行排序

我正在阅读其他人编写的 TSQL 代码发现语法有些奇怪它通过字符串进行排序我做了一些测试以下是代码任何人都可以帮我解释一下吗谢谢第一个查询 SELECT FROM dbo Products Result ProductID P
如何配置“git pull --ff-only”和“git merge --no-ff”

对我来说典型的 git 工作流程是克隆远程存储库并使用 git pull 使其保持最新我不想在拉取时合并提交所以我使用 ff only 选项我还为特色工作设立了当地分支机构我想保留分支历史记录因此当我将本地分支合并回本地克隆时
找到总和为 K 的三个元素

我编写了以下代码来查找总和为 K 的两个元素 include
Python将txt文件读入数字列表列表[重复]

这个问题在这里已经有答案了我的 txt 文件如下所示 1 3 5 1 4 4 1 4 7 1 4 8 2 4 5 我试图将其转换为一个列表其中包括txt文件中的所有列表所以我的示例所需的输出是 1 3 5 1 4 4 1 4 7 1
jquery：如何循环一个div

使用jquery 如何自动连续滚动div 喜欢本网站的新闻和专题部分 http animalsasia org http animalsasia org 此外当您将鼠标悬停在滑块上时它会停止滚动直到您将鼠标悬停为止有没有一个 jqu
使用 Powershell 尊重原始大小写重命名文件中的文件名和内容

关于按照解决方案使用 Powershell 重命名文件和文件内内容的问题here https stackoverflow com questions 77081055 renaming of files and content within
使用 Akka java API 时 Kotlin 类型推断编译错误

我想在 Kotlin 程序中使用 Akka java API 当我想设置时onCompleteakka 的回调Future 我遇到了 Kotlin 编译器错误而 java 等效项工作得很好 val future Future
如何将稀疏矩阵拆分为训练集和测试集？

我想了解如何使用稀疏矩阵我有这段代码可以生成多标签分类数据集作为稀疏矩阵 from sklearn datasets import make multilabel classification X y make multilabel cl

如何将稀疏矩阵拆分为训练集和测试集？

如何将稀疏矩阵拆分为训练集和测试集？ 的相关文章

随机推荐

热门标签

如何将稀疏矩阵拆分为训练集和测试集？的相关文章