使用 scikit 时 scipy.sparse 矩阵的缩放问题

2024-06-19

在使用 scikit-learn 解决机器学习问题时，我需要在使用 SVM 进行训练之前对 scipy.sparse 矩阵进行缩放。但在文档 http://scikit-learn.org/stable/modules/preprocessing.html#preprocessing其中明确提到：

仅当 with_mean=False 显式传递给构造函数时，scale 和 StandardScaler 才接受 scipy.sparse 矩阵作为输入。否则，将引发 ValueError，因为静默居中会破坏稀疏性，并且经常会因无意中分配过多内存而导致执行崩溃。

这意味着我不能对此进行零均值。那么如何缩放这个稀疏矩阵，使其均值和单位方差也为零？我还需要存储这个“缩放”，以便我可以在测试矩阵上使用相同的转换来缩放它。

如果矩阵很小，可以用以下方法使其稠密化：X.toarray()。如果矩阵很大，那么这可能会耗尽你的 RAM。

作为均值中心化和缩放的替代方法，您可以尝试使用每个样本归一化sklearn.preprocessing.Normalizer;这适用于频率特征（例如在文本分类中）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

machinelearning

scikitlearn

使用 scikit 时 scipy.sparse 矩阵的缩放问题的相关文章

以清晰的方式在 1 个轴上显示 3 个直方图 - matplotlib

我生成了 3 组数据它们以 numpy 数组的形式组织我有兴趣将这三组数据的概率分布绘制为标准化直方图所有三个分布看起来几乎相同因此将所有三个分布绘制在同一轴上以便于比较似乎是明智的默认情况下 matplotlib 直方图绘制为条
数据框应用不接受轴参数

我有两个数据框 data and rules gt gt gt data gt gt gt rules vendor rule 0 googel 0 google 1 google 1 dell 2 googly 2 macbook 我正在
Selenium AttributeError：列表对象没有属性 find_element_by_xpath

我正在尝试从网站上抓取一些营养数据到目前为止一切似乎都进展顺利直到我遇到格式略有不同的页面使用 selenium 和这样的行返回一个空列表 values browser find elements by class name siz
pygame中物体的速度？

我正在编写一个简单的 pygame 程序仅包含在屏幕上移动一个框盒子移动得很快我想知道如何控制速度在我的代码中更新后的位置移动了 1 而不是更小因为如果数字不是整数就会使事情变得更加复杂 import os sys impor
如何融化数据框以获取范围内的所有日期？

我有一个这样的数据集 import pandas as pd pd DataFrame col1 1 2 start date 1 3 2019 1 10 2019 end date 1 5 2019 1 12 2019 我想为开始日期和结
使用 Python 请求通过 POST 请求发送图像

我目前正在尝试使用 Python 3 5 和 Requests 库来发送 POST 请求此 POST 将发送一个图像文件这是示例代码 import requests url https api address files files o
如何让 Numpy 将每一行/张量视为一个值

许多功能例如in1d https docs scipy org doc numpy 1 13 0 reference generated numpy in1d html and setdiff1d https docs scipy org
Celery未注册任务KeyError

我通过在终端中执行以下命令来启动工作程序 celery A cel test worker loglevel INFO concurrency 10 n worker1 h 然后我收到一条长循环错误消息指出 celery 已收到未注册的任
十六进制转储文件的Pythonic方式

我的问题很简单有什么方法可以用 bash 命令以 Python 方式进行编码吗 hexdump e 2 1 02x file dat 显然不使用 os popen 或任何快捷方式编辑虽然我没有明确指定但如果代码在 Python3
Numpy、Python：广播时自动扩展数组维度

考虑以下 Numpy 数组广播练习 import numpy as np v np array 1 0 2 0 T column array A2 np random randn 2 10 2D array A3 np random ran
哪个 Python IDE 可以逐行运行我的脚本？

我不会称自己为程序员但我最近开始学习 Python 并且非常喜欢它到目前为止我主要将它用于小任务脚本编写文本处理 KML 生成和 ArcGIS 根据我使用 R 的经验使用出色的 Notepad 和NppToR http sour
调用 close() 后大文件没有立即刷新到磁盘？

我正在使用 python 脚本创建大文件超过1GB 实际上有 8 个在创建它们之后我必须创建将使用这些文件的进程该脚本如下所示 This is more complex function but it basically does
Python Turtle 未按照文档示例填充

我试图向我女儿展示一些代码并认为海龟会很有趣我更喜欢数字但这对孩子们来说并不有趣我在重现文档示例时遇到问题这更让我烦恼因为我无法弄清楚我们还有很多其他事情可以做 The documentation example copied
转换为 Base 64 时，TypeError: 'str' 不支持缓冲区接口 [重复]

这个问题在这里已经有答案了 im Image open filePath load image self msg str bytearray list im getdata convert image data to string enco
与正在运行的进程通信

We have 基于Python的服务器 A 正在运行的命令行应用程序在同一台 Linux 机器上能够读取stdin 计算一些东西并将输出提供给stdout B 将输入从 A 发送到的最佳最优雅方式是什么 stdin B 的并等待
带有 pygame 的 Pyinstaller

我曾多次尝试使用 PyInstaller 来捆绑我的 Python2 程序但它似乎从未与 Pygame 模块一起使用我已经看到了有关此主题的许多其他问题但我找不到任何有用的答案有人知道这个问题的解决方案吗我正在尝试在 Ubuntu
如何在不重复代码的情况下定义 randint 元组？

我经常使用 randint 元组来表示颜色值等 a b c randint 0 255 randint 0 255 randint 0 255 当我认为必须有更好的方法时有吗使用numpy 1 import numpy as np tu
PyPy/RPython 可以用来生成小型独立可执行文件吗？

或者可以使用 PyPy RPython 将 Python 编译翻译为 C C 不需要 Python 运行时我试图通过它的 RPython 和 Python 它的运行它的编译和它的翻译来理解 PyPy 但有些失败 I have a h
Scipy odeint 非负解

显然从 ODE 求解器获得非负解并非易事 https stackoverflow com questions 6977107 solving a delay differential equation dde system constra
Django 类视图未返回 HttpResponse 对象。它返回 None 相反

urls py from housepost views import ListingPost url r house post ListingPost as view name post house views py from djang

随机推荐

屏幕滚动时 GridView 内的项目会重复

我使用 GridView 来显示一组用户可以选择的类别网格的每个项目都由一个 ImageView 和一个 TextView 组成两者都是从服务器检索的当触摸一个项目时另一个活动就会启动我以为一切都很顺利直到我注意到当我滚动屏幕时
Unity3D StartCoroutine 调用一个函数，该函数什么时候返回？

我知道Unity3D StartCoroutine调用了一个与StartCoroutine在同一线程上运行的函数但是被调用的函数什么时候返回到原始调用者我在互联网上查找了一个很好的 Unity3D Coroutine 示例但找不到完整
如何关闭 ReSharper 的“查找所有用法”

我正在试用 ReSharper for C 我发现我更喜欢 Visual Studio 更简单的查找所有引用而不是 ReSharper 更详细的查找所有用法查找所有参考资料在 95 以上的时间里都能找到我需要的一切有谁知道如何关
使用 UItableviewCell 实现 Google 地图

我正在尝试在 UItableviewCell 组件内实现谷歌地图我这样做的方法是在原型单元中定义 GMSMapView 然后使用 dequeueReusableCell 方法配置地图单元但是我尝试应用的任何更改都会失败例如添加标记
如何将自定义日志处理程序添加到 Google App Engine？

我正在尝试向我的 java 应用程序添加自定义日志处理程序我已经实现了一个扩展 java util Logging Handler 类的 InnerLogger 类在我的logging properties中声明为处理程序 handle
尝试在java中的Arraylist中查找对象的所有出现

我有一个 Java ArrayList 我需要查找其中出现的所有特定对象 ArrayList indexOf Object 方法只找到一次出现所以看来我还需要其他东西我认为你不需要太花哨以下应该可以正常工作 static
通过命令行安装“Compass”收到错误“extconf 失败，退出代码 1”

找不到这个问题的答案运行 OS X Yosemite Beta v2 遵循指南针安装指南时请确保您的 gem 是最新的 gem update system Then run gem install compass 假设您的安装因与我相同
设计模式和库有什么区别？

设计模式和库有什么区别我似乎找不到任何地方的区别 DesingPatterns 被认为是通过解决已知问题来帮助开发人员例如 ObserverPattern 用于观察concreate 对象并执行特定操作 mediator 用于集中应用程
边属性从 ETL 破坏 OrientDB 中的顶点属性

这是一个跟进另一个问题 https stackoverflow com questions 38628356 orientdb etl loading csv with vertices in one file and edges in a
EditText 中的双光标用于输入类型号码/电话（RTL 阿拉伯语）

我将 EditText 设置为重力右以便如果语言是阿拉伯语则文本从右侧开始注意我的应用程序支持 RTL 并且我没有为 EditText 设置 TextDirection 因为这会出现相同的问题将重力设置为右可以完美完成这项工
Windows 上使用 g++ 的 Makefile，链接库

我已经厌倦了 MSVC 6 以及每个人总是告诉我它是一个蹩脚的编译器等等所以现在我决定尝试使用 vim 加 g 和 makefile 这是我的问题我有以下 makefile This is supposed to be a commen
以相反的顺序迭代可变参数模板参数

如果我手动反转传递给它的模板参数的顺序以下代码将起作用 template
R 中的发散积分可在 Wolfram 中求解

我知道我以前问过同样的问题但由于我是新来的这个问题问得不好而且不可重现因此我在这里尝试做得更好如果我只编辑旧的可能没有人会读它我有一个想要积分的二重积分 ff lt function g t exp 16 g exp 8 t t
Docker 容器与主机网络的网络性能非常慢

我遇到了 Docker 容器和主机网络之间网络性能缓慢的问题我在 Docker 论坛上提出了这个问题但到目前为止还没有收到答案 Problem 设置同一本地网络上的两台 Mac 第一个运行 MQTT 代理 mosquitto 第二个运
在我的 php 网络服务器内副本中启用 mysqli

正如这里所讨论的 mysqli 直接运行时有效但通过 js ajax 运行时无效 https stackoverflow com questions 31523601 mysqli works when run directly but
Google APIs Service Agent 服务帐户被误删除

Google APIs Service Agent 服务帐户在 Google Console 中被误删除如何恢复我使用云控制台成功创建了其他服务帐户如何恢复这个服务帐户请指导在 gcloud 控制台中使用此解决方案 gcloud
sql查询获取从一月到当月的所有数据，即使没有记录

我不擅长 sql 所以任何帮助世界都很棒我有一个 SQL 查询可以获取从一月到当月注册的记录我的代码示例 SELECT DatePart YEAR p createStamp as TheYear DatePart MONTH p c
如何在Flutter中获取ScrollView中的子滚动偏移位置

我制作了一个 CustomScrollView 小部件其中包含银应用栏 Sliver持久标头银格 Sliver持久标头银格 SliverPercientHeader 将是 SliverGrid 中项目的描述一旦点击我用 Gest
如何在 Google Compute Engine 上创建的两个实例之间进行 ssh？

我在 Google Compute Engine 上创建了两个实例 Instance A hostname robot a ip addr 10 111 0 11 Instance B hostname robot b ip addr 10
使用 scikit 时 scipy.sparse 矩阵的缩放问题

在使用 scikit learn 解决机器学习问题时我需要在使用 SVM 进行训练之前对 scipy sparse 矩阵进行缩放但在文档 http scikit learn org stable modules preprocessin

使用 scikit 时 scipy.sparse 矩阵的缩放问题

使用 scikit 时 scipy.sparse 矩阵的缩放问题 的相关文章

随机推荐

热门标签

使用 scikit 时 scipy.sparse 矩阵的缩放问题的相关文章