数据分割时使用 scikit-learn 标准化 PCA

2024-01-01

我有一个后续问题：如何使用 PCA 和 scikit-learn 进行标准化 https://stackoverflow.com/questions/25475465/how-to-normalize-with-pca-and-scikit-learn.

我正在创建一个情绪检测系统，我现在要做的是：

将数据拆分为所有情绪（将数据分布在多个子集上）。
将所有数据加在一起（多个子集为 1 组）
获取组合数据的PCA参数（self.pca = RandomizedPCA(n_components=self.n_components,whiten=True).fit(self.data)）
根据情绪（每个子集），将 PCA 应用于该情绪（子集）的数据。

我应该在以下位置进行标准化：步骤 2）标准化所有组合数据，步骤 4）标准化子集。

Edit

我想知道所有数据的标准化和子集的标准化是否相同。现在，当我尝试根据 @BartoszKP 的建议简化我的示例时，我发现我理解规范化工作的方式是错误的。两种情况下的标准化工作方式相同，所以这是一种有效的方法，对吧？（见代码）

from sklearn.preprocessing import normalize
from sklearn.decomposition import RandomizedPCA
import numpy as np

data_1 = np.array(([52, 254], [4, 128]), dtype='f')
data_2 = np.array(([39, 213], [123, 7]), dtype='f')
data_combined = np.vstack((data_1, data_2))
#print(data_combined)
"""
Output
[[  52.  254.]
 [   4.  128.]
 [  39.  213.]
 [ 123.    7.]]
"""
#Normalize all data
data_norm = normalize(data_combined)
print(data_norm)
"""
[[ 0.20056452  0.97968054]
 [ 0.03123475  0.99951208]
 [ 0.18010448  0.98364753]
 [ 0.99838448  0.05681863]]
"""

pca = RandomizedPCA(n_components=20, whiten=True)
pca.fit(data_norm)

#Normalize subset of data
data_1_norm = normalize(data_1)
print(data_1_norm)
"""
[[ 0.20056452  0.97968054]
 [ 0.03123475  0.99951208]]
"""
pca.transform(data_1_norm)

是的，正如中所解释的文档 http://scikit-learn.org/stable/modules/preprocessing.html#normalization, what normalize是，独立于其他样本缩放单个样本：

正常化是的过程缩放单个样本有单位范数。

这在的文档Normalizer class http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.Normalizer.html#sklearn.preprocessing.Normalizer:

每个样本（即数据矩阵的每一行）至少有一个非零分量独立于其他样本重新调整使其范数（l1 或 l2）等于 1。

^{(emphasis mine)}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

数据分割时使用 scikit-learn 标准化 PCA 的相关文章

sklearn 估计器管道的参数无效

我正在实现 O Reilly 书中的一个示例 Python 机器学习简介使用 Python 2 7 和 sklearn 0 16 我正在使用的代码 pipe make pipeline TfidfVectorizer LogisticRe
str.translate 与 str.replace - 何时使用哪一个？

何时以及为什么使用前者而不是后者反之亦然目前尚不完全清楚为什么有些人使用前者以及为什么有些人使用后者它们有不同的目的 translate只能用任意字符串替换单个字符但一次调用可以执行多次替换它的参数是一个特殊的表它将单个字符映射
如何使用一个模型中间层的输出作为另一个模型的输入？

我训练一个模型A并尝试使用中间层的输出name layer x 作为模型的附加输入B 我尝试像 Keras 文档一样使用中间层的输出https keras io getting started faq how can i obtain th
Flask 中“缺少 CSRF 令牌”，但它在模板中呈现

问题当我尝试登录使用 Flask login 时我得到Bad Request The CSRF session token is missing但令牌正在呈现在模板中 secret key 已设置并且我在本地运行localhost
为什么在连接两个字符串时 Python 比 C 更快？

目前我想比较 Python 和 C 用来处理字符串的速度我认为 C 应该比 Python 提供更好的性能然而我得到了完全相反的结果这是 C 程序 include
带有 mkdocs 的本地 mathjax

我想在无法访问互联网的计算机上使用 MathJax 和 Mkdocs 因此我不能只调用 Mathjax CDN Config mkdocs yml site name My Docs extra javascript javascripts
如何从hdfs读取文件[重复]

这个问题在这里已经有答案了我在 project1目录下的hadoop文件系统中有一个文本文件名mr txt 我需要编写 python 代码来读取文本文件的第一行而不将 mr txt 文件下载到本地但我无法从 hdfs 打开 mr tx
Python - Unicode 到 ASCII 的转换

我无法在不丢失数据的情况下将以下 Unicode 转换为 ASCII u ABRA xc3O JOS xc9 I tried encode and decode他们不会这么做有人有建议吗 Unicode 字符u xce0 and u xc
为什么 re.findall 在查找字符串中的三元组项时不具体。 Python

所以我有四行代码 seq ATGGAAGTTGGATGAAAGTGGAGGTAAAGAGAAGACGTTTGA OR 0 re findall r ATG 9 TAA TAG TGA seq 首先让我解释一下我正在尝试做什么如果这令人困惑
在请求中设置端口

我正在尝试利用cgminer使用 Python 的 API 我对利用requests图书馆我了解如何做基本的事情requests but cgminer想要更具体一点我想缩小 import socket import json sock
通过 Python 循环浏览网络上的目录并显示其内容（文件和其他目录）

同样的道理在Python中处理从源目录到目标目录的一组文件 https stackoverflow com questions 2593399 process a set of files from a source directory t
如何用正则表达式替换多个匹配/组？

通常我们会编写以下内容来替换一场比赛 namesRegex re compile r is life re I replaced namesRegex sub r butter There is no life in the void pr
Python-验证我的文档 xls 中是否存在工作表

我正在尝试在空闲时间设计一个小程序加载 xls 文件然后在要扫描的文档中选择一张纸步骤1 用户导入 xls文件导入程序后检查文件是否存在我能做到的第 2 步我要求用户提供要分析的文档表 xls 的名称这就是它停止的地方该程
无法使用 python rasterio、gdal 打开 jp2 （来自哨兵）

我试图在 python 中将 jp2 栅格产品作为栅格打开但当我们使用 raterio 和 gdal 包时没有成功我收到此错误 RasterioIOError b4 jp2 not recognized as a supported f
python Recipe：列出最接近等于值的项[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案考虑像这样的列表 0 3 7 10 12 15 19 21 我想获得最接近任何值的最近的最小数字所以如果我通过4 我会得到3 如果我
如何在matplotlib中调整x轴

I have a graph like this x轴上的数据表示小时所以我希望x轴设置为0 24 48 72 而不是现在的值很难看到 0 100 之间的数据 fig1 plt figure ax fig1 add subplot 11
无需访问 Internet 即可部署 Django 的简单方法？

我拥有的是使用 Django 开发的 Intranet 站点的开发版本以及放置在 virtualenv 中的一些外部库它运行良好我可以在任何具有互联网连接的计算机上使用相同的参数使用 pip 轻松设置 virtualenv 但是不幸
Python：如何在不先创建整个列表的情况下计算列表的总和？

通常我们必须 1 声明一个列表 2 使用以下方法计算该列表的总和sum 但现在我希望指定一个以 1 开头间隔为 4 100 个元素的列表如下所示 1 5 9 13 17 21 25 29 33 37 我不想涉及数学公式所以 1 如何在
pandas.read_fwf 忽略提供的数据类型

我正在从文本文件导入数据框我想指定列的数据类型但 pandas 似乎忽略了dtype input 一个工作示例 from io import StringIO import pandas as pd string USAF WBAN S
使用 MPI 的 Allreduce 对 Python 对象求和

我正在使用使用 Python 中的字典和计数器构建的稀疏张量数组操作我想让并行使用这个数组操作成为可能最重要的是我最终在每个节点上都有计数器我想使用 MPI Allreduce 或另一个不错的解决方案将其添加在一起例如使用计数

随机推荐

Xcode 4 中的 Project->Rename 相当于什么

Xcode 3 具有易于使用的项目 gt 重命名功能以防我想更改正在开发的应用程序的名称我在 Xcode 4 中看不到该选项了重命名应用程序而不发生任何崩溃的最佳方法是什么 Thanks 1 单击带有项目名称的蓝色节点稍等片刻
在 Apache 2.4 中禁用 TLS 1.0

我是一名非技术人员但能够阅读手册的网站所有者我在 Debian 9 0 服务器上运行 Apache 2 4 10 我想禁用 TLS 1 0 我已阅读SSLProtocol 指令的 Apache 文档 https httpd apache
JS - 无法在 Safari 中将输入类型更改为 FILE

JSFIDDLE https jsfiddle net limon 0zfaevq3 该代码在除 Safari 之外的所有浏览器中都能完美运行由于未知原因 Safari 无法动态地将输入类型更改为file 首先为什么会发生这种情况然后
Gunicorn 不会同时处理同时发生的请求

我正在尝试使用 Gunicorn 及其异步工作人员来服务长时间运行的请求但我找不到任何可以开始工作的示例我用了这个例子here http gunicorn org 但在返回响应之前进行了调整添加了一个假延迟休眠 5 秒 def ap
在 UIManager 中找不到“RNCSafeAreaView”

我尝试打开一个捆绑包但是当 Android 运行时它会显示下一条消息 2020 01 05 23 15 45 366 26210 26210 com note principal W note principa 访问隐藏字段 Landr
在java中的给定索引处有效地添加ArrayList中的元素

我需要在 ArrayList 的索引 i 处插入一个 Person 类型的元素我自己定义的类我知道我可以使用add int index E element http docs oracle com javase 7 docs api j
查找字符串并删除行 - Node.JS

如何在node js中读取文件搜索字符串和删除行我努力了 var fs require fs fs readFile shuffle txt function read err data if err throw err lastInd
Selenium - 为什么最小化浏览器会给出找不到元素的错误，而最大浏览器不会

我正在使用 Selenium 2 0 据我所知 Selenium 并不真正关心浏览器的大小但是当我单击下拉菜单时它似乎无法找到不在浏览器视图中的所有元素而当其最大化时它可以找到我个人认为它会爬行网络脚本但我的观察证明我错了评
触摸事件不触发 C# WPF

我创建了一个订阅 WPF 触摸事件的程序在过去的几个月里一切都按预期工作但昨天没有任何触摸事件会触发我尝试创建一个新的简单程序来测试触摸事件但它的工作原理是相同的所有触摸输入都作为鼠标事件发送即使光标从鼠标箭头变为触摸十字准线
Phonegap - 一旦我使用 window.location.replace 离开索引范围，处理推送通知

我在用着Phonegap http phonegap com 4 2 基于Cordova 5 0 创建跨平台应用程序该应用程序适用于 Android 和 iOS 当用户加载应用程序时他位于index html 从那里我可以访问各种 Ja
GNU 工具链如何决定使用近跳转指令与短跳转指令？

我有一些代码gcc 4 8 5 如果重要的话在两台不同的机器上编译成几乎相同的二进制文件除了一个地方其中一台机器上的工具链中的某些东西决定使用近 JE指令而另一台机器上的工具链决定使用简短 JE 指令 41e274 85 ed
Haskell 元组构造函数 (GHC) 以及语言与其实现之间的分离

当我意识到这一点时哈斯克尔再次让我大吃一惊 x y 只是语法糖 x y 当然我想将其扩展到更大的元组但 x y z Gave me x y z 这不是我想要的一时兴起我尝试了 x y z 它起作用了给出了我想要的 x y z 这
如何导入从html导入.json的.js

我不是说英语的公民我英语不好但我做得最好我正在尝试导入一个从 html 导入 json 的 js 文件 js import JSON from json menu json function function parseMenu ul
我如何在同时具有“script”和“doc”的 ES 上发出单个更新请求..？

我的文档请求 POST test v2 update Z nM 2wBjkGOA r6ArOb doc CD middle prakash first raj doc as upsert true 我的脚本请求 POST test
将编码字符添加到 url 会破坏 htaccess

这是我的代码 RewriteEngine on RewriteRule page index php url 1 NC 当我访问时page http google com http google com 我相信你需要B escape htt
mv 包裹在 shell 脚本中的 if 内

你怎么做到这一点我的想法是这样的另外我需要使用 fi 并完成吗或仅其中之一 if mv 1 txt gt 2 txt 0 then echo Success else echo Failure fi done 在 BASH 中只有这
多重返回：哪一个设置最终的返回值？

鉴于此代码 String test try return 1 finally return 2 语言规范是否定义了调用的返回值test 换句话说在每个 JVM 中它总是相同的吗在 Sun JVM 中返回值是2 但我想确定这不依赖于虚
Dask 连接的简单方法（水平，轴=1，列）

Action将两个 csv data csv 和 label csv 读取到单个数据帧 df dd read csv data files delimiter header None names x y z intensity r g b
基于另一张工作表中的公式的条件格式

我有 2 张 Excel 2007 PT PT 表其中一个 sheet1 有多个要验证的列另一个 base valid 有 5 列需要验证我正在尝试使用宏验证 regioes M2 列 Sub Validar Regioes Dim
数据分割时使用 scikit-learn 标准化 PCA

我有一个后续问题如何使用 PCA 和 scikit learn 进行标准化 https stackoverflow com questions 25475465 how to normalize with pca and scikit l

数据分割时使用 scikit-learn 标准化 PCA

Edit

数据分割时使用 scikit-learn 标准化 PCA 的相关文章

随机推荐

热门标签