如何使用 scikit learn inverse_transform 和新值

2024-01-24

我有一组数据是我使用scikit learn PCA。我在使用 StandardScaler() 执行 PCA 之前对数据进行了缩放。

variance_to_retain = 0.99
np_scaled = StandardScaler().fit_transform(df_data)
pca = PCA(n_components=variance_to_retain)
np_pca = pca.fit_transform(np_scaled)

# make dataframe of scaled data
# put column names on scaled data for use later
df_scaled = pd.DataFrame(np_scaled, columns=df_data.columns)
num_components = len(pca.explained_variance_ratio_)
cum_variance_explained = np.cumsum(pca.explained_variance_ratio_)

eigenvalues = pca.explained_variance_
eigenvectors = pca.components_

然后，我在缩放后的数据集上运行 K 均值聚类。我可以在缩放空间中很好地绘制聚类中心。

我的问题是：如何将中心的位置转换回原始数据空间。我知道 StandardScaler.fit_transform() 使数据具有零均值和单位方差。但是对于新的形状点（num_clusters，num_features），我可以使用 inverse_transform(centers) 将中心转换回原始数据的范围和偏移量吗？

谢谢，大卫

你可以在 kmeans 上获取 cluster_centers ，然后将其推入你的 pca.inverse_transform 中

这是一个例子

import numpy as np
from sklearn import decomposition
from sklearn import datasets
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler



iris = datasets.load_iris()
X = iris.data
y = iris.target

scal = StandardScaler()
X_t = scal.fit_transform(X)

pca = decomposition.PCA(n_components=3)
pca.fit(X_t)
X_t = pca.transform(X_t)

clf = KMeans(n_clusters=3)
clf.fit(X_t)

scal.inverse_transform(pca.inverse_transform(clf.cluster_centers_))

请注意，sklearn 有多种方法来进行拟合/变换。你可以做StandardScaler().fit_transform(X)但您丢失了洁牙机，并且无法重复使用它；你也不能用它来创建逆矩阵。

或者，你可以这样做scal = StandardScaler()其次是scal.fit(X)然后通过scal.transform(X)

或者你可以做scal.fit_transform(X)它结合了拟合/变换步骤

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

scikitlearn

PCA

如何使用 scikit learn inverse_transform 和新值的相关文章

如何覆盖 Django 的默认管理模板和布局

我正在尝试覆盖 Django 的默认模板现在只有base site html 我正在尝试更改 django 管理文本我做了以下事情我在我的应用程序目录中创建了一个文件夹 opt mydjangoapp templates admin
检测到通过 ChromeDriver 启动的 Chrome 浏览器

我正在尝试在 python 中使用 selenium chromedriver 来访问 www mouser co uk 网站然而从第一次拍摄开始它就被检测为机器人有人对此有解释吗此后我使用的代码 options Options
将 transaction.commit_manually() 升级到 Django > 1.6

我继承了为 Django 1 4 编写的应用程序的一些代码我们需要更新代码库以使用 Django 1 7 并最终更新到 1 8 作为下一个长期支持版本在一些地方它使用旧风格 transaction commit manually and
在 Pandas 中，如何从基于另一个数据框的数据框中删除行？

我有 2 个数据框一个名为 USERS 另一个名为 EXCLUDE 他们都有一个名为电子邮件的字段基本上我想删除 USERS 中包含 EXCLUDE 中包含电子邮件的每一行我该怎么做您可以使用boolean indexing
从 Python 下载/安装 Windows 更新

我正在编写一个脚本来自动安装 Windows 更新我可以将其部署在多台计算机上这样我就不必担心手动更新它们我想用 Python 编写这个但找不到任何关于如何完成此操作的信息我需要知道如何搜索更新下载更新并从 python 脚本安
Python 是解释型的还是编译型的，或者两者兼而有之？

据我了解 An 解释的语言是由解释器将高级语言转换为机器代码然后执行的程序实时运行和执行的高级语言它一次处理一点程序 A compiled语言是一种高级语言其代码首先由编译器将高级语言转换为机器代码的程序转换为机器代码然后由执
Python 使用 Gstreamer 访问 USB 麦克风时遇到问题，以便在 Raspberry Pi 上使用 Pocketsphinx 执行语音识别

所以Python的表现就好像它根本听不到我的麦克风发出的任何声音问题就在这里我有一个Python 2 7 假设使用的脚本Gstreamer通过以下方式访问我的麦克风并为我进行语音识别口袋狮身人面像我在用着脉冲音频我的设备是树莓派我的
小部件之间的自定义信号

尝试将信号从一个 gtk EventBox 子级发送到另一个在 init HeadMode 第 75 行上出现错误类型错误未知信号名称消息发送 why usr bin env python coding utf8 import p
Python中列表中两个连续元素的平均值

我有一个偶数个浮点数的列表 2 34 3 45 4 56 1 23 2 34 7 89 我的任务是计算 1 和 2 个元素 3 和 4 5 和 6 等元素的平均值在 Python 中执行此操作的快捷方法是什么 data 2 34 3 45
编辑 Jupyter Notebook 时 VS Code 中缺少“在选择中查找”

使用 Jupyter Notebook 时 VSCode 中缺少在选择中查找按钮它会减慢开发速度所以我想请问有人知道如何激活它吗第一张图显示了在 python 文件中的搜索替换第二张图显示了笔记本电脑中缺少的按钮 Python
Python、subprocess、call()、check_call 和 returncode 来查找命令是否存在

我已经弄清楚如何使用 call 让我的 python 脚本运行命令 import subprocess mycommandline lumberjack sleep all night work all day subprocess cal
Pandas 堆积条形图中元素的排序

我正在尝试绘制有关某个地区 5 个地区的家庭在特定行业赚取的收入比例的信息我使用 groupby 按地区对数据框中的信息进行排序 df df orig groupby District Portion of income value co
GradientTape 根据损失函数是否被 tf.function 修饰给出不同的梯度

我发现计算的梯度取决于 tf function 装饰器的相互作用如下所示首先我为二元分类创建一些合成数据 tf random set seed 42 np random seed 42 x tf random normal 2 1 y
Python：我不明白 sum() 的完整用法

当然我明白你使用 sum 与几个数字然后它总结所有但我正在查看它的文档我发现了这一点 sum iterable start 第二个参数 start 的作用是什么这太尴尬了但我似乎无法通过谷歌找到任何示例并且对于尝试学习该语言的
为什么我应该使用 WSGI？

使用 mod python 一段时间了我读了越来越多关于 WSGI 有多好的文章但没有真正理解为什么那么我为什么要切换到它呢有什么好处这很难吗学习曲线值得吗为了用 Python 开发复杂的 Web 应用程序您可能会使用更全面
以编程方式使用 Sphinx 特定指令解析 .rst 文件

我希望能够在 Python 中解析基于 sphinx 的 rst 以便进一步处理和检查就像是 import sphinx p sphinx parse path to file rst do something with p 似乎在 do
sqlite3从打印数据中删除括号

我创建了一个脚本用于查找数据库第一行中的最后一个值 import sqlite3 global SerialNum conn sqlite3 connect MyFirstDB db conn text factory str c con
Python对象初始化性能

我只是做了一些快速的性能测试我注意到一般情况下初始化列表比显式初始化列表慢大约四到六倍这些可能是错误的术语我不确定这里的行话例如 gt gt gt import timeit gt gt gt print timeit timeit
计算互相关函数？

In R 我在用ccf or acf计算成对互相关函数以便我可以找出哪个移位给我带来最大值从它的外观来看 R给我一个标准化的值序列 Python 的 scipy 中是否有类似的东西或者我应该使用fft模块目前我正在这样做 xcor
[cocos2d-x]当我尝试在 Windows 10 中运行“python android-build.py -p 19 cpp-tests”时出现错误

当我尝试运行命令时python android build p cpp tests 我收到如图所示的错误在此之前我收到了另一条关于 Android SDK Tools 版本兼容性的错误消息所以我只是将 sdk 版本从 26 0 0

随机推荐

如何在运行时更改外部类日志记录级别后刷新 log4j

我有一些想要禁用的警告他们来自 org eclipse lyo oslc4j provider jena JenaModelHelper 班级所以我使用 log4j 并在运行时调用 Logger getLogger org eclips
使用 Ajax 平铺滚动/预加载 HTML 层（Google 地图样式）

我希望复制 Google Maps API 的平移不一定是缩放效果但不包含图像本质上我想将 HTML 元素放置在一个大坐标系中并能够在它们周围导航 Prezi http prezi com 样式尽管没有旋转最好我想通过 j
Magento：您可以设置它以便所有网站共享相同的订单增量 ID 序列吗？

有谁知道是否可以让所有网站或商店共享相同的订单增量 ID 基本上我们正在使用一个 ERP 系统该系统允许我们提交发票号码作为系统中的实际订单号码但问题是他们只需要一个号码序列而不是像 Magento 那样为每个商店使用不同的号码序
防止 asp.net mvc 应用程序中的多个 POST

如果用户不断单击提交按钮如何防止用户多次将相同的数据发布到操作我知道在 php 中有一种方法可以防止这种多次提交但我没有看到任何用于 asp net mvc 的方法有没有您可以使用 JavaScript 禁用提交按钮 jQuer
画布上绘制的圆圈与屏幕不匹配

我想在屏幕中心画一个圆圈但我得到的是这样的东西我正在使用这段代码来绘制这个圆圈 public void onCreate Bundle savedInstanceState super onCreate savedInstanceSta
减少 Pyinstaller 生成的可执行文件的文件大小的一般技巧有哪些

我正在使用 Pyinstaller 将 python 脚本转换为可执行文件该脚本包含来自各种包如 nltk begin json 等的多个导入 10 行代码生成的可执行文件为 54MB 这是不切实际的高我知道它将所有模块打包在一个文
形成对对象的引用是否构成访问？

形成对对象的引用是否构成访问以下是 GCC 和 Clang 目前所做的事情 void test int const volatile ptr noexcept ptr movl rdi eax Reads ptr maybe unused
在使用 MediaCodec 进行编码之前裁剪视频以进行 Grafika 的“连续捕获”活动

我正在了解 Grafika 的连续捕获活动它是关于使用 MediaCodec 录制视频活动源代码位于https github com google grafika blob master src com android grafik
朱莉娅：外积函数

In R 功能outer结构上允许您获取两个向量的外积x and y同时提供了许多应用于每个组合的实际功能的选项例如outer x y 创建一个外积矩阵其中包含元素之间的差异x and y 朱莉娅有类似的东西吗广播是添加时发生的
创意中的无定形镜片

我尝试对 scala 2 10 3 使用版本 2 0 0 的无形状镜片我有与此类似的代码 import shapeless case class A map Map String String case class B a A val m
在 Android Jetpack Compose 中使用 State 时出现 java.lang.IllegalStateException

I have ViewModel使用 Kotlin 密封类为 UI 提供不同的状态另外我用androidx compose runtime State通知 UI 有关状态更改的对象如果出现错误MyApi请求发生时我把UIState
iCloud 和 Xcode 6 - 无处不在的容器

我目前正在开发一个适用于 iOS 8 的应用程序它使用 iCloud Drive 和 CloudKit Framework 一切都是使用 Xcode 6 设置的 When I try to submit my App to iTunesC
如何构建F#类型的实现业务规则？

我正在尝试在 F 中构建一个类型当我获得该类型的对象时我可以确定它处于有效状态该类型称为JobId它只持有一个Guid 业务规则是它必须是一个 Guid 但不能是空的 Guid 我已经在 C 中实现了该类型但现在我想将其移植到 F
从 ruby c 扩展中的线程调用 IO 操作将导致 ruby 挂起

我在使用 C 扩展中的线程异步运行 ruby 代码时遇到问题我有以下 C 代码 struct DATA VALUE callback pthread t watchThread void ptr void executer void pt
如何检查 python 2.7 中的原始输入是否为整数？

有没有一种方法可以用来检查raw input是一个整数我在网上查了资料后发现了这个方法 print isinstance raw input number int 但是当我运行它并输入4例如我得到FALSE 我对 python 有点陌生
将 POI 工作簿流式传输到 servlet 输出流

我在我的网络服务器上构建了一个非常大的 POI 工作簿将整个工作簿保存在内存中不会针对多个并发请求进行扩展有没有办法可以逐步将工作簿写入 servlet 输出流这应该会减少响应时间并提高进程内存的效率如果您要生成 Excel 2
Guice 和一般应用程序配置

对于用 Java 编写的监控软件我考虑使用 Google Guice 作为 DI 提供程序项目需要从外部资源文件或数据库加载其配置该应用程序设计为在独立模式或 servlet 容器中运行目前配置不包含用于依赖项注入的绑定或参数
如何在Release模式下启用TRACE宏？

The 跟踪宏 http msdn microsoft com en us library 4wyz8787 VS 80 aspx可用于在代码编译时向调试器输出诊断消息Debug模式我在的时候需要同样的信息Release模式有办法实现这
chrome浏览器粗边框问题

边框折叠在 Chrome 浏览器中无法正常工作有些边界线看起来很粗请查看这张图片并帮助我解决这个错误 I need lite border for all rows but highlighted rows border are loo
如何使用 scikit learn inverse_transform 和新值

我有一组数据是我使用scikit learn PCA 我在使用 StandardScaler 执行 PCA 之前对数据进行了缩放 variance to retain 0 99 np scaled StandardScaler fit tr

如何使用 scikit learn inverse_transform 和新值

如何使用 scikit learn inverse_transform 和新值 的相关文章

随机推荐

热门标签

如何使用 scikit learn inverse_transform 和新值的相关文章