进行特征选择、PCA 和标准化的正确顺序？

2024-01-29

我知道特征选择可以帮助我删除贡献度较低的特征。我知道 PCA 有助于将可能相关的特征减少为一个，从而减少维度。我知道标准化会将特征转换为相同的尺度。

但这三个步骤有推荐的顺序吗？从逻辑上讲，我认为我应该首先通过特征选择来剔除不好的特征，然后对它们进行归一化，最后使用PCA来降低维度，使特征尽可能相互独立。

这个逻辑正确吗？

额外问题 - 还有什么事情要做（预处理或转换）在将特征输入估计器之前？

如果我正在做某种分类器，我个人会使用这个顺序

正常化
PCA
特征选择

标准化：您将首先进行标准化以使数据处于合理的范围内。如果你有数据 (x,y) 和范围x is from -1000 to +1000 and y is from -1 to +1您可以看到任何距离度量都会自动表明 y 的变化不如 X 的变化显着。我们还不知道情况是否如此。所以我们想要标准化我们的数据。

PCA：使用数据的特征值分解来查找描述数据点方差的正交基集。如果您有 4 个特征，PCA 可以向您展示只有 2 个特征真正区分数据点，这使我们进入最后一步

特征选择：一旦有了可以更好地描述数据的坐标空间，您就可以选择哪些特征是显着的。通常，您会使用 PCA 中的最大特征值 (EV) 及其相应的特征向量来表示。由于较大的 EV 意味着该数据方向上存在更大的方差，因此您可以在隔离特征时获得更精细的粒度。这是减少问题维度的好方法。

当然，这可能会因问题而异，但这只是一个通用指南。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

machinelearning

scikitlearn

进行特征选择、PCA 和标准化的正确顺序？的相关文章

Caffe，在层中设置自定义权重

I have a network In one place I want to use concat As on this picture 不幸的是该网络无法训练为了理解为什么我想连续改变权重这意味着 FC4096 中的所有值一开始都
部分拟合是否在 sklearn.decomposition.IncrementalPCA 中并行运行？

我已经关注了伊马诺卢恩戈 https stackoverflow com users 764322 imanol luengo s answer https stackoverflow com a 44335148 10183880建立部
scikit-learn - 具有置信区间的 ROC 曲线

我可以使用 ROC 曲线scikit learn with fpr tpr thresholds metrics roc curve y true y pred pos label 1 where y true是基于我的黄金标准的值列表即
在 Spark 中分发 scikit learn 分类器的推荐方法是什么？

我已经使用 scikit learn 构建了一个分类器现在我想使用 Spark 在大型数据集上运行 Predict proba 我目前使用以下方法对分类器进行腌制 import pickle pickle dump clf open cl
如何计算两个字符串向量之间的余弦相似度

我有 2 个维度为 6 的向量我想要一个介于 0 和 1 之间的数字 a c HDa 2Pb 2 BxU BuQ Bve b c HCK 2Pb 2 09 F G 谁能解释我应该做什么使用lsa包和该包的手册 create some f
使用 scikit 确定每个特征对特定类别预测的贡献

我正在使用 scikit 额外的树分类器 model ExtraTreesClassifier n estimators 10000 n jobs 1 random state 0 一旦模型拟合并用于预测类别我想找出每个特征对特定类别预测
使用基于 ConvLSTM2D 的 Keras 模型从较低分辨率图像估计高分辨率图像

我正在尝试使用以下内容ConvLSTM2D从低分辨率图像序列估计高分辨率图像序列的架构 import numpy as np scipy ndimage matplotlib pyplot as plt from keras models
如何使用sklearn Pipeline和FeatureUnion选择多个（数字和文本）列进行文本分类？

我开发了一个用于多标签分类的文本模型这OneVsRest分类器 http scikit learn org stable modules generated sklearn multiclass OneVsRestClassifier h
为什么 cross_val_predict 比 KNeighborsClassifier 的拟合慢得多？

在 Jupyter 笔记本上本地运行并使用 MNIST 数据集 28k 条目每个图像 28x28 像素以下内容为27秒 from sklearn neighbors import KNeighborsClassifier knn clf
sklearn：使用 Pipeline 和 TransformedTargetRegressor 缩放 x（数据）和 y（目标）

我想使用 Pipeline 和 TransformedTargetRegressor 来处理所有缩放数据和目标是否可以混合 Pipeline 和 TransformedTargetRegressor 如何从 TransformedTar
如何使用 Scikit-Learn 和 Python 找到最佳簇数

我正在学习聚类Pythons scikit learnlib 但我找不到找到最佳簇数的方法我试图制作一个集群数量列表并将其传递进去for loop 并看到elbow但我想找到更好的解决方案只有当我这样做时这种方法才有效range 1
神经网络中的时间序列提前预测（N点提前预测）大规模迭代训练

N 90 使用神经网络进行提前预测我试图预测提前 3 分钟即提前 180 点因为我将时间序列数据压缩为每 2 个点的平均值为 1 所以我必须预测 N 90 超前预测我的时间序列数据以秒为单位给出值在 30 90 之间它们通常从
ValueError：没有为“dense_input”提供数据

我正在使用以下简单的代码使用tensorflow加载csv并使用keras执行建模无法弄清楚这个错误 import tensorflow as tf train dataset fp tf keras utils get file fna
在 GPU 支持下对高维数据进行更快的 Kmeans 聚类

我们一直在使用 Kmeans 来对日志进行聚类典型的数据集有 10 mill 具有 100k 特征的样本为了找到最佳 k 我们并行运行多个 Kmeans 并选择轮廓得分最佳的一个在 90 的情况下我们最终得到的 k 介于 2 到 1
如何将标记化中的多单词名称保留在一起？

我想使用 TF IDF 特征对文档进行分类一种方法是 from sklearn feature extraction text import TfidfVectorizer import string import re import n
如何重现 Ridge(normalize=True) 的行为？

这段代码 from sklearn pipeline import make pipeline from sklearn preprocessing import StandardScaler from sklearn linear mod
TensorFlow：带有轴选项的 bincount

在 TensorFlow 中我可以使用 tf bincount 获取数组中每个元素的计数 x tf placeholder tf int32 None freq tf bincount x tf Session run freq feed
从sklearn PCA获取特征值和向量

如何获取 PCA 应用程序的特征值和特征向量 from sklearn decomposition import PCA clf PCA 0 98 whiten True converse 98 variance X train clf f
GradientTape 根据损失函数是否被 tf.function 修饰给出不同的梯度

我发现计算的梯度取决于 tf function 装饰器的相互作用如下所示首先我为二元分类创建一些合成数据 tf random set seed 42 np random seed 42 x tf random normal 2 1 y
randomForest 包在删除一个预测类时的奇怪行为

我正在运行一个随机森林模型它产生的结果从统计角度来看对我来说完全没有意义因此我确信有些东西mustrandomForest 包的代码出现错误至少在模型的本次迭代中预测左侧变量是具有 3 种可能结果的政党 ID 民主党独立党共和

随机推荐

外部车把模板骨干木偶

在我的应用程序中我添加了 Marionette sync 插件并覆盖这些方法 Backbone Marionette TemplateCache prototype loadTemplate function templateId cal
具有重复组的正则表达式

我一直在尝试匹配连字符之间的短语我意识到我可以轻松地拆分连字符并取出短语但我的等效正则表达式无法按预期工作我想了解原因只是我对短语的定义只是非捕获空格分隔的连字符 so 正在捕获连字符或行尾最后整个内容用括号括起来量词匹配多
AngularJs + ServiceStack 应用程序的安全性

我有一个前端有四个模块的应用程序我试图在前端尽可能多地使用 AngularJs 我正在使用一个空的网站 asp net 项目来托管所有文件和 REST serviceStack 我的项目具有以下结构 web config global a
ReactJS中子父组件通信

我喜欢在事件触发时将属性 property props state 值从子组件发送到父组件onDrag 我找不到这方面的正确文档这是我的代码 jsx React DOM var APP React createClass getIniti
jQuery：将 TextArea 内容转换为 html 字符串，反之亦然

我想做的是将 TextArea 内容转换为有效的 html 代码假设您在 TextArea 内键入内容然后按下一个按钮该按钮会在元素内显示键入的文本如果您在 TextArea 中输入类似内容嗨伙计你喜欢 jQuery 吗 I d
Sphinx 过滤器 - 过滤器属性之间可以有“OR”吗？

我正在使用 sphinx 列出数据库中的一些项目几乎100 我只是还没弄清楚如何创建一个OR两个不同的过滤器之间例如我在数据库中的对象有开始日期和结束日期我可以filter starting date x y and filter
jquery-file-upload 插件：如何更改上传路径？

我正在尝试使用 blueimp jquery file upload 插件似乎是一个很好的上传器但文档没有帮助当我使用可下载的演示脚本时一切正常但是当我想更改上传路径时这不起作用我尝试在index php中更改操作路径如下
Iterable> 无法确认函数中的泛型 T

这是我的问题 const iterable 1 2 3 function flat
ASP.NET Core 使用多种身份验证方法

同时使用 Cookie 身份验证中间件和 JWT 身份验证中间件当我登录用户时我创建自定义声明并将其附加到基于 cookie 的身份我还从外部源获取一个 jwt 令牌它有自己的声明我使用此令牌来访问外部资源启用身份验证时我的控
选择列表的字典键和值

Dictionary
RecyclerView 平滑滚动到中心位置。安卓

我正在使用水平布局管理器RecyclerView 我需要做RecyclerView接下来的方式当单击某个项目时平滑滚动到该位置并将该项目放在中心RecyclerView 如果可能的话例如从 20 项中选择 10 项所以我没有问题
在 postgres 中创建超级用户

我正在寻找使用 Vagrant 设置 Rails 环境为此它是通过 bash shell 方法配置的其中包括以下行 sudo u postgres createuser
Django：从数据库获取一个对象，如果没有匹配的则为“无”

是否有任何 Django 函数可以让我从数据库中获取对象或者如果没有匹配则没有现在我正在使用类似的东西 foo Foo objects filter bar baz foo len foo gt 0 and foo get or Non
Laravel 5.5 Collection 哪里喜欢

我正在使用集合过滤数据但我需要使用类似的方法我曾尝试这样写 name LIKE value 但它不起作用这是我的方法 protected function filterData Collection collection transf
消除“switch”语句[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案消除使用的方法有哪些switch代码中的语句 Switch 语句本身并不是反模式但如果您正在编写面向对象的代码则应该考虑是否可以更
在将连续查询添加到生产 influxdb 之前测试连续查询的最佳方法是什么？

将新的连续查询添加到生产数据库 influxdb 的最佳方法是什么克隆生产 influxdb 吗我希望避免这种情况有没有一种好的方法可以通过网络管理界面来测试和尝试它们我想你可以创建临时测量设置 CQ 插入一些示例数据并在 CQ
删除 Windows Phone 芒果中的后备条目

我如何删除 wp7 1 中的后退堆栈我有 3 个页面当我从 A 导航到 B 时说 A B C 在 B 中有一个按钮可以添加新的联系方式当我单击它时页面导航到页面C 和在页面 C 中有一个完成按钮当我单击完成按钮时页面导
使用 Ecto 的原始 SQL

我对 Elixir 和 Phoenix Framework 的世界还很陌生我正在尝试遵循 TheFireHoseProject 教程但在使用 Ecto 查询原始 SQL 时遇到问题该教程说这应该有效 defmodule Queries
Perl 如何解析未加引号的裸词？（裸词、标识符）

未加引号的单词在 Perl 中似乎有很多含义 print STDERR msg hash key func param gt arg my x str 如何确定这些的含义下图显示了 Perl 如何按优先级降序解析标识符它也适用于由以下链
进行特征选择、PCA 和标准化的正确顺序？

我知道特征选择可以帮助我删除贡献度较低的特征我知道 PCA 有助于将可能相关的特征减少为一个从而减少维度我知道标准化会将特征转换为相同的尺度但这三个步骤有推荐的顺序吗从逻辑上讲我认为我应该首先通过特征选择来剔除不好的特征然后对

进行特征选择、PCA 和标准化的正确顺序？

进行特征选择、PCA 和标准化的正确顺序？ 的相关文章

随机推荐

热门标签

进行特征选择、PCA 和标准化的正确顺序？的相关文章