对具有大量零特征的数据进行归一化/标准化是否有利

2024-03-24

我拥有大约 60 个特征的数据，在我的训练数据中，大多数情况下大多数情况下都为零，只有 2-3 列可能有值（准确地说是其性能日志数据）。但是，我的测试数据在其他一些列中会有一些值。

我已经完成了归一化/标准化（分别尝试了两者）并将其提供给 PCA/SVD（分别尝试了两者）。我使用这些功能来拟合我的模型，但是它给出的结果非常不准确。

然而，如果我跳过归一化/标准化步骤，直接将数据输入 PCA/SVD，然后输入模型，它会给出准确的结果（几乎高于 90% 的准确度）。

P.S.：我必须使用隔离森林算法进行异常检测。

为什么这些结果会有所不同？

标准化和标准化（取决于来源，它们有时被等效使用，所以我不确定在这种情况下每一个的确切含义，但这并不重要）是一般性建议，通常在数据存在的问题中效果很好或多或少均匀分布。然而，根据定义，异常检测并不是那种问题。如果您有一个数据集，其中大多数示例属于类A只有少数属于班级B，有可能（如果没有必要）稀疏特征（几乎总是为零的特征）实际上对您的问题具有很大的辨别力。对它们进行标准化基本上会将它们变成零或几乎为零，从而使分类器（或 PCA/SVD）很难真正掌握它们的重要性。因此，如果跳过标准化，您会获得更好的准确性，这并不是没有道理的，而且您不应该仅仅因为“应该这样做”而觉得自己做“错”了

我没有异常检测的经验，但我有一些不平衡数据集的经验。您可以考虑某种形式的“加权归一化”，其中每个特征的均值和方差的计算都使用与类中示例数量成反比的值进行加权（例如examples_A ^ alpha / (examples_A ^ alpha + examples_B ^ alpha), with alpha一些小的负数）。如果你的稀疏特征具有非常不同的尺度（例如，一个在 90% 的情况下为 0，在 10% 的情况下为 3，另一个在 90% 的情况下为 0，在 10% 的情况下为 80），你可以将它们缩放到公共范围（例如 [0, 1]）。

无论如何，正如我所说，不要仅仅因为技术应该有效就应用它们。如果某些东西不适用于您的问题或特定数据集，您有理由不使用它（并尝试理解why它不起作用可能会产生一些有用的见解）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

对具有大量零特征的数据进行归一化/标准化是否有利的相关文章

Tkinter 菜单删除项

如何删除任何菜单项例如我想删除播放 self menubar Menu self root self root config menu self menubar self filemenu2 Menu self menubar self
尝试从网页Python和BeautifulSoup获取编码

我试图从网页检索字符集这会一直改变目前我使用 beautifulSoup 来解析页面然后从标题中提取字符集这工作正常直到我遇到一个网站到目前为止我的代码以及与其他页面一起使用的代码是 def get encoding soup
如何使用 Python boto3 获取 redshift 中的列名称

我想使用 python boto3 获取 redshift 中的列名称创建Redshift集群将数据插入其中配置的机密管理器配置 SageMaker 笔记本打开Jupyter Notebook写入以下代码 import boto3
python array(10,1) 和 array(10,) 之间的区别

我正在尝试将 MNIST 数据集加载到数组中当我使用 X train y train X test y test mnist load data 我得到一个数组 y test 10000 但我希望它的形状为 10000 1 数组 1000
检查 python 中命令行参数的数量

我是蟒蛇新手还是把脚弄湿了我正在尝试做这样的事情 import sys if len sys argv lt 3 or lt len sys argv gt 3 print This script will compare two fi
python celery -A 的无效值无法加载应用程序

我有一个以下项目目录 azima init py main py tasks py task py from main import app app task def add x y return x y app task def mul
OpenCV 跟踪器：模型未在函数 init 中初始化

在视频的第一帧我运行一个对象检测器它返回对象的边界框如下所示
Jupyter 笔记本中未显示绘图图表

我已经尝试解决这个问题几个小时了我按照上面的步骤操作情节网站 https plot ly python getting started start plotting online并且图表仍然没有显示在笔记本中这是我的情节代码 color
时间序列数据预处理 - numpy strides 技巧以节省内存

我正在预处理一个时间序列数据集将其形状从二维数据点特征更改为三维数据点时间窗口特征在这样的视角中时间窗口有时也称为回顾指示作为输入变量来预测下一个时间段的先前时间步长数据点的数量换句话说时间窗口是机器学习算法在对
为什么这个 if 语句会导致语法错误

我正在尝试设置一个 elif 语句如果用户按下 Enter 键代码将继续但是我不断遇到语法错误 GTIN 0 while True try GTIN int input input your gtin 8 number if len
使用seaborn绘制简单线图

我正在尝试使用seaborn python 绘制ROC曲线对于 matplotlib 我只需使用该函数plot plt plot one minus specificity sensitivity bs where one minus s
pygame：使用 sprite.RenderPlain 绘制精灵组的顺序

我有一个精灵组需要按一定的顺序绘制以便其精灵按应有的方式重叠然而即使使用运算符模块函数 sorted self sprites key attrgetter y x 对组进行排序顺序也是错误的我该如何解决这个问题直截了当地说
如何在 Seaborn 中的热图轴上表达类

我使用 Seaborn 创建了一个非常简单的热图显示相似性方阵这是我使用的一行代码 sns heatmap sim mat linewidths 0 square True robust True sns plt show 这是我得到的
如何从列表类别中对 pandas 数据框进行排序？

所以我在下面有这个数据集我想根据我的列表从名称列进行排序以及按 A 升序和按 B 降序排序 import pandas as pd import numpy as np df1 pd DataFrame from items A 1
Discord.py 嵌入中禁用按钮/冻结按钮

I m trying to make a replica of this bot in which when I press any of the buttons below it shows a dropdown menu and you
使用 selenium 和 python 来提取 javascript 生成的 HTML？萤火虫？

这里是Python新手我遇到的是数据收集问题我在这个网站上当我用 Firebug 检查我想要的元素时它显示了包含我需要的信息的源然而常规源代码没有 Firebug 不会给我这个信息这意味着我也无法通过正常的 selenium
如何通过函数注释指示函数需要函数作为参数，或返回函数？

您可以使用函数注释 http www python org dev peps pep 3107 在python 3中指示参数和返回值的类型如下所示 def myfunction name str age int gt str return
在 numpy 中连接维度

我有x 1 2 3 4 5 6 7 8 9 10 11 12 shape 2 2 3 I want 1 2 3 4 5 6 7 8 9 10 11 12 shape 2 6 也就是说我想连接中间维度的所有项目在这种特殊情况下我可以得到这
高效创建抗锯齿圆形蒙版

我正在尝试创建抗锯齿加权而不是布尔圆形掩模以制作用于卷积的圆形内核 radius 3 no of pixels to be 1 on either side of the center pixel shall be decimal a
如何通过点击复制 folium 地图上的标记位置？

I am able to print the location of a given marker on the map using folium plugins MousePosition class GeoMap def update

随机推荐

如何仅迭代元组的第一个变量

在Python中当你有一个元组列表时你可以迭代它们例如当你有 3d 点时 for x y z in points pass do something with x y or z 如果您只想使用第一个变量或者第一个和第三个变量该怎
case 表达式中是否可以使用不同的数据类型？

我有这个查询 SELECT CASE WHEN dbo CFE PPHY P77 IS NOT NULL OR dbo CFE PPHY P77 lt gt THEN MONTH dbo CFE PPHY P77 WHEN dbo CFE
直接使用GET和POST有哪些漏洞？

我想知道有哪些漏洞而直接使用 GET 和 POST 变量即没有修剪和addslashes函数和mysql转义字符串之类的东西我的问题是我们还需要照顾什么在使用 GET 和 POST 时有哪些类型的攻击比如SQL注入一般来说不仅限
将字符串转换为类对象[关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我使用将类对象存储到字符串中toSt
如何将一个巨大的文件分割成多个单词？

如何从文本文件中读取很长的字符串然后对其进行处理拆分为单词我尝试过StreamReader ReadLine 方法但我得到了OutOfMemory例外显然我的队伍非常长这是我的读取文件的代码 using var streamR
日期范围内的日期范围

实际上这个任务对我来说似乎很容易但我有点卡住了非常感谢一些提示 D 我有一些带有开始和结束时间的事件我想创建一个包含日历周的表格因此我编写了一个方法来检查本周内是否有事件并将其着色如下 private boolean inWee
通过 f11 启用全屏后通过 javascript 禁用全屏

通过按下面的按钮我可以启用和禁用全屏模式但按下 f12 后我无法禁用全屏模式我参考了其他答案他们只提供了一种方法来检测窗口是否处于全屏模式我是无法获取从全屏禁用全屏模式的代码通过 f11 键制作我尝试通过代码触发 f11 但
以 PDF 形式通过电子邮件发送 Google 表格

我有这个脚本它通过电子邮件向我发送 Google 电子表格的 PDF 我只希望它通过电子邮件将第一个选项卡发送给我如果可能的话将其作为单个 PDF 或 zip 文件发送给我想知道是否有人可以提供帮助另外其中一个选项卡是隐
使用 Rcpp 将目标文件链接到函数的简化示例[重复]

这个问题在这里已经有答案了我现有的 C 代码由三个文件组成头文件 h 文件库文件 o 文件和源文件它们目前在 UNIX 下运行并在 Matlab 中编译为 mex 文件我想使用 Rcpp 将它们移植到 R 它们都又长又复杂所
R中的随机森林对训练数据的大小有限制吗？

我正在使用我的训练数据训练随机森林该数据有 114954 行和 135 列预测变量我收到以下错误 model lt randomForest u b stars data traindata importance TRUE do tr
可以通过 XML 定义 bean 构造型吗？

是否可以通过 XML 定义 bean 构造型如下
在 pandas 中高效使用替换

我正在寻找使用replace在 python3 中以有效的方式运行我拥有的代码正在完成任务但速度太慢因为我正在处理大型数据集因此每当需要权衡时我的首要任务是效率而不是优雅这是我想做的一个玩具 import pandas as
listview onScroll 方法中某些项目为空

我有一个列表视图我重写了它的 onScroll 事件以便我可以获取列表视图的第一个可见项目上的文本的第一个字符我的代码如下 Override public void onScrollStateChanged AbsListView v
Material-ui 工具提示无法正常工作

我正在尝试使用material ui 工具提示我希望工具提示显示在顶部即使设置后placement top 演示可以找到here https codesandbox io s yjrq3lkk29 我在这里做错了什么因为页面没有足够的
仅允许在 WPF 文本框中输入数字

我想验证用户输入以确保它们是整数我该怎么做我想用IDataErrorInfo这似乎是在 WPF 中进行验证的正确方法所以我尝试在我的 ViewModel 中实现它但问题是我的文本框绑定到一个整数字段并且不需要验证是否int i
多指标散点图

假设我有以下数据 data Value 1 1 3 0 1 2 4 0 1 3 51 0 1 4 10 0 1 5 2 0 1 6 17 0 1 7 14 0 1 8 7 0 1 9 2 0 1 10 1 0 df pd DataFrame
在不同的子域上使用 Socket.IO 服务器和客户端

我有两个子域 socket mydomain com Socket IO 服务器 app mydomain com 我想连接到我的网络套接字的网络应用程序在 app mydomain com 的登陆页面中我已链接到 Socket IO
使用 IIS-Express 激活压缩（尤其是动态压缩）

是否可以在 IIS Express 上启用动态压缩针对 WCF 服务这是一个开发环境问题因此我无法使用完整版本但我需要弄清楚它在压缩时的表现如何进入 IIS Express 安装文件夹 programfiles IIS Expre
如何在最新的Next.js中获取服务器端数据？尝试了 getStaticProps 但它没有运行并且未定义

我正在使用 Next js 开发 Django Rest 框架但我陷入了从 API 获取数据的困境我在这个网址中有数据http 127 0 0 1 8000 api campaigns当我访问该网址时我会看到数据问题是当我使用 Ne
对具有大量零特征的数据进行归一化/标准化是否有利

我拥有大约 60 个特征的数据在我的训练数据中大多数情况下大多数情况下都为零只有 2 3 列可能有值准确地说是其性能日志数据但是我的测试数据在其他一些列中会有一些值我已经完成了归一化标准化分别尝试了两者并将其提供给 PC

对具有大量零特征的数据进行归一化/标准化是否有利

对具有大量零特征的数据进行归一化/标准化是否有利 的相关文章

随机推荐

热门标签

对具有大量零特征的数据进行归一化/标准化是否有利的相关文章