如何使用 pandas 计算所有列之间的相关性并删除高度相关的列？

2024-04-10

我有一个巨大的数据集，在机器学习建模之前，总是建议您首先应该删除高度相关的描述符（列），我如何计算列wice相关性并删除具有阈值的列，例如删除所有列或描述符具有 >0.8 的相关性。它还应该保留减少数据中的标题。

示例数据集

 GA      PN       PC     MBP      GR     AP   
0.033   6.652   6.681   0.194   0.874   3.177    
0.034   9.039   6.224   0.194   1.137   3.4      
0.035   10.936  10.304  1.015   0.911   4.9      
0.022   10.11   9.603   1.374   0.848   4.566    
0.035   2.963   17.156  0.599   0.823   9.406    
0.033   10.872  10.244  1.015   0.574   4.871     
0.035   21.694  22.389  1.015   0.859   9.259     
0.035   10.936  10.304  1.015   0.911   4.5

请帮忙....

这里的方法对我来说效果很好，只有几行代码：https://chrisalbon.com/machine_learning/feature_selection/drop_highly_corlated_features/ https://chrisalbon.com/machine_learning/feature_selection/drop_highly_correlated_features/

import numpy as np

# Create correlation matrix
corr_matrix = df.corr().abs()

# Select upper triangle of correlation matrix
upper = corr_matrix.where(np.triu(np.ones(corr_matrix.shape), k=1).astype(bool))

# Find features with correlation greater than 0.95
to_drop = [column for column in upper.columns if any(upper[column] > 0.95)]

# Drop features 
df.drop(to_drop, axis=1, inplace=True)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用 pandas 计算所有列之间的相关性并删除高度相关的列？的相关文章

McNemar 在 Python 中的测试以及分类机器学习模型的比较 [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案有没有用 Python 实现的好的 McNemar 测试我在 Scipy stats 或 Scikit
尝试从网页Python和BeautifulSoup获取编码

我试图从网页检索字符集这会一直改变目前我使用 beautifulSoup 来解析页面然后从标题中提取字符集这工作正常直到我遇到一个网站到目前为止我的代码以及与其他页面一起使用的代码是 def get encoding soup
如何使用 Python boto3 获取 redshift 中的列名称

我想使用 python boto3 获取 redshift 中的列名称创建Redshift集群将数据插入其中配置的机密管理器配置 SageMaker 笔记本打开Jupyter Notebook写入以下代码 import boto3
检查 python 中命令行参数的数量

我是蟒蛇新手还是把脚弄湿了我正在尝试做这样的事情 import sys if len sys argv lt 3 or lt len sys argv gt 3 print This script will compare two fi
以类型化内存视图作为成员的结构定义

目前我正在尝试让一个具有类型化内存视图的结构能够工作例如 ctypedef struct node unsigned int inds 如果 inds 不是内存视图据我所知它可以完美地工作然而通过内存视图并使用类似的东西 def
是否有一个包可以维护所有带有符号的货币列表？

是否有一个 python 包提供所有或相当完整货币的列表与符号如美元的有优秀的pycountry 贪财的 https github com limist py moneyed and ccy http code google com
如何将 sql 数据输出到 QCalendarWidget

我希望能够在日历小部件上突出显示 SQL 数据库中的一天就像启动程序时突出显示当前日期一样在我的示例中它是红色突出显示我想要发生的是当用户按下突出显示的日期时数据库中日期旁边的文本将显示在日历下方的标签上这是我使用 QT De
OpenCV 跟踪器：模型未在函数 init 中初始化

在视频的第一帧我运行一个对象检测器它返回对象的边界框如下所示
如何在 Python 中的函数入口、内部和退出处进行日志记录

我希望能够使用 Python 日志记录工具在我的代码中进行简单且一致的日志记录我能够执行以下操作我希望所有现有未来的模块和函数都有输入和完成日志消息我不想添加相同的代码片段来定义日志记录参数如下所示don t want t
在Python中读取tiff标签

我正在尝试用 Python 读取 tiff 文件的标签该文件是 RGB 的uint16每个通道的值我目前正在使用tifffile import tifffile img tifffile imread file tif 然而 img是一
如何在 Django Rest 框架中编写“删除”操作的测试

我正在为 Django Rest Framework API 编写测试我一直在测试删除我对创建的测试工作正常这是我的测试代码 import json from django urls import reverse from re
时间序列数据预处理 - numpy strides 技巧以节省内存

我正在预处理一个时间序列数据集将其形状从二维数据点特征更改为三维数据点时间窗口特征在这样的视角中时间窗口有时也称为回顾指示作为输入变量来预测下一个时间段的先前时间步长数据点的数量换句话说时间窗口是机器学习算法在对
App Engine 实体到字典

将 google app engine 实体在 python 中复制到字典对象的好方法是什么我正在使用 db Expando 对象所有属性均为扩展属性 Thanks 有一个名为foo尝试 foo dict
为正则表达式编写解析器

即使经过多年的编程我很羞愧地说我从未真正完全掌握正则表达式一般来说当问题需要正则表达式时我通常可以在一堆引用语法之后想出一个合适的正则表达式但我发现自己越来越频繁地使用这种技术所以自学并理解正则表达式properly 我决
PyInstaller“ValueError：源代码字符串不能包含空字节”

我得到了一个ValueError source code string cannot contain null bytes执行命令时pyinstaller main py在具有和不具有管理员权限的cmd中 Traceback most re
jupyter 服务器 dfdata.to_clipboard 从远程到本地计算机。如何？

我有一个数据框说dfdata in a 在远程计算机上运行的 jupyter 服务器笔记本我想将远程计算机内存中的数据帧访问到本地计算机例如粘贴dfdata脱颖而出通常当笔记本服务器在本地运行时我这样做dfdata to clip
根据多个阈值将 SciPy 分层树状图切割成簇

我想将 SciPy 的树状图切割成多个具有多个阈值的簇我尝试过使用 fcluster 但它只能削减一个阈值例如这是我从另一个问题中摘取的一段代码 import pandas data pandas DataFrame total ru
将时间添加到日期时间

我有一个像这样的日期字符串然后使用strptime 所以就像这样 my time datetime datetime strptime 07 05 15 m d Y 现在我想添加 23 小时 59 分钟my time 我努力了 timed
在matlab中，如何读取python pickle文件？

在 python 中我生成了一个 p 数据文件 pickle dump allData open myallData p wb 现在我想在Matlab中读取myallData p 我的Matlab安装在Windows 8下其中没有Pyt
Jupyter Notebook：带有小部件的交互式绘图

我正在尝试生成一个依赖于小部件的交互式绘图我遇到的问题是当我使用滑块更改参数时会在前一个绘图之后完成一个新绘图而我预计只有一个绘图会根据参数发生变化 Example from ipywidgets import interact i

随机推荐

即使文件存在于我的 Linux 上，php file_exists 也会返回 false

这个问题已经被问过很多次了但我找到的答案都没有帮助我我正在尝试让 php file exists 工作它起作用的唯一情况是 php 文件与要使用 file exist 的文件位于同一目录中并且仅使用文件名即不包括路径但这不是随之而
开玩笑嘲笑测试之间出血，重置并不能解决问题

测试两个模块 helper它利用render 这是可能的render扔所以我处理它helper 我想要进行测试以确保其按预期工作当我最初编写测试时我在测试本身中编写了该测试所需的内容包括模拟使用jest doMock 一旦所有测试
Android 或 Java 类命名带有 $ 符号

我正在审查某个项目发现有许多类具有相同的名称但末尾带有美元符号数字不断增加例如 Class java Class 1 java Class 2 java Class n java OtherClass java OtherClas
简单的 TabView 在 iOS 16 中崩溃

有一个奇怪的崩溃只发生在 iOS 16 中当我尝试创建一个TabView使用页面样式当数组为空时它会崩溃但它在 iOS 15 中运行得很好这是 iOS 16 的错误吗 Xcode版本版本 14 0 14A309 iOS版本 16
JavaScript 在点击时显示和隐藏元素

请原谅我的无知我不知道我在做什么但我正在努力我试图通过搜索来找出它但它只在 jQuery 中产生了一个功能结果由于这是一个很小的部分我认为最好只使用普通的 JavaScript 而不是加载整个 jQuery 库有谁知道我如何
使用 git bash 运行 bash 脚本时出现“未找到自由命令”

我想在 bash 脚本中显示服务器负载磁盘空间使用情况和内存使用情况但当我尝试时 echo Memory usage memory usage free m awk NR 2 printf Memory Usage s sMB 2f
ios CoreBluetooth[警告]未知错误：1309

运行我正在开发的蓝牙应用程序时我偶尔会在控制台上收到消息 CoreBluetooth 警告未知错误 1309 即使该消息指出这是警告它也会停止应用程序的执行我已经能够通过关闭蓝牙设置然后重新打开来解决此问题谁能告诉我导致此问题的原
如何使用实体框架自动包含所有底层导航属性

场景我想向数据库添加一个具有导航属性和that实体具有导航属性等等基本上数据库中的表都是相互连接的所有表都是相互连接的我使用 EF4 3 和上下文请求模式所以我不想启用延迟加载加载我需要的实体会花费太多时间到目前为止我
我如何知道我正在使用什么 Windows 主题？

我试图让我的应用程序强制成为一个主题这很简单如下所示 http arbel net blog archive 2006 11 03 Forcing WPF to use a specific Windows theme aspx htt
如何完全禁用 Sitecore Analytics

我们的生产服务器上遇到 CPU 问题使用jetbrains cpu profiler进行分析后我们注意到程序集中的一些函数Sitecore Analytics被处决这有点奇怪因为我们在配置文件中禁用了所有与分析相关的配置调查之后
如何将文章浮动在两列中？

我有这个问题我正在建立一个社交网站我必须在两栏中创建帖子父容器是一个部分而元素 post 是具有 float left 样式的文章我怎样才能让那些较短的帖子下面产生的空白空间消失 css目前还没有好的解决方案这通常称为砖石布局或
使用 npm 安装失败，json 响应无效

我之前已经安装了 npm 但不知何故我不得不卸载它现在我尝试再次安装 npm 以使用此命令创建 React 应用程序 npx create react app ip tracker 安装到一半的时候发现这个错误 npm ERR code
使用命令行查找 Windows 上给定日期之后修改的文件

我需要使用命令行搜索磁盘上在给定日期之后修改的文件例如 dir S B WHERE modified date gt 12 07 2013 The forfiles该命令无需借助 PowerShell 即可运行文章在这里根据修改时间查
在 Java 中创建 InetAddress 对象

我正在尝试转换由 IP 号码或名称指定的地址两者都是字符串即localhost or 127 0 0 1 转化为Inet地址目的没有构造函数而是返回一个静态方法Inet地址因此如果我获得主机名这不是问题但如果我获得 IP 号
无法导入copy_reg

我在 PythonAnyware 上托管我的 Web2py 应用程序并且在导入 web2py 显然需要的 copy reg 时遇到问题在以前的版本中这不是问题回溯如下回溯最近一次调用最后一次 File home richdijk
为什么我不能在 C++ 中的 `std::map` 中存储引用？

我知道引用不是指针而是对象的别名但是我仍然不明白这对我作为程序员到底意味着什么即幕后的引用是什么我认为理解这一点的最好方法是理解为什么我无法在地图中存储参考我知道我需要停止将引用视为指针的语法糖只是不知道如何按照我的理解引
反序列化函数（字节数组到 uint32 ）

编写反序列化函数将字节数组转换为 32 位无符号整数的最佳方法是什么 typedef unsigned long uint32 uint32 deserialize uint32 unsigned char buffer uint32 va
无法播放从 Android 应用程序发送的 Firebase 存储中的音频

我正在使用 firebase 存储从我的 Android 应用程序上传音频然后在我的应用程序中下载和播放音频文件已上传但当我从 firebase 存储播放它时它采用如下图所示的视频格式并且不播放音频我还将其元数据设置为音频 mp
产品和报价项目之间的概念区别是什么

涉及班级 Mage Sales Model Quote Item and 法师目录型号产品我通过监听事件在购物车添加上得到了它们我正在尝试从外部来源更新产品的数量信息到目前为止我的代码仅基于产品信息我不确定这是否正确报
如何使用 pandas 计算所有列之间的相关性并删除高度相关的列？

我有一个巨大的数据集在机器学习建模之前总是建议您首先应该删除高度相关的描述符列我如何计算列wice相关性并删除具有阈值的列例如删除所有列或描述符具有 gt 0 8 的相关性它还应该保留减少数据中的标题示例数据集 GA PN P

如何使用 pandas 计算所有列之间的相关性并删除高度相关的列？

如何使用 pandas 计算所有列之间的相关性并删除高度相关的列？ 的相关文章

随机推荐

热门标签

如何使用 pandas 计算所有列之间的相关性并删除高度相关的列？的相关文章