使用 xgboost 绘制特征重要性

2023-12-25

当我绘制特征重要性时，我得到了这个混乱的图。我有超过 7000 个变量。我知道内置函数只选择最重要的，尽管最终的图表不可读。这是完整的代码：

import numpy as np
import pandas as pd
df = pd.read_csv('ricerice.csv')
array=df.values
X = array[:,0:7803]
Y = array[:,7804]
from xgboost import XGBClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
seed=0
test_size=0.30
X_train, X_test, y_train, y_test = train_test_split(X,Y,test_size=test_size, random_state=seed)
from xgboost import XGBClassifier
model = XGBClassifier()
model.fit(X, Y)
import matplotlib.pyplot as plt
from matplotlib import pyplot
from xgboost import plot_importance
fig1=plt.gcf()
plot_importance(model)
plt.draw()
fig1.savefig('xgboost.png', figsize=(50, 40), dpi=1000)

Although the size of the figure, the graph is illegible.

有几点：

为了拟合模型，您需要使用训练数据集（X_train, y_train），而不是整个数据集（X, y).
您可以使用max_num_features的参数plot_importance()仅显示顶部的功能max_num_features功能（例如前 10 名）。

对代码进行上述修改后，使用一些随机生成的数据，代码和输出如下：

import numpy as np

# generate some random data for demonstration purpose, use your original dataset here
X = np.random.rand(1000,100)     # 1000 x 100 data
y = np.random.rand(1000).round() # 0, 1 labels

from xgboost import XGBClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
seed=0
test_size=0.30
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=test_size, random_state=seed)
from xgboost import XGBClassifier
model = XGBClassifier()
model.fit(X_train, y_train)
import matplotlib.pylab as plt
from matplotlib import pyplot
from xgboost import plot_importance
plot_importance(model, max_num_features=10) # top 10 most important features
plt.show()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

matplotlib

machinelearning

xgboost

featureselection

使用 xgboost 绘制特征重要性的相关文章

Django：如何测试“HttpResponsePermanentRedirect”

我正在为我的 django 应用程序编写一些测试在我看来它使用 HttpResponseRedirect 重定向到其他一些网址那么我该如何测试呢姜戈TestCase类有一个方法assertRedirects https docs d
在 Numpy 中切片后确定结果数组的形状

我很难理解在 numpy 中切片后如何确定结果数组的形状例如我使用以下简单代码 import numpy as np array np arange 27 reshape 3 3 3 slice1 array 1 2 1 slice2
如何从 PyCharm 项目中获取我的“exe”[重复]

这个问题在这里已经有答案了通过 PyCharm 在 Python 上编写一些项目我想从中获取一个exe文件我尝试过另存为 gt XXX exe 但是当我尝试执行它时出现错误此类操作系统不支持该文件附注我有win7 x64 它
python 中分割字符串以获得一个值？

需要帮助假设我在名为 input 的变量中有一个字符串 Sam Person name kind input split 通过执行上述操作我得到两个具有不同字符串 Sam 和 Person 的变量有没有办法只获取第一个值 name S
Python BeautifulSoup XML 解析

我编写了一个简单的脚本来使用 BeautifulSoup 模块解析 XML 聊天日志标准 soup prettify 工作正常只是聊天日志中有很多绒毛您可以在下面看到我正在使用的脚本代码和一些 XML 输入文件 Code import
可以在 TensorFlow 中使用排名相关作为成本函数吗？

我正在处理偶尔充满异常值的极其嘈杂的数据因此我主要依靠相关性来衡量我的神经网络的准确性是否可以明确使用诸如等级相关性斯皮尔曼相关系数之类的东西作为我的成本函数到目前为止我主要依赖 MSE 作为相关性的代理我现在面临三个主要障碍
Pandas重置索引未生效[重复]

这个问题在这里已经有答案了我不确定我在哪里误入歧途但我似乎无法重置数据帧上的索引当我跑步时test head 我得到以下输出正如您所看到的数据帧是一个切片因此索引超出范围我想做的是重置该数据帧的索引所以我跑test rese
无法打开 Python。错误 0xc000007b

我最近一直在学习 Python 3 我在我的上网本 32 位 Windows 7 上创建简单的小程序没有任何问题当我将它安装在我的上网本上时我没有遇到任何问题但现在我已经开始使用它了我想将它安装在我的台式机上并且我有一个我的桌面
在径向（树）网络x图中查找末端节点（叶节点）

给定下图是否有一种方便的方法来仅获取末端节点我所说的端节点是指那些具有一个连接边的到节点我认为这些有时被称为叶节点 G nx DiGraph fromnodes 0 1 1 1 1 1 2 3 4 5 5 5 7 8 9 10 ton
如何在python中检索aws批处理参数值？

流程 Dynamo DB gt Lambda gt 批处理如果将角色 arn 插入动态数据库它是从 lambda 事件中检索的然后使用submit job角色 arn 的 API 被传递为 parameters role arn ar
获取列表中倒数第二个元素[重复]

这个问题在这里已经有答案了我可以通过以下方式获取列表的倒数第二个元素 gt gt gt lst a b c d e f gt gt gt print lst len lst 2 e 有没有比使用更好的方法print lst len lst
如何在Python和Selenium中通过标签名称或id获取元素[重复]

这个问题在这里已经有答案了我正在尝试使用 Python 和 Selenium 获取输入但它向我显示错误我该如何解决这个错误 inputElement send keys getStock getStocklFunc 0 Error i
将一个列表的元素除以另一个列表的元素

我有两个清单比如说 a 10 20 30 40 50 60 b 30 70 110 正如你所看到的列表 b 由一个列表的元素总和组成其中 window 2 b 0 a 0 a 1 10 20 30 etc 如何获得另一个列表该列表由
如何有效地从 loadmat 函数生成的嵌套 numpy 数组中提取值？

python中是否有更有效的方法从嵌套的python列表中提取数据例如A array array 12000000 dtype object 我一直在使用A 0 0 0 0 当你有很多像 A 这样的数据时这似乎不是一个有效的方法我也用
在 MacO 和 Linux 上安装 win32com [重复]

这个问题在这里已经有答案了我的问题很简单我可以安装吗win32com蟒蛇API pywin32特别是在非 Windows 操作系统上我一直在Mac上尝试多个版本pip install pywin32 都失败了下面是一个例子如果你
如何在与应用程序初始化文件不同的文件中迭代 api 路由

我有一个 apiroutes py 文件其中定义了许多路由例如 api route api read methods GET api route api write methods POST 其中 api 是导入 from import
在 matplotlib 中使用一组标量值对球体表面着色

我对 matplotlib 相当陌生这也是我的第一个问题我试图代表脑电图记录的头皮表面电位到目前为止我已经有了一个球体投影的二维图形它是使用轮廓生成的并且几乎可以归结为普通的热图有什么方法可以在半个球体上完成此操作吗即生成一
Python - 如何查询定义方法的类？

我的问题有点类似于this one https stackoverflow com questions 5520580 how do you get all classes defined in a module but not impor
Python组合目录中的所有csv文件并按日期时间排序

我有 2 年的每日数据分成每月文件我想将所有这些数据合并到一个按日期和时间排序的文件中我正在使用的代码组合了所有文件但不按顺序我正在使用的代码 import pandas as pd import glob os import cs
检查字符串是否只有字母和空格 - Python

试图让 python 返回一个字符串仅包含字母和空格 string input Enter a string if all x isalpha and x isspace for x in string print Only alphabe

随机推荐

Java - 当数据超出限制时打印消息？

我的代码已经可以工作了虽然不漂亮但确实是工作现在我想编写一段代码如果文本文件中有 19 条或更多数据则停止加载数据然后显示例如显示输入无效的消息我不知道如何做到这一点所以任何帮助将不胜感激 package stacka
htaccess 外部重写/内部重定向

我想通过 htaccess 文件实现两件事第一个是 www hostname com index php question gt www hostname com question www hostname com index php m
GWT 远程日志记录无法记录 Throwable Stacktrace？

我想使用 GWT远程记录 http www gwtproject org doc latest DevGuideLogging html 这就是我所做的在我的 web xml 文件中我做了
用于列出 GCP firebase 函数的 Firebase 命令行

我有 100 个函数部署到 firebase 我想知道是否可以使用 firebase 命令行工具列出我的计算机上的远程函数我想查看部署的功能列表我想解决的是批量部署功能避免部署限制在本地删除重命名函数然后部署整个函数时出现部署错
截断 UILabel 中的部分文本

我的要求是我需要在标签中显示文本如果文本长度太大而无法容纳在一行中我需要在末尾截断它这样只有最后几个字符通常是黑白 1 1000 的数字因此文本长度可能会有所不同是可见的并且其之前的文本被截断所以文本看起来像 abcde
kubernetes skydns 转发请求失败

我正在创建一个 1 个主节点 2 个节点的 kubernetes 集群我正在尝试基于以下内容创建 skydns apiVersion v1 kind ReplicationController metadata name kube dns
ANACONDA navigator 无法启动-from win32com.shell import shellcon, shell

我已经下载并安装了 ANACONDA Anaconda3 2020 02 Windows x86 但是我发现我无法启动 ANACONDA 导航器因此我尝试使用命令行并获得了反馈 from win32com shell import sh
无法获取 dicom 图像以在 python 中显示

我正在尝试在 opencv python 中显示 DICOM 图像我正在使用 pydicom 库然后添加 API 来使用 DOTNET 创建一个完整的 DICOM 查看器该查看器运行 python 当然 C 使用流程实例调用 pyth
AMD 相当于 NvOptimusEnablement

对于 Intel NVIDIA 双 GPU Optimus 设置应用程序可以导出NvOptimusEnablement如中所解释的Optimus渲染策略 pdf http developer download nvidia com dev
ADP 文件中的数据库连接信息在哪里？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案用户输入了他们每天使用的旧 Access 数据库和表单项目的票证他们说使用数据库时找不到数据库自大学以来我就没有使用过 MS Access 来设计
如何轻松打包分析核心转储所需的库（即 packcore）

HPUX 上可用的 GDB 版本有一个名为 packcore 的命令该命令创建一个包含核心转储可执行文件和所有库的 tarball 当尝试在不同的机器上调试核心转储时我发现这非常有用在 Linux 机器上的 GDB 标准版本中是否有
使用 Autofac 与 AutoMapper Profile 进行 IoC

我使用 AutoMapper 一段时间了我的个人资料设置如下 public class ViewModelAutoMapperConfiguration Profile protected override string ProfileN
WiX 卸载 - 在重新启动管理器之前关闭应用程序

我有一个用 WiX 完成的安装程序安装完成后它会启动一个应用程序在资源管理器进程中注入一些代码目前当我卸载时重新启动管理器会启动并关闭我的应用程序和资源管理器相反我想手动关闭我的应用程序这是通过在命令行上使用 exit 再
Scala 推断类型参数 - 推断为“Nothing”的类型边界

我正在尝试编写一个简单的查询 monad 但无法获取我的generic键入注释正确我的第一次尝试如下为了简洁而大大简化 case class Person val name String abstract class Schema T
将实体集合拆分为 n 个部分

我有一个数据库表首先我想按日期时间分组然后我只想选择有 n 个项目的组我的班级是这样的 public class VisitDate public int Id get set public int VisitMeDate get
使用 CIFilter 在 CALayer 层次结构中渲染视频

在我的 iOS 应用程序的 UI 中我显示了一个复杂的层次结构CALayers 其中一层是AVPlayerLayer显示视频CIFilter实时应用使用AVVideoComposition asset applyingCIFilters
如何在具有悬停事件的 jQuery 动画中正确使用 stop() ？

我使用下面的方法来制作一些动画但是当我快速地进出鼠标并将其停在div the fadeIn 不起作用并且div保持透明 grids hover function gridscontrol stop fadeIn 200 function
无法解析 android 中的符号 setOnClickListener

当我运行这个程序时它反复说无法解析符号setOnClickListener 请任何人帮我解决这个问题 import android support v7 app AppCompatActivity import android cont
MySQL数据包含š和ć等特殊字符，但它们显示为“？”在网页上。为什么？

我正在尝试从表中检索包含该值的行Boris Borenovi 反而 Boris Borenovi 被返回我的MySQL数据库和表都有utf8 unicode ci整理集我的 PHP 页面显示表中的数据包含以下标题我尝试过charse
使用 xgboost 绘制特征重要性

当我绘制特征重要性时我得到了这个混乱的图我有超过 7000 个变量我知道内置函数只选择最重要的尽管最终的图表不可读这是完整的代码 import numpy as np import pandas as pd df pd read

使用 xgboost 绘制特征重要性

使用 xgboost 绘制特征重要性 的相关文章

随机推荐

热门标签

使用 xgboost 绘制特征重要性的相关文章