sklearn随机森林索引feature_importances_如何实现

2024-01-24

我在 sklearn 中使用 RandomForestClassifier 来确定数据集中的重要特征。我如何能够返回实际的功能名称（我的变量标记为 x1、x2、x3 等）而不是它们的相对名称（它告诉我重要的功能是“12”、“22”等）。下面是我当前用于返回重要功能的代码。

important_features = []
for x,i in enumerate(rf.feature_importances_):
    if i>np.average(rf.feature_importances_):
        important_features.append(str(x))
print important_features

此外，为了理解索引，我能够找出重要特征“12”实际上是什么（它是变量 x14）。当我将变量 x14 移动到训练数据集的 0 索引位置并再次运行代码时，它应该告诉我特征“0”很重要，但事实并非如此，就像它看不到该特征一样不再如此，列出的第一个功能实际上是我第一次运行代码时列出的第二个功能（功能“22”）。

我认为 feature_importances_ 实际上可能使用第一列（我在其中放置了 x14）作为训练数据集其余部分的 ID，因此在选择重要特征时忽略它。谁能解释一下这两个问题？预先感谢您提供的任何帮助。

EDIT
这是我存储功能名称的方式：

tgmc_reader = csv.reader(csvfile)
row = tgmc_reader.next()    #Header contains feature names
feature_names = np.array(row)

然后我加载数据集和目标类

tgmc_x, tgmc_y = [], []
for row in tgmc_reader:
    tgmc_x.append(row[3:])    #This says predictors start at the 4th column, columns 2 and 3 are just considered ID variables.
    tgmc_y.append(row[0])     #Target column is the first in the dataset

然后继续将数据集分为测试部分和训练部分。

from sklearn.cross_validation import train_test_split

x_train, x_test, y_train, y_test = train_test_split(tgmc_x, tgmc_y, test_size=.10, random_state=33)

然后拟合模型

from sklearn.ensemble import RandomForestClassifier

rf = RandomForestClassifier(n_estimators=1, criterion='entropy', max_features=2, max_depth=5, bootstrap=True, oob_score=True, n_jobs=2, random_state=33)
rf = rf.fit(x_train, y_train)

然后返回重要的特征

important_features = []
for x,i in enumerate(rf.feature_importances_):
    if i>np.average(rf.feature_importances_):
        important_features.append((x))

然后我采纳了您的建议，该建议有效（非常感谢！）

important_names = feature_names[important_features > np.mean(important_features)]
print important_names

它确实返回了变量名称。

['x9' 'x10' 'x11' 'x12' 'x13' 'x15' 'x16']

所以你肯定解决了我的问题的一部分，这太棒了。但是当我回去打印我的重要特征的结果时

print important_features

它返回以下输出：

[12, 22, 51, 67, 73, 75, 87, 91, 92, 106, 125, 150, 199, 206, 255, 256, 275, 309, 314, 317]

我将此解释为它认为第 12、22、51 等变量是重要的变量。因此，这将是从我告诉它在代码开头索引观察值开始的第 12 个变量：

tgmc_x.append(row[3:])

这个解释正确吗？如果这是正确的，当我将第 12 个变量移动到原始数据集中的第 4 列（我告诉它开始使用我刚刚引用的代码读取预测变量值）并再次运行代码时，我得到以下输出：

[22, 51, 66, 73, 75, 76, 106, 112, 125, 142, 150, 187, 191, 199, 250, 259, 309, 317]

这似乎不再识别该变量。此外，当我将相同的变量移动到原始数据集中的第五列时，输出如下所示：

[1,22, 51, 66, 73, 75, 76, 106, 112, 125, 142, 150, 187, 191, 199, 250, 259, 309, 317]

这看起来像是又认出来了。最后一件事，在我根据你的建议返回变量名称后，它给了我一个包含 7 个变量的列表。当我使用最初执行的代码返回重要变量时，它会给我一个更长的重要变量列表。为什么是这样？再次感谢您的所有帮助。对此，我真的非常感激！

特征重要性返回一个数组，其中每个索引对应于训练集中该特征的估计特征重要性。内部没有进行排序，它与训练期间赋予它的特征一一对应。

如果您将特征名称存储为 numpy 数组，并确保它与传递给模型的特征一致，则可以利用 numpy 索引来完成此操作。

importances = rf.feature_importances_
important_names = feature_names[importances > np.mean(importances)]
print important_names

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

sklearn随机森林索引feature_importances_如何实现的相关文章

从文件中读取行，处理它，然后将其删除

我有一个 22mb 的文本文件其中包含数字列表每行 1 个数字我试图让 python 读取数字处理数字并将结果写入另一个文件中所有这些都有效但如果我必须停止该程序它就会从头开始我一开始尝试使用mysql数据库但它太慢了我
在Python中读取PDF属性/元数据

如何使用 Python 读取 PDF 文件中存储的属性元数据例如标题作者主题和关键字 Try pdfminer https github com euske pdfminer from pdfminer pdfparser impo
添加图例到散点图

这个问题已经被问到了但我想找到一个更清晰的解决方案给定 X 是 100x2 数据标签是标签向量从 1 到 9 我绘制散点图如下 pl scatter X 0 X 1 c labels pl show 如何仅用一行代码添加图例来解释颜
我是否必须覆盖子类中的所有数学运算符？

我想在 Python 3 7 程序中创建一个简单的 Point2d 类仅实现一些功能我在一个 SO 答案中看到我现在找不到创建 Point 类的一种方法是重写complex所以我写了这个 import math class Poin
Python - 对象 MagicMock 不能在“await”表达式中使用

当我尝试使用 MagicMock 在单元测试中模拟异步函数时出现以下异常类型错误对象 MagicMock 不能在 await 表达式中使用示例代码如下 source code class Service async def comp
在 Linux 上创建线程与进程的开销

我试图回答在 python 中创建线程与进程有多少开销的问题我修改了类似问题的代码该问题基本上运行一个带有两个线程的函数然后运行带有两个进程的相同函数并报告时间 import time sys NUM RANGE 100000000
python 队列获取大小，使用 qsize() 还是 len()？

我见过这样的例子qsize and len 已用于计算队列的大小两者有什么区别对于大多数容器您需要len but Queue Queue实际上并不支持len 这可能是因为它很旧或者因为在多线程环境中获取队列的长度并不是特别有用无论
QFileDialog 作为 TableView 的编辑器：如何获取结果？

我正在使用一个QFileDialog作为某些专栏的编辑QTableView 这基本上有效对一些焦点问题取模请参阅here https stackoverflow com questions 22854242 qfiledialog as
使用 Click 在 python 中创建命令行应用程序

我正在使用 Python 创建一个命令行应用程序Click http click pocoo org 接受名称作为输入的库但如果未输入名称则返回默认值这是我到目前为止的代码 hello py import click click ve
如何在 pygame 中水平翻转图像？

这是在 pygame 如何翻转图像假设一个图像猪向右看时向左看我按向左箭头键然后保持这样即使我不按任何键或者按向上和向下箭头键那么当我按向右箭头键时如何再次将其切换回向右看并使其保持这种状态即使我不按任何键或按向上和向
如果“pip install”有效，为什么还要“sudo pip install”？（HelloAnalytics.py 的问题）

Google 提供了一个示例 HelloAnalytics py 来演示如何使用谷歌 API python 客户端 https pypi org project google api python client 标题下方 2 安装客户端库
如何从 google place api for python 中的地点 id 获取地点详细信息

我正在使用 Google Places API 和 Python 来构建一个食品集体智能应用程序例如周围有哪些餐馆他们的评级如何营业时间是什么等等我正在Python中执行以下操作 from googleplaces import
将误差线添加到 3D 绘图

我找不到在 matplotlib 的 3D 散点图中绘制误差条的方法基本上对于以下代码段 from mpl toolkits mplot3d import axes3d import matplotlib pyplot as plt f
使用 pywin32com 进行 opc 的内存泄漏

我很难弄清楚如何解决内存泄漏问题我认为这可能是 pywin32 的问题但我不完全确定我用于读取写入单个项目的代码似乎工作得很好但是当使用组函数时它会慢慢泄漏内存我怀疑这是来自必须在 server handles 中传递的基于
使用 ABCMeta 和 EnumMeta 的抽象枚举类[重复]

这个问题在这里已经有答案了简单的例子目标是通过从两者派生的元类创建一个抽象枚举类abc ABCMeta and enum EnumMeta 例如 import abc import enum class ABCEnumMeta abc
将 pandas DataFrame 写入 unicode 中的 JSON

我正在尝试将包含 unicode 的 pandas DataFrame 写入 json 但是内置的 to json函数对字符进行转义我该如何解决 Example import pandas as pd df pd DataFrame a
采用迭代器而不是可迭代的方法[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案关于迭代器和可迭代对象仅是我的观察如果我错了请纠正我大多数构造函数数组类型将迭代器作为质量构造函数迭代器是显式创建的或
为什么 `Pool.map()` 多处理中的内存消耗急剧增加？

我正在对 pandas 数据帧进行多重处理方法是将其拆分为多个数据帧这些数据帧存储为列表并且使用Pool map 我将数据帧传递给定义的函数我的输入文件约为 300 mb 因此小数据帧大约为 75 mb 但是当多处理运行时内存
如何在seaborn displot上绘制正态曲线

distplot 已被弃用取而代之的是 displot 之前的函数可以选择绘制正态曲线 import seaborn as sns import matplotlib pyplot as plt from scipy import sta
在ActivePython-2.6中安装pyCurl？

我过去曾使用过 pyCurl 并让它与我的系统默认 python 安装一起使用但是我有一个项目需要 python 更具可移植性并且我正在使用 ActivePython 2 6 到目前为止我安装任何其他模块都没有问题但安装 pyCu

随机推荐

如何在 ASP.Net MVC 5 站点中设置 NameClaimType？

我使用 Microsoft 的本地组织帐户身份验证机制创建了一个 ASP Net MVC 5 站点这最终配置为指向我公司的 ADFS 基础设施我正在取回所有配置的声明但是在运行时 ClaimsIdentity Name 为空这
jquery .map 不适用于 IE 10

我有这个 jquery 代码 tf zoom live click function var n tf thumbs find img attr src var modelid n substr 43 post models get gal
Dialogflow 实现 webhook url 支持自签名证书吗？

我正在使用 Dialogflow 履行网络钩子来处理天气 Dialogflow 显示启用 Google Assistant 集成后您只能在履行网址中使用 https 所以我尝试了 https url 的自签名证书但我无法获得 web
为 Telnet 会话创建脚本？

有谁知道创建一个可以连接到 telnet 服务器的脚本的简单方法执行一些常见的 telnet 操作然后注销我正在与不熟悉 telnet 及其需要运行的命令的用户打交道我想要的只是让他们双击脚本然后让该脚本自动为他们执行命令您可能
我可以在命令行上通过 xbuild 将参数传递给 msc 吗？

xbuild 有没有办法通过命令行或构建脚本将附加参数传递给编译器具体来说我想通过 mcs debug 1获取堆栈跟踪内部编译器错误 https travis ci org libgit2 libgit2sharp builds 106
如何将 SOAP 消息解析为 Jaxb 类

我有一个 SOAPMessage 对象我想将其解析并转换为一组 Jaxb 类如何将消息转换为 Jaxb 可以解组的格式 javax xml bind Unmarshaller unmarshal SOAP 消息的正文包含实际数据及其要解
如何在 CoreOS 的 Vagrant 虚拟机实例上运行 python？

如何在 CoreOS 的 Vagrant 虚拟机实例上运行 python 我想访问 python 解释器谢谢您还可以安装python在 CoreOS 上使用下面的脚本我们称之为install python sh bin bash e
PHP 联系表单在查看页面时发送空白电子邮件

谁能帮助我阻止每次查看页面时发送空白电子邮件这是我正在使用的代码
指针减法不指向同一数组的不同元素在 C 中有效吗？

指针减法不指向同一数组的不同元素在 C 中有效吗下面的东西是否能保证按照 C 标准工作我依稀记得读到这是无效的 int a int b a int 100 b int 200 printf d n b a 这会给我25吗来自 C 规范
剧作家按钮的点击效果不可预测

我至少有三个选项可以单击按钮 await page Locator button new HasText ClickAsync await page GetByRole AriaRole Button new Name ClickAsync
jquery sortable 不能拖到手风琴之外

我有 2 个相连的可排序列表一个在手风琴里面当我尝试从手风琴中的可排序项中拖动项目时一旦我离开手风琴助手就会消失我可以拖放到其他连接的可排序项之一该项目将显示但在我拖动时它不会显示如果我向下拖动项目手风琴也会向下滚动我可
Tensorflow2.0：GPU 在超参数调整循环期间内存不足

我正在尝试对使用 GPU 扩展的 Tensorflow 2 0 编写的卷积神经网络进行一些超参数调整我的系统设置是 Windows 10 64 位 GeForce RTX2070 8GB 张量流 2 0 测试版 CUDA 10 0正确安装
如何在android中的同一个textview中显示粗体和普通文本？

我搜索过互联网并尝试了以下代码但它不起作用 SpannableString ss1 new SpannableString Health ss1 setSpan new android text style StyleSpan andro
如何使用 Boost Hana 消除元编程递归

我正在尝试根据发送到函数的类型创建一个位集但让我们稍微减少一下测试用例 Warning 我在这个例子中使用自动 gcc 扩展我不需要使用模板参数该错误是由于使用手动递归导致的越界访问造成的函数式编程的部分目的是提供结构来消除此类错误
如何获取 Coldfusion 中的 URL 参数和值？

如何获取 Coldfusion 中的 URL 参数和值例如我的网址是 test cfm par1 val1 par2 val2 par3 val3 是否可以直接获取第二个参数及其值 with
“git add --patch”包含新文件？

当我跑步时git add p 有没有办法让 git 选择新制作的文件作为 hunk 来选择所以如果我创建一个名为foo java 然后运行 git add p git 不会让我选择要添加到索引中的文件内容当我尝试时git add p s
如何将可观察列表转换为数组列表？爪哇

我试图获取表视图中的所有项目并将它们放入数组列表中以进行进一步处理这就是我想要实现的目标但显然这是行不通的 ArrayList
为什么 Channel.waitForConfirmsOrDie 不阻塞？

我有一个发布订阅用例我想在发布端进行阻止直到每个订阅者确认他们已完成处理发布者发送的消息我错误地假设我可以使用 RabbitMQ 及其 Java amqp client 的 Channel waitForConfirmsOrDi
如何向矢量绘图添加阴影？

我有一个矢量可绘制对象 category bg 我将其用作 FrameLayout 的背景
sklearn随机森林索引feature_importances_如何实现

我在 sklearn 中使用 RandomForestClassifier 来确定数据集中的重要特征我如何能够返回实际的功能名称我的变量标记为 x1 x2 x3 等而不是它们的相对名称它告诉我重要的功能是 12 22 等下面是我当

sklearn随机森林索引feature_importances_如何实现

sklearn随机森林索引feature_importances_如何实现 的相关文章

随机推荐

热门标签

sklearn随机森林索引feature_importances_如何实现的相关文章