使用 scikit 确定每个特征对特定类别预测的贡献

2024-05-06

我正在使用 scikit 额外的树分类器：

model = ExtraTreesClassifier(n_estimators=10000, n_jobs=-1, random_state=0)

一旦模型拟合并用于预测类别，我想找出每个特征对特定类别预测的贡献。我如何在 scikit learn 中做到这一点？是否可以使用额外的树分类器，或者我是否需要使用其他模型？

Update

如今我对 ML 的了解比 2.5 年前更加丰富，我现在会说这种方法仅适用于高度线性的决策问题。如果你不小心将它应用于非线性问题，你就会遇到麻烦。

Example:想象一个特征，它既不能很大也不能很小的值可以预测类别，但某个中间区间的值可以预测类别。这可能是通过摄入水量来预测脱水。但水的摄入量可能与盐的摄入量相互作用，因为吃更多的盐可以摄入更多的水。现在两个非线性特征之间存在交互。决策边界围绕特征空间蜿蜒以对这种非线性进行建模，并且仅询问其中一个特征对脱水风险的影响程度是无知的。这不是正确的问题。

选择：您可以问的另一个更有意义的问题是：如果我没有此信息（如果我遗漏了此功能），我对给定标签的预测会受到多大影响？为此，您只需省略一个功能，训练一个模型，然后查看每个类别的精确度和召回率下降了多少。它仍然告知特征重要性，但它不对线性做出任何假设。

以下是旧答案.

我不久前解决了类似的问题并发布了交叉验证上有同样的问题 https://stats.stackexchange.com/questions/151762/class-specific-feature-importance. 简短的答案是没有实施sklearn这就是你想要的一切。

然而，您想要实现的目标实际上非常简单，可以通过将每个类上每个特征分割的平均标准化平均值乘以相应的model._feature_importances数组元素。您可以编写一个简单的函数来标准化数据集，计算跨类预测的每个特征的平均值，并与model._feature_importances大批。绝对结果值越大，这些特征对其预测类别就越重要，更好的是，符号会告诉您重要的值是小还是大。

这是一个超级简单的实现需要一个数据矩阵X，预测列表Y以及特征重要性数组，并输出描述每个特征对每个类的重要性的 JSON。

def class_feature_importance(X, Y, feature_importances):
    N, M = X.shape
    X = scale(X)

    out = {}
    for c in set(Y):
        out[c] = dict(
            zip(range(N), np.mean(X[Y==c, :], axis=0)*feature_importances)
        )

    return out

Example:

import numpy as np
import json
from sklearn.preprocessing import scale

X = np.array([[ 2,  2,  2,  0,  3, -1],
              [ 2,  1,  2, -1,  2,  1],
              [ 0, -3,  0,  1, -2,  0],
              [-1, -1,  1,  1, -1, -1],
              [-1,  0,  0,  2, -3,  1],
              [ 2,  2,  2,  0,  3,  0]], dtype=float)

Y = np.array([0, 0, 1, 1, 1, 0])
feature_importances = np.array([0.1, 0.2, 0.3, 0.2, 0.1, 0.1])
#feature_importances = model._feature_importances

result = class_feature_importance(X, Y, feature_importances)

print json.dumps(result,indent=4)

{
    "0": {
        "0": 0.097014250014533204, 
        "1": 0.16932975630904751, 
        "2": 0.27854300726557774, 
        "3": -0.17407765595569782, 
        "4": 0.0961523947640823, 
        "5": 0.0
    }, 
    "1": {
        "0": -0.097014250014533177, 
        "1": -0.16932975630904754, 
        "2": -0.27854300726557779, 
        "3": 0.17407765595569782, 
        "4": -0.0961523947640823, 
        "5": 0.0
    }
}

第一级按键result是类标签，第二级键是列索引，即特征索引。回想一下，大的绝对值对应于重要性，并且符号告诉您重要的是小值（可能是负值）还是大值。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

scikitlearn

使用 scikit 确定每个特征对特定类别预测的贡献的相关文章

在Linux中的端口80上运行flask[重复]

这个问题在这里已经有答案了也许以前有过这个问题的答案所以请重定向我如果是这样的话我正在考虑在端口 80 上运行 Flask 所以我检查了是否有任何东西正在使用端口 80 因为事实证明端口 80 没有运行所以当我输入以下内容时 if
Python 如果 kwargs 中的 key 并且 key 为 true

if force in kwargs and kwargs force is True 感觉应该有更好的方法来编写这个条件因为我重复了键和变量假设您确实想检查返回的关键字参数是否is True 这是另一种稍微不同的方式 if kwarg
python类型中的__flags__有什么用

我最近阅读了pickle源代码以下代码在copy reg让我很困惑 HEAPTYPE 1 lt lt 9 def reduce ex self proto assert proto lt 2 for base in self class
为什么最新的 Python 3.8.x 版本不提供 Windows 安装程序？

我需要在Windows计算机上安装Python 3 8并希望使用最新的小版本3 8 12 https www python org downloads release python 3812 官方发布网页提供了源代码的 tarball 文件
如何在模型 Django 中创建必需：布尔字段

我有一个模型其中有一个名为的字段is student and is teacher Student and Teacher forms is teacher models BooleanField teacher status defau
python 打开相对文件夹中所有以.txt结尾的文件

我需要打开并解析文件夹中的所有文件但我必须使用相对路径类似于 input files 我知道在 JavaScript 中你可以使用 path 库来解决这个问题我怎样才能在Python中做到这一点这样您就可以获得路径中的文件列表作为列
Python绕相机轴旋转图像

假设我有一个图像是在对某些原始图像应用单应性变换 H 后获得的未显示原始图像将单应性 H 应用于原始图像的结果是该图像我想围绕合适的轴可能是相机所在的位置如果有的话将此图像旋转 30 度以获得此图像如果我不知道相机参数如何
使用 OpenCV 进行图像模糊检测

我正在研究图像的模糊检测我已经用过拉普拉斯方法的方差在 OpenCV 中 img cv2 imread imgPath gray cv2 cvtColor img cv2 COLOR BGR2GRAY value cv2 Laplacia
gcloud app deploy：此部署有太多文件

当我尝试通过 gcloud 部署我的 GAE 应用程序时出现以下错误 Updating service default failed ERROR gcloud app deploy Error Response 400 This depl
如何在Python中比较列表列表中的元素以及比较列表列表中的键？

我有以下顺序 seq ATG ATG ATG ATG GAC GAT GAA CCT GCC GCG GCA GCT 这是一个字典键用于存储每个密码子的氨基酸值三联碱基例如ATG GCT etc aminoacid TTT F TTC
Tensorflow：Cuda 计算能力 3.0。所需的最低 Cuda 能力为 3.5

我正在从源安装tensorflow 文档 https www tensorflow org versions r0 10 get started os setup html installing from sources Cuda驱动版本
Web 应用程序框架：C++ 与 Python

作为一名程序员我熟悉 Python 和 C 我正在考虑编写自己的简单 Web 应用程序并且想知道哪种语言更适合服务器端 Web 开发我正在寻找一些东西它必须是直观的我认识到 Wt 存在并且它遵循 Qt 的模型我讨厌 Qt 的一件
在 CSV 文件的最上面一行写入

我有这个sample csv 文件 a 1 apple b 2 banana c 3 cranberry d 4 durian e 5 eggplant 并有以下代码 samplefile open sample csv rb rows s
类型错误：不可散列的类型：pandas 的“切片”

我有一个 pandas 数据结构我这样创建 test inputs pd read csv input test csv delimiter 它的形状 print test inputs shape is this 28000 784 我
打包布尔数组需要通过 int (numpy 1.8.2)

我正在寻找更紧凑的方式来存储布尔值 numpy 内部需要 8 位来存储一个布尔值但是np packbits允许打包他们这真是太酷了问题是要打包在4e6字节数组a32e6字节我们需要首先使用的布尔值数组256e6字节将布尔数组转换为
如何在Python中仅列出顶级目录？

我希望能够仅列出某个文件夹内的目录这意味着我不需要列出文件名也不需要其他子文件夹让我们看看一个例子是否有帮助在当前目录中我们有 gt gt gt os listdir os getcwd cx Oracle doc DLLs Doc
在 python 中，VSCode 调试器不会单步执行外部代码。无法弄清楚如何编辑 launch.json 中的“justMyCode”

我一直在提到https code visualstudio com docs python debugging justmycode https code visualstudio com docs python debugging jus
PyQt 和 QSignalMapper/lambdas - 多个信号，单槽

我在 PyQt 的菜单上有一个操作列表每个操作对应我想要显示的每个不同的提要所以我有一个 Y 将活动源设置为 Y Z 将其设置为 Z 等等对于网络漫画阅读程序我的菜单上都有并且觉得自动化方法可能更好而不是每次都打字类似于将其添
如何从集合中检索元素而不删除它？

假设如下 gt gt gt s set 1 2 3 我如何获得一个值任何值 s不做s pop 我想将该项目保留在集合中直到我确定可以删除它这只有在异步调用另一个主机之后才能确定又快又脏 gt gt gt elem s pop gt
写入文件的正确方法？

我想知道这样做是否有什么区别 var1 open filename w write Hello world 并做 var1 open filename w var1 write Hello world var1 close 我发现没有必要

随机推荐

翻转旋转和图像

我正在用 Java 编写一个平台游戏并且正在手动编码玩家动画我分别为每个肢体设置动画改变位置和旋转当玩家面向右时这工作得很好但是当玩家面向左时我不知道如何处理旋转以使它们在玩家向左转时看起来相同每个身体部位的位置都是相对于
有没有办法使用 Mayavi 填充陀螺仪表面的一侧？

我正在使用 Mayavi 绘制陀螺仪的等值面我的问题是我需要通过填充两个生成区域的一侧来获得更坚固的结构在下面的图片中您可以看到我生成的等值面的外观以及填充一侧后的外观我生成的等值面它应该是什么样子等值面可以通过以下方程生成 U
Swift 中的 NSCollectionView 选择处理

使用 Swift 学习我一整天都在做这件事但进展甚微需要知道何时选择 NSCollectionView 中的项目最终目标是让项目突出显示并能够使用删除键将其从集合中删除我的 NSCollectionView 绑定到 ArrayC
在 eclipse indigo 中找不到 Window builder pro

我读到 Eclipse Indigo 安装了 Window Builder Pro 插件但我不知道它在哪里文件新建项目没有给我选择 Window Builder Pro 的选项如何找到它您需要将此更新站点添加到 Eclipse
Font Awesome 4.0.0 缺少图标

是我一个人的问题还是 FontAwesome 3 x x 中实际上有 FontAwesome 4 0 0 中缺少的图标如果是这样这肯定会让 FontAwesome 对我来说不再那么棒例如我似乎找不到相当于icon remove 没
java格式化表格输出

所以我正在尝试格式化我的输出 System out println Menu nItem tItem t tPrice tQuantity for int i 0 i
jQuery 单击事件更改 php 会话变量

对此最好的方法是什么因为正如我发现的只有在尝试过之后才完全有意义 p 你不能在 javascript 条件下设置 PHP 变量杜尔赫我能想到的唯一解决方案是对一个处理会话变量的小型 PHP 文件进行 AJAX 调用 elm cli
给定字符串的所有可能排列？

我该如何在 Ruby 中做到这一点 p abc all possible permutations 将返回 abc acb bca bac cba cab Edit 感谢雅库布汉普尔 class String def all possib
仅以 int 形式显示和保存小时数

如何仅显示小时并使用 int 变量我的意思是打印时间例如 20 30 44 PM 我只想存储小时即 int 变量中的 20 小时怎么做有谁知道的话可以告诉我密码吗谢谢尝试使用日历get http docs oracle com
无法让 Rails Server 与 MySQL 一起使用

我正在尝试让我的 Rails 应用程序与 MySQL 一起使用而不是默认的 SQLite 我创建了一个新项目强制使用 MySQL 它似乎工作正常它在 Gem 文件中添加了 gem 条目如下所示 source https rubyge
StateObject 作为 init() 中另一个对象的参数

我试图将 StateObject 用户传递给authenticationHelper 但我不能因为 IDE 说在初始化所有存储的属性之前使用 self 即使它是在结构体的开头初始化的我考虑过将 user 的初始化移至 init 但同样
Windows批处理编程中的用户输入操作

我想以 ddmmyyyy 格式接受用户的输入当用户以这种格式输入日期时文件将移动到相应的文件夹我尝试了以下代码但失败了 SET p str 输入文件夹的名称例如30062011 移动 C Documents and Settings
如何从图书馆创建承诺

我对此感到困惑因为到目前为止我发现的每个教程都假设我可以编辑库代码或者库只有回调或回调作为最后一个参数我正在使用的库的每个功能都设置为function successCallBack result FailCallBack error
java中使用awt.Toolkit和Clipboard是否可以知道剪贴板中复制的内容是否是mp3文件

我正在尝试编写一个运行于背景 and monitors复制 a 的复制操作 mp3 file or a 文件夹包含 a mp3 file Clipboard cb Toolkit getDefaultToolkit getSystemCli
返回值必须是 ?Illuminate\\Database\\Query\\Builder, App\\Models\\ModelName 返回的类型

我试图得到以下回应 user id 1 first name john last name doe email email protected cdn cgi l email protection phone number 12345678
随机梯度下降可以与 TensorFlow 一起使用吗？

我设计了一个全连接 MLP 具有 2 个隐藏层和 1 个输出层如果我使用批量或小批量梯度下降我会得到一个很好的学习曲线 But a straight line while performing Stochastic Gradient D
asp.net core 3.0 web api request.body 和 [frombody] 冲突 [已关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案我需要让身体通过request bodyfrombody后但测试了2天还没有找到解决方案我已经添加Request EnableBuffe
Yii2：ActiveController 中的 REST API 操作

在文档指南中有示例 namespace app controllers use yii rest ActiveController class UserController extends ActiveController public m
当输入为空时如何禁用按钮？

我试图在输入字段为空时禁用按钮 React 中最好的方法是什么我正在做类似以下的事情
使用 scikit 确定每个特征对特定类别预测的贡献

我正在使用 scikit 额外的树分类器 model ExtraTreesClassifier n estimators 10000 n jobs 1 random state 0 一旦模型拟合并用于预测类别我想找出每个特征对特定类别预测

使用 scikit 确定每个特征对特定类别预测的贡献

Update

使用 scikit 确定每个特征对特定类别预测的贡献 的相关文章

随机推荐

热门标签

使用 scikit 确定每个特征对特定类别预测的贡献的相关文章