使用随机森林的 AUC 基特征重要性

2024-01-28

我正在尝试使用随机森林和逻辑回归来预测二元变量。我的类别严重不平衡（Y=1 的大约 1.5%）。

随机森林中的默认特征重要性技术基于分类准确性（错误率） - 这已被证明对于不平衡类来说是一个不好的衡量标准（请参阅here http://www.biomedcentral.com/1471-2105/14/119 and ).

用于 RF 特征选择的两个标准 VIM 是基尼 VIM 和排列 VIM。粗略地说，感兴趣的预测变量的基尼系数 VIM 是该预测变量在被选择进行分裂时在整个森林中生成的基尼杂质减少量的总和，并按树木数量进行缩放。

我的问题是：这种方法是否在 scikit-learn 中实现（就像在 R 包中一样）party）？或者也许是一个解决方法？

PS：这个问题与an other https://stats.stackexchange.com/questions/160329/how-can-1-more-feature-disrupt-a-random-forests-confusion-matrix.

scoring只是测试样例中使用的性能评估工具，不进入内部DecisionTreeClassifier每个分裂节点的算法。您只能指定criterion（每个分裂节点的内部损失函数的种类）是gini or information entropy对于树算法。

scoring可以在交叉验证上下文中使用，其目标是调整一些超参数（例如max_depth）。在你的情况下，你可以使用GridSearchCV使用评分函数调整一些超参数roc_auc.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用随机森林的 AUC 基特征重要性的相关文章

为什么方法无法访问类变量？

我试图理解Python中的变量作用域除了我不明白为什么类变量不能从其方法访问的部分之外大多数事情对我来说都很清楚在下面的例子中mydef1 无法访问a 但如果a可以在全局范围类定义之外声明 class MyClass1 a 25
如何有条件地组合两个相同形状的 numpy 数组

这听起来很简单但我想我把它想得太复杂了我想创建一个数组其元素是从两个形状相同的源数组生成的具体取决于源数组中哪个元素更大为了显示 import numpy as np array1 np array 2 3 0 array2 np
multiprocessing.freeze_support()

为什么多处理模块需要调用特定的function http docs python org dev library multiprocessing html multiprocessing freeze support在被冻结以生成 Wi
如何在 openpyxl 中设置或更改表格的默认高度

我想通过openpyxl更改表格高度并且我希望首先默认一个更大的高度值然后我可以设置自动换行以使我的表格更漂亮但我不知道如何更改默认高度唯一的到目前为止我知道更改表格高度的方法是设置 row dimension idx heigh
使用 Python 中的 IAM 角色访问 AWS API Gateway

我有一个 AWS API 网关我想使用它来保护其安全IAM 角色 http docs aws amazon com apigateway latest developerguide permissions html 我正在寻找一个包来帮助
在 Windows 上将 Word2vec 与 Tensorflow 结合使用

In 本教程文件 https github com tensorflow models blob master tutorials embedding word2vec py L45通过 Tensorflow 找到以下行第 45 行来加
Python 相当于 Bit Twiddling Hacks 中的 C 代码？

我有一个位计数方法我正在尝试尽可能快地实现我想尝试下面的算法位摆弄黑客 http graphics stanford edu seander bithacks html CountBitsSetParallel 但我不知道 C 什么是
如何检查包含 NaN 的列表 [关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案在我的 for 循环中我的代码生成一个如下所示的列表 list 0 0 0 0 sum 0 0 0 0 该循环生成所有其他数字向量但它也
如何将同步函数包装在异步协程中？

我在用着aiohttp https github com aio libs aiohttp构建一个 API 服务器将 TCP 请求发送到单独的服务器发送 TCP 请求的模块是同步的对于我来说是一个黑匣子所以我的问题是这些请求阻塞了整
在 GAE/Python 中放置一次性代码和每次代码的最佳位置在哪里？

我是 Google App Engine 和 Python 的新手我无法理解有关在 Google App Engine 上运行的 Python 应用程序的一些基本问题如果我想要执行代码对于每个传入的请求我应该将其放在哪里我们正在捕
这可能是因为 cuDNN 初始化失败，因此请尝试查看上面是否打印了警告日志消息。 [操作：Conv2D]

我在 anaconda 中安装了 TensorFlow GPU 2 0 当我安装它并导入包然后运行我的 CNN 模型时它工作正常但当我尝试运行训练模型时出现错误这是我的错误报告 Epoch 1 50 UnknownError Tr
将参数传递给 __enter__

刚刚学习 with 语句尤其是这篇文章 http effbot org zone python with statement htm 问题是我可以传递一个参数给 enter 我有这样的代码 class clippy runner def
Keras 中的损失函数和度量有什么区别？ [复制]

这个问题在这里已经有答案了我不清楚 Keras 中损失函数和指标之间的区别该文档对我没有帮助损失函数用于优化您的模型这是优化器将最小化的函数指标用于判断模型的性能这仅供您查看与优化过程无关
python 中的基本矩阵转置

我尝试了 python 中矩阵转置的最基本方法但是我没有得到所需的结果接下来是代码 A 1 1 1 1 2 2 2 2 3 3 3 3 4 4 4 4 print A def TS A B A for i in range len A
Scikit Learn - K-Means - 肘部 - 标准

今天我想学习一些关于 K means 的知识我已经了解该算法并且知道它是如何工作的现在我正在寻找正确的 k 我发现肘部准则作为检测正确的 k 的方法但我不明白如何将它与 scikit learn 一起使用在 scikit learn
dask allocate() 或 apply() 中的变量列名

我有适用于pandas 但我在将其转换为使用时遇到问题dask 有一个部分解决方案here https stackoverflow com questions 32363114 how do i change rows and column
DRF：以编程方式从 TextChoices 字段获取默认选择

我们的网站是 Vue 前端 DRF 后端在一个serializer validate 方法我需要以编程方式确定哪个选项TextChoices类已被指定为模型字段的默认值 TextChoices 类缩写示例 class PaymentM
Windows 与 Linux 文本文件读取

问题是我最近从 Windows 切换到 Ubuntu 我的一些用于分析数据文件的 python 脚本给了我错误我不确定如何正确解决我当前仪器的数据文件输出如下 Header 有关仪器等的各种信息 Data 状态代码温度字段等 0
LSTM 批次与时间步

我按照 TensorFlow RNN 教程创建了 LSTM 模型然而在这个过程中我对批次和时间步长之间的差异如果有的话感到困惑并且我希望得到帮助来澄清这个问题教程代码见下文本质上是根据指定数量的步骤创建批次 wi
Python列表对象属性“append”是只读的

正如标题所说在Python中我试图做到这一点以便当有人输入一个选择在本例中为Choice13 时它会从密码列表中删除旧密码并添加新密码 passwords mrjoebblock mrjoefblock mrjoegblock m

随机推荐

不同饼图中每个标签保持相同的颜色

我无法为从一个饼图到另一个饼图的每个标签保持相同的颜色如下图所示 Matplotlib 反转了第二个饼图中的颜色我希望 Frogs 标签保持红色 Hogs 标签保持绿色我也尝试添加label参数但它只是给出了错误的计数我还尝试反转
PHP $_FILES 文件循环上传

我想从 php 函数将文件插入到 mysql 中需要上传的文件已经存在于服务器上所以我不想使用上传表单我想循环遍历目录并将文件信息放入 FILES 请让我知道如何获得 file into FILES然后调用上传 dir handle
在多个线程上并行调用 ICsharpCode.SharpZipLib 是否安全

我们当前使用 ICsharpCode SharpZipLib 库的 GZipOutputStream 类进行压缩我们通过一个线程来完成它我想将输入数据流分割成块并并行压缩它们我担心这个库内部可能有一些静态数据这些静态数据会被多个线程
使用 Python 的 Headless Chrome 在尝试下载文件时暂停

我在 Mac 上使用 Python Jupyter Selenium webdriver 和 headless Chrome 带有 Canary 我写了一个脚本来抓取一个非常旧的网站为了从该网站下载文件我需要单击几个按钮最终引导我到一
使用 Python 的具有多个帐户的 YouTube 数据 API

我正在开发一个应用程序旨在帮助我的一个朋友更好地组织他的 YouTube 频道他在不同的 Google 帐户上拥有多个频道我正在用 Python 开发这个程序目前我对 YouTube Data API 没有太多经验我计划使用它因
如何确定哪些 Eclipse 插件对菜单和工具栏有贡献并停止它们

我正在创建一个 RCP 应用程序它使用许多第三方插件其中一些插件提供了我不希望显示的菜单菜单项和工具栏按钮如何确定哪些插件正在提供这些菜单菜单项和工具栏按钮以及如何禁用它们这样做检查菜单工具栏贡献等的详细信息通过包含插件来
decltype(auto) 与 auto&& 执行函数返回类型的通用处理

使用时auto 处理返回左值的函数 int func int v 42 return v auto v func 治疗会有什么后果v作为参考而不是左值这些后果是否证明使用decltype auto 代替auto 对函数的返回类型执行通用处
手动向 Spring Security 提供引用 URL

我们有一些购物车页面适用于访客和用户路径我们希望允许用户在此过程中随时登录但实际上并不想创建另一个登录页面我希望我们可以简单地将用户重定向到现有登录并告诉 Spring Security 返回哪个 URL 我知道当会话超时和或在没有
为什么容器大小取决于绝对定位的子项？

我正在尝试构建一个带有两个视频盒的类似 Skype 的界面 http jsfiddle net q9ER2 20 http jsfiddle net q9ER2 20
创建一个可以在以后单击同一按钮时添加的可变数组？

一般菜鸟问题 1 如何创建一个NSMutable数组在一个buttonClicked我可以在随后单击同一按钮时添加更多条目的操作吗我似乎总是在每次点击时都从一个新数组开始该数组只打印 1 个条目这是一个按钮中最新的按钮标签 NSLog
如何获取数组中元素的层次结构路径

我总是想获得数组中元素的确切路径数组示例 array a gt aaa b gt array bbb1 bbb2 gt array bbb3 bbb4 因此为了到达 bbb4 我需要经过 b gt bbb2 gt bbb4 如何获取多维
如何构造 LINQ to Entities 查询来直接加载子对象，而不是调用 Reference 属性或 Load()

我是使用 LINQ to Entities 或实体框架无论他们如何称呼它的新手我正在编写很多这样的代码 var item from InventoryItem item in db Inventory where item ID id
如何使用 xsl-fo 和 apache fop 0.95 显示固定图像高度和宽度

我正在尝试修复使用 fop 0 95 生成的 pdf 中图像的高度和宽度这是用于它的代码
Nexus 6P 上硬件传感器的 Android 采样率变化

我正在开发一个 Android 应用程序用于研究并且正在读取多个传感器数据例如加速度计陀螺仪气压计等所以我有 4 台 Nexus 6P 设备全部配备最新版本工厂形象 https developers google com an
到底是什么决定了 JavaScript 模块在 .html 中的执行顺序？

我读到了首先加载最先出现的模块 https javascript info import export 这不是真的在我回答这个问题之前我了解到首先执行没有导入的模块叶模块导入的模块只有在其导入的模块执行后才会执行这让我能够解释这
将 SQL STATISTICS TIME 和 IO 捕获到表中

有没有办法捕捉STATISTICS IO and TIME在 T SQL 中用于登录表 Sort of 与给出的统计数据相同SET STATISTICS TIME由查询统计 DMV 捕获 sys dm exec query stats h
下一个更高/更低的 IEEE 双精度数

我正在做高精度的科学计算在寻找各种效果的最佳表示时我不断想出想要获得下一个更高或更低可用双精度数的理由本质上我想要做的是将 1 添加到 double 的内部表示中的最低有效位困难在于 IEEE 格式并不完全统一如果要使用低级
如何在反应传单中制作椭圆形？

我想在反应传单中制作一个椭圆形我已经检查过这个问题如何在react leaflet中制作一个椭圆形 https stackoverflow com questions 49089011 how can one make an ellips
Lombok 和 Jackson - 冲突/不明确的属性名称定义

我收到一条警告消息 com fasterxml jackson databind JsonMappingException Conflicting ambiguous property name definitions implicit n
使用随机森林的 AUC 基特征重要性

我正在尝试使用随机森林和逻辑回归来预测二元变量我的类别严重不平衡 Y 1 的大约 1 5 随机森林中的默认特征重要性技术基于分类准确性错误率这已被证明对于不平衡类来说是一个不好的衡量标准请参阅here http www biomed

使用随机森林的 AUC 基特征重要性

使用随机森林的 AUC 基特征重要性 的相关文章

随机推荐

热门标签

使用随机森林的 AUC 基特征重要性的相关文章