找到分类的重要特征

2024-05-05

我正在尝试使用逻辑回归模型对一些脑电图数据进行分类（这似乎给出了我的数据的最佳分类）。我拥有的数据来自多通道 EEG 设置，因此本质上我有一个 63 x 116 x 50 的矩阵（即通道 x 时间点 x 试验次数（有两种试验类型，均为 50），我已将其重新调整为长向量，每次试验一个。

我想做的是在分类之后看看哪些特征对试验分类最有用。我该如何做到这一点？是否可以测试这些功能的重要性？例如可以说分类主要由 N 个特征驱动，这些特征是特征 x 到 z。因此，我可以说，时间点 90-95 的通道 10 对于分类来说是重要的或重要的。

那么这是可能的还是我问错了问题？

非常感谢任何评论或论文参考。

Scikit-learn 包含相当多的特征排名方法，其中：

单变量特征选择（http://scikit-learn.org/stable/auto_examples/feature_selection/plot_feature_selection.html http://scikit-learn.org/stable/auto_examples/feature_selection/plot_feature_selection.html)
递归特征消除（http://scikit-learn.org/stable/auto_examples/feature_selection/plot_rfe_digits.html http://scikit-learn.org/stable/auto_examples/feature_selection/plot_rfe_digits.html)
随机 Logistic 回归/稳定性选择 (http://scikit-learn.org/stable/modules/ generated/sklearn.linear_model.RandomizedLogisticRegression.html http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.RandomizedLogisticRegression.html)

（更多信息请访问http://scikit-learn.org/stable/modules/feature_selection.html http://scikit-learn.org/stable/modules/feature_selection.html)

其中，我绝对建议尝试一下随机逻辑回归。根据我的经验，它始终优于其他方法并且非常稳定。关于此的论文：http://arxiv.org/pdf/0809.2932v2.pdf http://arxiv.org/pdf/0809.2932v2.pdf

Edit:我写了一系列关于不同特征选择方法及其优缺点的博客文章，这些文章可能有助于更详细地回答这个问题：

http://blog.datadive.net/selecting-good-features-part-i-univariate-selection/ http://blog.datadive.net/selecting-good-features-part-i-univariate-selection/
http://blog.datadive.net/selecting-good-features-part-ii-linear-models-and-regularization/ http://blog.datadive.net/selecting-good-features-part-ii-linear-models-and-regularization/
http://blog.datadive.net/selecting-good-features-part-iii-random-forests/ http://blog.datadive.net/selecting-good-features-part-iii-random-forests/
http://blog.datadive.net/selecting-good-features-part-iv-stability-selection-rfe-and-everything-side-by-side/ http://blog.datadive.net/selecting-good-features-part-iv-stability-selection-rfe-and-everything-side-by-side/

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scikitlearn

featureselection

找到分类的重要特征的相关文章

ImageDataGenerator 预测类 - 为什么预测未正确从概率转换为预测类？

我有一个这样设置的目录 images val class1 class2 test all classes train class1 class2 每个目录中都有一组图像我想预测测试中的每个图像是否属于 1 类或 2 类我写这个是为了读
Scikit-learn 具有使用“特征”的自定义评分函数

我正在尝试使用一种名为 SERA 平方误差相关区域的新指标作为本文中提到的不平衡回归的自定义评分函数 https link springer com article 10 1007 s10994 020 05900 9 https lin
我的 R 平方分数为负，但使用 k 倍交叉验证的准确度分数约为 92%

对于下面的代码我的 r 平方分数为负但使用 k 折交叉验证的准确度分数为 92 这怎么可能我使用随机森林回归算法来预测一些数据数据集的链接在下面的链接中给出 https www kaggle com ludobenistant hr
随机森林修剪

我有 sklearn 随机森林回归器它非常重有 1 6 GB 并且在预测值时工作很长时间我想把它修剪一下让它变得更轻据我所知决策树和森林没有实施修剪我无法自己实现它因为树代码是用 C 编写的而我不知道有谁知道解决方案吗
为什么 cross_val_predict 比 KNeighborsClassifier 的拟合慢得多？

在 Jupyter 笔记本上本地运行并使用 MNIST 数据集 28k 条目每个图像 28x28 像素以下内容为27秒 from sklearn neighbors import KNeighborsClassifier knn clf
R.scale() 和 sklearn.preprocessing.scale() 之间的区别

我目前正在将数据分析从 R 转移到 Python 当在 R 中缩放数据集时我将使用 R scale 根据我的理解它将执行以下操作 x mean x sd x 为了替换该函数我尝试使用 sklearn preprocessing sca
在 Python 中使用 mca 包

我正在尝试使用MCA 套餐 https github com esafak mca blob master docs usage rst在Python中进行多重对应分析我对如何使用它有点困惑和PCA我希望fit一些数据即找到这些数据的
如何使用 Scikit-Learn 和 Python 找到最佳簇数

我正在学习聚类Pythons scikit learnlib 但我找不到找到最佳簇数的方法我试图制作一个集群数量列表并将其传递进去for loop 并看到elbow但我想找到更好的解决方案只有当我这样做时这种方法才有效range 1
Python sklearn 多标签分类：用户警告：所有训练示例中都存在标签不是 226

我正在尝试多标签分类问题我的数据看起来像这样 DocID Content Tags 1 some text here 70 2 some text here 59 3 some text here 183 4 some text here
如何在Python中使用克里格法对二维空间数据进行插值？

我有一个空间 2D 域例如 0 1 0 1 在此域中有 6 个点观察到了一些感兴趣的标量例如温度机械应力流体密度等如何预测未观察点的兴趣量换句话说如何在 Python 中插入空间数据例如考虑 2D 域中的点输入的以下
在sklearn中将文本列转换为数字

我是数据分析新手我正在尝试 python Sklearn 中的一些模型我有一个数据集其中某些列具有文本列就像下面这样 Dataset 有没有办法将这些列值转换为 pandas 或 Sklearn 中的数字为这些值分配数字是对的吗
精度类型

使用 keras 库获得的精度如下 model compile optimizer sgd loss mse metrics tf keras metrics Precision sklearn 计算出的哪种精度与 keras 计算出的精度
如何使用 AdaBoost 进行特征选择？

我想使用 AdaBoost 从大量 100k 中选择一组好的特征 AdaBoost 的工作原理是迭代功能集并根据功能的执行情况添加功能它选择对现有特征集错误分类的样本表现良好的特征我目前正在 Open CV 中使用CvBoost 我得到
与 GridSearchCV 的并行错误，与其他方法一起工作正常

我使用 GridSearchCV 时遇到以下问题它在使用时给我一个并行错误n jobs gt 1 同时n jobs gt 1与 RadonmForestClassifier 等单一模型配合良好下面是一个显示错误的简单工作示例 train
将 Keras 集成到 SKLearn 管道？

我有一个 sklearn 管道对异构数据类型布尔分类数字文本执行特征工程并想尝试使用神经网络作为我的学习算法来拟合模型我遇到了输入数据形状的一些问题我想知道我想做的事情是否可能或者我是否应该尝试不同的方法我尝试了几种不
如何（安全）将 Python 对象发送到我的 Flask API？

我目前正在尝试构建一个 Flask Web API 它能够在 POST 请求中接收 python 对象我使用 Python 3 7 1 创建请求使用 Python 2 7 运行 API 该 API 设置为在我的本地计算机上运行我试图发
分类报告 - 精度和 F 分数定义不明确

我从 sklearn metrics 导入了classification report 当我输入我的np arrays作为参数我收到以下错误 usr local lib python3 6 dist packages sklearn met
python sklearn中的fit方法

我问自己关于 sklearn 中拟合方法的各种问题问题1 当我这样做时 from sklearn decomposition import TruncatedSVD model TruncatedSVD svd 1 model fit X
Apache Spark 和 scikit_learn 之间的 KMeans 结果不一致

我正在使用 PySpark 对数据集执行聚类为了找到簇的数量我对一系列值 2 20 进行了聚类并找到了wsse 簇内平方和每个值的值k 在这里我发现了一些不寻常的东西根据我的理解当你增加集群数量时 wsse单调递减但我得到的结
float() 参数必须是字符串或数字，而不是“时间戳”

我无法使 scilearn 与日期时间系列一起工作找到了这篇文章但对我没有帮助 Pandas 类型错误 float 参数必须是字符串或数字 https stackoverflow com questions 41256626 panda

随机推荐

如何在 AWS CDK 堆栈中压缩 Node Lambda 依赖项？

我正在使用 CDK 通过 API Gateway Lambda 和 DynamoDB 创建一个简单的无服务器项目到目前为止看起来很酷但是当我向 Lambda 添加外部依赖项时出现以下错误 Runtime ImportModuleErro
为什么我的 Silverlight 4 浏览器外应用程序只显示白色？

My 银光应用作品fine当运行在browser 但是当我将其安装为浏览器外应用程序中窗口框架会出现适当的图标和标题但窗口的内容是只是白色它是在开始菜单但当我关闭它并再次打开时它仍然是空白的我在上复制了这个Windows 7的 a
更新 PartialView mvc 4

哎呀如何使用模型中的数据刷新部分视图第一次当页面加载时它可以正常工作但当我从操作中调用它时却不能正常工作我创建的结构如下所示在我看来任何地方 Html RenderAction UpdatePoints 我的部分观点更新点 h
添加和提交文件后Git推送不起作用

I m new to Github and Git tried to use gitbash on Windows After adding and committing files If I add the git push cmd Th
使用 Firebase 验证用户手机号码的正确方法

我知道我可以使用Firebase s电话验证开启Android and iOS 但问题是有关客户端验证的信息很容易在客户端被伪造因为我只使用服务器端SSL证书所以只有客户端知道服务器是可信的因此我决定在服务器端发送手机号码并在那里
（不？）使用 JavaScriptSerializer 将 xml 文件（未知模式）转换为 c# 中的 json

JavascriptSerializer 是将 xml 文件未知模式转换为 json 字符串的工具吗这里有一些线程讨论如何在 C 中将 xml 转换为 json 以及一些推荐的专用解决方案 http www phdcc com x
从 CMSampleBuffer 播放音频

我在 iOS 中为群组创建了一个视频聊天应用程序我一直在寻找一些方法来分别控制不同参与者的音频音量我找到了使用静音和取消静音的方法isPlaybackEnabled in RemoteAudioTrack 但不控制音量我还想我们是否可
使用 Node.JS 客户端库插入 Google Analytics 内容实验

我正在尝试使用 Node js 客户端库配置内容实验但无法计算出语法我应该将主体实验资源放置在哪里如此处所述 https developers google com analytics devguides config mgmt
WCF 数据合约中可以包含 WCF 操作合约吗？为什么？

我有一份数据合同说是用户它是可序列化的并且可以通过网络传输我想要一个操作合约 SaveUser 我可以将 SaveUser User user 作为操作合同保留在我的服务合同中但我可以将其作为自己的行为保留在我的数据合约本身中吗理
将行从 0 折叠到 0

对于这样的数据集 Incident ID date product INCFI0000029582 2014 09 25 08 39 45 foo INCFI0000029582 2014 09 25 08 39 48 bar INCFI0
在测试环境中设置default_url_options似乎不起作用

我已将以下代码放入我的config environments test rb file config action mailer default url options host gt localhost 3000 但是当我运行测试时所有
Symfony 3.0 - 无法加载资源“。” - 自定义路线加载器

我正在努力将我的一个项目升级到 SF 3 该项目使用了一些自定义路由加载器这些加载器之前工作没有问题现在我得到了FileLoaderLoadException指出resource 无法加载我看了一下文档 http symfony co
您常见的 Magento 配置错误有哪些？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
使用SchemDraw库自动保存图像

我想在Python中使用这个库来生成电气图 https cdelker bitbucket io SchemDraw https cdelker bitbucket io SchemDraw 我想在服务器中运行这段代码这个想法是生成图像
如何在代码生成过程中简化包含变量的 C 风格算术表达式？

我正在尝试优化编译器中的表达式求值算术表达式都是C风格的并且它们可以包含变量我希望尽可能简化表达例如 3 100 A B 100 3 100可以简化为409 300 A B 主要取决于分配律结合律和交换律我遇到的主要困难是如何将
Swift 中的数据封装

我已阅读全文斯威夫特书 https itunes apple com us book swift programming language id881256329 mt 11 并观看了所有全球开发者大会视频 https developer
仅在 MarshMallow（6.0 和 6.0.1）上使用 MapActivity 进行 MapView 会使应用程序崩溃

我正在使用 MapActivity 扩展我的活动以动态实现 MapView 其中包含显示 mapView 的片段 public abstract class BaseHomeActivity extends MapActivity 我已经
iframe 不读取 Chrome 中的 cookie

Chrome 不允许子 iframe 读取自己的 cookie 我有一个带有子 iframe 的父网页家长在https first site com 孩子在父级内部 cookie set with 小路安全真实仅http 假域名
ROW() 函数在 SUM() 和 SUMPRODUCT() 中的行为不同

问题定义在单元格中输入任意数字A1 现在在第一行的任意位置尝试以下公式 SUM INDIRECT A ROW and SUMPRODUCT INDIRECT A ROW 第一个公式进行计算第二个公式给出 VALUE 错误这是由于ROW
找到分类的重要特征

我正在尝试使用逻辑回归模型对一些脑电图数据进行分类这似乎给出了我的数据的最佳分类我拥有的数据来自多通道 EEG 设置因此本质上我有一个 63 x 116 x 50 的矩阵即通道 x 时间点 x 试验次数有两种试验类型均为 50

找到分类的重要特征

找到分类的重要特征 的相关文章

随机推荐

热门标签

找到分类的重要特征的相关文章