我正在尝试使用逻辑回归模型对一些脑电图数据进行分类(这似乎给出了我的数据的最佳分类)。我拥有的数据来自多通道 EEG 设置,因此本质上我有一个 63 x 116 x 50 的矩阵(即通道 x 时间点 x 试验次数(有两种试验类型,均为 50),我已将其重新调整为长向量,每次试验一个。
我想做的是在分类之后看看哪些特征对试验分类最有用。我该如何做到这一点?是否可以测试这些功能的重要性?例如可以说分类主要由 N 个特征驱动,这些特征是特征 x 到 z。因此,我可以说,时间点 90-95 的通道 10 对于分类来说是重要的或重要的。
那么这是可能的还是我问错了问题?
非常感谢任何评论或论文参考。
Scikit-learn 包含相当多的特征排名方法,其中:
- 单变量特征选择(http://scikit-learn.org/stable/auto_examples/feature_selection/plot_feature_selection.html http://scikit-learn.org/stable/auto_examples/feature_selection/plot_feature_selection.html)
- 递归特征消除(http://scikit-learn.org/stable/auto_examples/feature_selection/plot_rfe_digits.html http://scikit-learn.org/stable/auto_examples/feature_selection/plot_rfe_digits.html)
- 随机 Logistic 回归/稳定性选择 (http://scikit-learn.org/stable/modules/ generated/sklearn.linear_model.RandomizedLogisticRegression.html http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.RandomizedLogisticRegression.html)
(更多信息请访问http://scikit-learn.org/stable/modules/feature_selection.html http://scikit-learn.org/stable/modules/feature_selection.html)
其中,我绝对建议尝试一下随机逻辑回归。根据我的经验,它始终优于其他方法并且非常稳定。
关于此的论文:http://arxiv.org/pdf/0809.2932v2.pdf http://arxiv.org/pdf/0809.2932v2.pdf
Edit:我写了一系列关于不同特征选择方法及其优缺点的博客文章,这些文章可能有助于更详细地回答这个问题:
- http://blog.datadive.net/selecting-good-features-part-i-univariate-selection/ http://blog.datadive.net/selecting-good-features-part-i-univariate-selection/
- http://blog.datadive.net/selecting-good-features-part-ii-linear-models-and-regularization/ http://blog.datadive.net/selecting-good-features-part-ii-linear-models-and-regularization/
- http://blog.datadive.net/selecting-good-features-part-iii-random-forests/ http://blog.datadive.net/selecting-good-features-part-iii-random-forests/
- http://blog.datadive.net/selecting-good-features-part-iv-stability-selection-rfe-and-everything-side-by-side/ http://blog.datadive.net/selecting-good-features-part-iv-stability-selection-rfe-and-everything-side-by-side/
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)