我有一个通过逻辑回归算法训练的二元预测模型。我想知道哪些特征(预测变量)对于正类别或负类别的决策更重要。我知道有coef_
参数来自 scikit-learn 包,但我不知道它是否足够重要。另一件事是我如何评估coef_
值对于消极类和积极类的重要性。我还读到了标准化回归系数,但我不知道它是什么。
假设有肿瘤大小、肿瘤重量等特征来决定测试用例是否恶性。我想知道哪些特征对于恶性和非恶性预测更重要。
要了解线性分类模型中给定参数的“影响”(逻辑就是其中之一),最简单的选择之一是考虑其系数的大小乘以数据中相应参数的标准差。
考虑这个例子:
import numpy as np
from sklearn.linear_model import LogisticRegression
x1 = np.random.randn(100)
x2 = 4*np.random.randn(100)
x3 = 0.5*np.random.randn(100)
y = (3 + x1 + x2 + x3 + 0.2*np.random.randn()) > 0
X = np.column_stack([x1, x2, x3])
m = LogisticRegression()
m.fit(X, y)
# The estimated coefficients will all be around 1:
print(m.coef_)
# Those values, however, will show that the second parameter
# is more influential
print(np.std(X, 0)*m.coef_)
获得类似结果的另一种方法是检查模型在标准化参数上的拟合系数:
m.fit(X / np.std(X, 0), y)
print(m.coef_)
请注意,这是最基本的方法,并且存在许多用于查找特征重要性或参数影响的其他技术(使用 p 值、引导分数、各种“判别指数”等)。
我很确定您会在以下位置获得更有趣的答案https://stats.stackexchange.com/ https://stats.stackexchange.com/.
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)