我正在做 James、Witten、Hastie、Tibshirani (2013) 所著的《R 应用统计学习简介》一书中描述的逻辑回归。
更具体地说,我将二元分类模型拟合到第 7.8.1 节中描述的 R 包“ISLR”中的“工资”数据集。
预测变量“年龄”(转换为多项式,4 次)根据二元分类工资>250 进行拟合。然后根据“真实”值的预测概率绘制年龄。
R中的模型拟合如下:
fit=glm(I(wage>250)~poly(age,4),data=Wage, family=binomial)
agelims=range(age)
age.grid=seq(from=agelims[1],to=agelims[2])
preds=predict(fit,newdata=list(age=age.grid),se=T)
pfit=exp(preds$fit)/(1+exp(preds$fit))
完整代码(作者网站):http://www-bcf.usc.edu/~gareth/ISL/Chapter%207%20Lab.txt http://www-bcf.usc.edu/~gareth/ISL/Chapter%207%20Lab.txt
书中相应情节:http://www-bcf.usc.edu/~gareth/ISL/Chapter7/7.1.pdf http://www-bcf.usc.edu/~gareth/ISL/Chapter7/7.1.pdf (right)
我尝试将模型拟合到 scikit-learn 中的相同数据:
poly = PolynomialFeatures(4)
X = poly.fit_transform(df.age.reshape(-1,1))
y = (df.wage > 250).map({False:0, True:1}).as_matrix()
clf = LogisticRegression()
clf.fit(X,y)
X_test = poly.fit_transform(np.arange(df.age.min(), df.age.max()).reshape(-1,1))
prob = clf.predict_proba(X_test)
然后,我根据年龄范围绘制了“真实”值的概率。但结果/情节看起来完全不同。 (不是谈论 CI 带或 rugplot,只是概率图。)我在这里遗漏了什么吗?