如何使用 statsmodels 中模型的常用包装器来应用交叉验证？

2024-02-10

我在这里阅读了相关讨论：使用 statsmodel 估计和 scikit-learn 交叉验证，可能吗？ https://stackoverflow.com/questions/41045752/using-statsmodel-estimations-with-scikit-learn-cross-validation-is-it-possible

在链接的讨论中，建议使用以下模型的包装器statsmodels使得cross_val_score函数从sklearn可以使用库。该代码确实运行，但我不确定要提供什么参数。

示例代码：

class SMWrapper(BaseEstimator, RegressorMixin):
""" A sklearn-style wrapper for formula-based statsmodels regressors """
def __init__(self, model_class, formula, family, data):
    self.model_class = model_class      # choose the model from statsmodels.formula.api library (i.e. logit or glm)
    self.formula = formula              # expression using patsy syntax as required by statsmodels
    self.data = data                    # the full dataframe as required by statsmodels
    self.family = family                # the family argument as required by statsmodels

def fit(self, X=None, y=None):
    self.model = self.model_class(self.formula, data=self.data, family=self.family)
    self.results = self.model.fit()

def predict(self, X):
    return self.results.predict(X)

formula = 'wage ~ workhours + np.power(workhours, 3) + C(gender)'
wrappedModel = SMWrapper(model_class=glm, formula=formula, data=df, family=sm.families.Poisson(sm.families.links.log()))
-1*cross_val_score(wrappedModel, X=df[["workhours", "gender"]], y=df["wage"], scoring="neg_mean_squared_error", cv=10, error_score='raise')

问题：

我指定的是否正确X=df[["workhours", "gender"]] and y=df["wage"]作为参数cross_val_score? statsmodels只需要整个数据框df作为输入，公式由 patsy 语法指定。相比之下，sklearn模型需要单独的 X 和 y 参数。
Does sklearn's cross_val_score也使用变量np.power(workhours, 3)在例子中？我认为确实如此，因为如果我重新排序公式，使得np.power(workhours, 3)是 ~ 之后的第一个变量，并省略工作时间，这样X=df["gender"]代替X=df[["workhours", "gender"]]，错误指出变量np.power(workhours, 3)未知。
如果我将公式改为wage ~ workhours + np.power(workhours, 3) + C(gender, Treatment(reference='female')). In statsmodels，这排除了女性，因此参考组是female。会不会sklearn型号相应改变？
为什么我需要参数X=None and y=None?

完整代码示例：

import pandas as pd
import numpy as np
import statsmodels.api as sm
from statsmodels.formula.api import glm
import random
from sklearn.model_selection import cross_val_score
from sklearn.base import BaseEstimator, RegressorMixin

# generate explanatory variables
x1 = np.random.normal(40, 4, 1000)
x2 = random.choices(["Male", "Female"], k=1000)
error = np.random.normal(0, 1, 1000)
y = 1234 + (4*x1) + error

# collect data in a dataframe
df = pd.DataFrame(zip(y, x1, x2), columns=['wage', 'workhours', 'gender'])

class SMWrapper(BaseEstimator, RegressorMixin):
    """ A sklearn-style wrapper for formula-based statsmodels regressors """
    def __init__(self, model_class, formula, family, data):
        self.model_class = model_class
        self.formula = formula
        self.data = data
        self.family = family
    def fit(self, X=None, y=None):
        self.model = self.model_class(self.formula, data=self.data, family=self.family)
        self.results = self.model.fit()
    def predict(self, X):
        return self.results.predict(X)

formula = 'wage ~ workhours + np.power(workhours, 3) + C(gender)'
wrappedModel = SMWrapper(model_class=glm, formula=formula, data=df, family=sm.families.Poisson(sm.families.links.log()))
-1*cross_val_score(wrappedModel, X=df[["workhours", "gender"]], y=df["wage"], scoring="neg_mean_squared_error", cv=10, error_score='raise')

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

scikitlearn

StatsModels

crossvalidation

GLM

如何使用 statsmodels 中模型的常用包装器来应用交叉验证？的相关文章

如何在 Google App Engine 的 Python 中获取 StringProperty 的值？

如何获取 nbd Model 的值我想返回由多个字段组成的描述但我无法让它工作这是我的班级代码 class User ndb Model name ndb StringProperty email ndb StringProperty
如何使用 Python 裁剪图像中的矩形

谁能给我关于如何裁剪两个矩形框并保存它的建议我已经尝试过这段代码但效果不佳 import cv2 import numpy as np Run the code with the image name keep pressing spa
如何让python优雅地失败？

我只是想知道如何让 python 在所有可能的错误中以用户定义的方式失败例如我正在编写一个处理大项目列表的程序并且某些项目可能不符合我定义的格式如果 python 检测到错误它目前只会输出一条丑陋的错误消息并停止整个过程但是
最小二乘法拟合直线 python 代码

我有一个由 X 和 Y 坐标组成的散点图我想使用直线的最小二乘拟合来获得最佳拟合线直线最小二乘拟合是指如果 x 1 y 1 x n y n 是测量数据对则最佳直线是y A Bx 这是我的Python代码 number of poin
正则表达式，选择最接近的匹配

假设以下单词序列 BLA text text text text text text BLA text text text text LOOK text text text BLA text text BLA 我想做的是将 BLA 中的文本
Pandas 连接问题：列重叠但未指定后缀

我有以下数据框 print df a mukey DI PI 0 100000 35 14 1 1000005 44 14 2 1000006 44 14 3 1000007 43 13 4 1000008 43 13 print df b
Paramiko SSHException 通道已关闭

我一直在使用 Paramiko 在 Linux Windows 机器上发送命令它可以很好地在 Ubuntu 机器上远程执行测试但是它不适用于 Windows 7 主机以下是我收到的错误 def unit for event self
使用多级解决方案计算二维网格中的最近邻

我有一个问题在 x y 大小的网格中我提供了一个点并且我需要找到最近的邻居在实践中我试图在 pygame 中找到距离光标最近的点该点跨越颜色距离阈值计算如下 sqrt rgb1 0 rgb2 0 2 rgb1 1 rgb2 1
在Python中以交互方式执行多行语句

我是 Python 世界的新手这是我用 Python 编写的第一个程序我来自 R 世界所以这对我来说有点不直观当我执行时 In 15 import math import random random random math sqrt
如何在Python代码中查找列号

简短问题当按上述方式调用函数时我可以找到行号here https stackoverflow com questions 3056048 filename and line number of python script 同样如何找到
在谷歌云上训练神经网络时出现“无法获取路径的文件系统”错误

我正在使用 Google Cloud 在云上训练神经网络如下例所示 https cloud google com blog big data 2016 12 how to classify images with tensorflow u
根据列索引重命名 Dataframe 列

是否有内置函数可以按索引重命名 pandas 数据框我以为我知道列标题的名称但事实证明第二列中有一些十六进制字符根据我接收数据的方式我将来可能会在第 2 列中遇到这个问题因此我无法将这些特定的十六进制字符硬编码到 datafram
更换壳牌管道[重复]

这个问题在这里已经有答案了在 subprocess 模块的 Python 2 7 文档中我找到了以下片段 p1 Popen dmesg stdout PIPE p2 Popen grep hda stdin p1 stdout stdo
在Python中连续解析文件

我正在编写一个脚本该脚本使用 HTTP 流量行解析文件并取出域目前仅将它们打印到屏幕上我正在使用 httpry 将流量连续写入文件这是我用来删除域名的脚本 usr bin python import re input open r
Python：无法使用 os.system() 打开文件

我正在编写一个使用该应用程序的 Python 脚本pdftk http www pdflabs com tools pdftk the pdf toolkit 几次来执行某些操作例如我可以在 Windows 命令行 shell 中使用
如何在Tensorflow中保存估计器以供以后使用？

我按照教程 TF Layers 指南构建卷积神经网络以下是代码 https github com tensorflow tensorflow blob r1 1 tensorflow examples tutorials layers
Streamlabs API 405 响应代码

我正在尝试使用Streamlabs API https dev streamlabs com Streamlabs API 使用 Oauth2 来创建应用程序因此首先我将使用我的应用程序的用户发送到一个授权链接其中包含我的应用程序的客
如何从 nltk 下载器中删除数据/模型？

我在 python3 NLTK 中安装了一些 NLTK 包通过nltk download 尝试过它们但不需要它们现在想删除它们我怎样才能删除例如包large grammars来自我的 NLTK 安装我不想删除完整的 NLTK 安装
如何使用 Python 3 正确显示倒计时日期

我正在尝试获取将显示的倒计时基本上就像一个世界末日时钟哈哈有人可以帮忙吗 import os import sys import time import datetime def timer endTime datetime datet
在python中对列表列表执行行总和和列总和

我想用python计算矩阵的行和和列和但是由于信息安全要求我无法使用任何外部库因此为了创建矩阵我使用了列表列表如下所示 matrix 0 for x in range 5 for y in range 5 for pos in

随机推荐

Runbook 测试窗格不显示写入输出

我对自动化是全新的对 Powershell 也很陌生所以我希望这是一个简单的修复我正在尝试让一些代码运行据我所知它确实运行了但测试窗格没有显示任何内容基于此线程 Azure powershell Runbook 不显示任何输出
从 ionic 应用程序调用本机 Android 应用程序

我正在开发一个将由 Android 本机应用程序调用的应用程序我还得给他们打电话为此我发现这个插件 https github com EddyVerbruggen Custom URL scheme 他们将按照以下代码调用我的应用程序
如何实现 dropzone.js 将文件上传到 Amazon s3 服务器？

请帮助实现 dropzone js 将文件上传到 Amazon s3 服务器已经参考了以下链接https github com enyo dropzone issues 33 https github com enyo dropzone
如何在Android上从方位角获取罗盘方向

我必须显示用户指向 Android 设备的方向我在用Sensor TYPE ACCELEROMETER Sensor TYPE MAGNETIC FIELD获取方位角俯仰角横滚角但我能够弄清楚如何从中获取方向北南东西请帮忙
eclipse使用什么算法在Serialized类中生成verison id？

假设这是我的班级 class B implements Serializable private static final long serialVersionUID 5186261241138469827L what algo is us
如何在Java中独立于主线程运行线程？

目标是能够调用执行单独的线程从内部主班一些背景我有一个程序必须运行process 过程一个cmd 仅当主程序执行完毕并从内存中卸载时才应运行我应该在其中包含什么代码主班如果你的意思是我如何启动一个不会在我的 JVM java 程
Google 在 iOS 上设置自动完成功能 - 无法加载搜索结果 - 请重试

我在这里发布这个是因为我不知道还能在哪里发布这个今天我们的应用程序不再返回 Google Places API 的结果我们看到该请求在 Google 开发者控制台上得到通过但所有手机均未返回任何结果今天这个数字还在攀升并且每个用
比较两个指针是否相等的二叉搜索树遍历

我正在阅读 Cormen 算法书二叉搜索树章节它说有两种无需递归即可遍历树的方法使用堆栈和更复杂但更优雅不使用堆栈的解决方案但假设两个指针可以测试平等我已经实现了第一个选项使用堆栈但不知道如何实现后者这不是作业只是
Ruby 流 tar/gz

基本上我想将内存中的数据流式传输为 tar gz 格式可能将多个文件传输到 tar 中但它永远不应该接触硬盘只能流式传输然后将它们流式传输到其他地方在我的例子中是 HTTP 请求体有人知道现有的图书馆可以做到这一点吗 Rails
如何清理 if else 系列

在C 中工作想要减少if else系列实体有两个属性FromServiceID and ToServiceID 假设我的ServiceClass实例有以下信息如何清理以下代码任何类型的建议都可以接受 entity new Servi
使用 PHP GD 合并两个图像 (.JPG)

我找不到解决方案我想给这张图片添加 20px 的空白 http img233 imageshack us img233 419 78317401 jpg http img233 imageshack us img233 419 78317
如何在 python 中使用列表理解来展平多个列表

我目前有多个由内部列表组成的列表我已经找到了如何使用列表理解来展平列表但是如何在不重复使用同一行代码的情况下做到这一点这是一个示例代码 first 1 2 3 4 5 6 7 8 9 second 3 5 6 0 3 4 third
WTSSendMessage 不在远程桌面上显示消息框

我有一个 Windows 服务应用程序它显示确认弹出窗口以进行进一步操作当我在本地计算机上安装服务应用程序时它工作正常但当我将其安装在远程计算机上时不会显示确认弹出窗口 DllImport Kernel32 dll SetLast
如何加快 Amicable 数字算法的速度？

完成 100 000 的 limit n 需要相当长的时间我怀疑问题出在计算友好数字越大计算时间就越长我可以改变什么来使其速度比这更快 public static void Main string args CheckAmicabl
多线程访问ArrayList

我有一个 ArrayList 用于缓冲数据以便其他线程可以读取它们该数组不断地添加数据因为它是从 udp 源读取的而其他线程不断地从该数组读取数据然后从数组中删除数据这不是实际的代码而是一个简化的示例 public class
如何从裁剪后的图像中找到原始图像

Hei guys I want to do a application regarding image processing but I dont know what to read first The ideea is that I wa
为什么在二维缩放变换过程中文本变得模糊和摆动

我想让这张卡在悬停时缩放包括其中的元素但文本在转换过程中当您悬停卡时摆动抖动并且在缩放期间和之后变得模糊有时某些比率比其他比率更大我认为这是由于子像素值舍入所致如何消除转换过程中的晃动和模糊我不关心 IE 浏览器我只
EF Core：渴望加载（.Include）子类别（自参考）

我们有这样的东西 var categories context Categories Include Categories1 Categories1 Categories1 它可以工作并处理高达 4 级深度的子类别这对于现在来说已经足够
EF 代码优先外键

我正在与 EF Code First 库合作尝试开发约会安排应用程序我的模型将是客户端约会和约会类型基本上每个客户端都可以有一组约会每个约会可以有一个约会类型代码如下 public class Client ScaffoldCo
如何使用 statsmodels 中模型的常用包装器来应用交叉验证？

我在这里阅读了相关讨论使用 statsmodel 估计和 scikit learn 交叉验证可能吗 https stackoverflow com questions 41045752 using statsmodel estimati

如何使用 statsmodels 中模型的常用包装器来应用交叉验证？

如何使用 statsmodels 中模型的常用包装器来应用交叉验证？ 的相关文章

随机推荐

热门标签

如何使用 statsmodels 中模型的常用包装器来应用交叉验证？的相关文章