自定义 sklearn 管道变压器给出“pickle.PicklingError”

2023-11-22

我正在尝试根据本教程的指导为 Python sklearn 管道创建自定义转换器：http://danielhnyk.cz/creating-your-own-estimator-scikit-learn/

现在我的自定义类/变压器如下所示：

class SelectBestPercFeats(BaseEstimator, TransformerMixin):
    def __init__(self, model=RandomForestRegressor(), percent=0.8,
                 random_state=52):
        self.model = model
        self.percent = percent
        self.random_state = random_state


    def fit(self, X, y, **fit_params):
        """
        Find features with best predictive power for the model, and
        have cumulative importance value less than self.percent
        """
        # Check parameters
        if not isinstance(self.percent, float):
            print("SelectBestPercFeats.percent is not a float, it should be...")
        elif not isinstance(self.random_state, int):
            print("SelectBestPercFeats.random_state is not a int, it should be...")

        # If checks are good proceed with fitting...
        else:
            try:
                self.model.fit(X, y)
            except:
                print("Error fitting model inside SelectBestPercFeats object")
                return self

            # Get feature importance
            try:
                feat_imp = list(self.model.feature_importances_)
                feat_imp_cum = pd.Series(feat_imp, index=X.columns) \
                    .sort_values(ascending=False).cumsum()

                # Get features whose cumulative importance is <= `percent`
                n_feats = len(feat_imp_cum[feat_imp_cum <= self.percent].index) + 1
                self.bestcolumns_ = list(feat_imp_cum.index)[:n_feats]
            except:
                print ("ERROR: SelectBestPercFeats can only be used with models with"\
                       " .feature_importances_ parameter")
        return self


    def transform(self, X, y=None, **fit_params):
        """
        Filter out only the important features (based on percent threshold)
        for the model supplied.

        :param X: Dataframe with features to be down selected
        """
        if self.bestcolumns_ is None:
            print("Must call fit function on SelectBestPercFeats object before transforming")
        else:
            return X[self.bestcolumns_]

我正在将此类集成到 sklearn 管道中，如下所示：

# Define feature selection and model pipeline components
rf_simp = RandomForestRegressor(criterion='mse', n_jobs=-1,
                                n_estimators=600)
bestfeat = SelectBestPercFeats(rf_simp, feat_perc)
rf = RandomForestRegressor(n_jobs=-1,
                           criterion='mse',
                           n_estimators=200,
                           max_features=0.4,
                           )

# Build Pipeline
master_model = Pipeline([('feat_sel', bestfeat), ('rf', rf)])

# define GridSearchCV parameter space to search, 
#   only listing one parameter to simplify troubleshooting
param_grid = {
    'feat_select__percent': [0.8],
}

# Fit pipeline model
grid = GridSearchCV(master_model, cv=3, n_jobs=-1,
                    param_grid=param_grid)

# Search grid using CV, and get the best estimator
grid.fit(X_train, y_train)

每当我运行最后一行代码时（grid.fit(X_train, y_train)）我收到以下“PicklingError”。任何人都可以看到我的代码中导致此问题的原因是什么？

EDIT:

或者，我的 Python 设置中是否存在错误......我可能缺少一个包或类似的东西吗？我刚刚检查过我可以import pickle成功地

回溯（最近一次调用）：文件“”，第 5 行，位于文件 “C：\ Users \ jjaaae \ AppData \ Local \ Programs \ Python \ Python36 \ lib \ site-packages \ sklearn \ model_selection_search.py”， 945 行，适合返回 self._fit(X, y, groups, ParameterGrid(self.param_grid)) 文件 “C：\ Users \ jjaaae \ AppData \ Local \ Programs \ Python \ Python36 \ lib \ site-packages \ sklearn \ model_selection_search.py”，第 564 行，在 _fit 中对于parameter_iterable文件“C：\ Users \ jjaaae \ AppData \ Local \ Programs \ Python \ Python36 \ lib \ site-packages \ sklearn \ externals \ joblib \ parallel.py”中的参数， 768 号线，在callself.retrieve() 文件“C:\Users\jjaaae\AppData\Local\Programs\Python\Python36\lib\site-packages\sklearn\externals\joblib\parallel.py”，第 719 行，在检索中引发异常文件“C：\ Users \ jjaaae \ AppData \ Local \ Programs \ Python \ Python36 \ lib \ site-packages \ sklearn \ externals \ joblib \ parallel.py”，第 682 行，在检索中 self._output.extend(job.get(timeout=self.timeout)) 文件“C:\Users\jjaaae\AppData\Local\Programs\Python\Python36\lib\multiprocessing\pool.py”, 第 608 行，在 get 中提高 self._value 文件“C:\Users\jjaaae\AppData\Local\Programs\Python\Python36\lib\multiprocessing\pool.py”，第 385 行，在 _handle_tasks 中 put（任务）文件“C：\ Users \ jjaaae \ AppData \ Local \ Programs \ Python \ Python36 \ lib \ site-packages \ sklearn \ externals \ joblib \ pool.py”，第 371 行，发送中 CustomizedPickler(buffer, self._reducers).dump(obj) _pickle.PicklingError：无法 pickle：内置函数上的属性查找 SelectBestPercFeats 失败

pickle 包需要在另一个模块中定义自定义类，然后导入。因此，创建另一个 python 包文件（例如transformation.py）然后像这样导入from transformation import SelectBestPercFeats。这将解决酸洗错误。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

scikitlearn

pickle

pipeline

neuraxle

自定义 sklearn 管道变压器给出“pickle.PicklingError” 的相关文章

在 SQLAlchemy 中，过滤器是在连接之前还是之后应用？

使用 SQLAlchemy 我执行如下查询 import models as m import sqlalchemy as sa s session maker q s query m ShareCount m Article join m
学习Python中的解析器

我记得我读过有关解析器的内容您只需提供一些示例行它就知道如何解析某些文本它只是确定两条线之间的差异以了解可变部分是什么我以为它是用 python 写的但我不确定有谁知道那是什么图书馆吗可能你的意思是模板制作器 http co
virtualenvwrapper 函数在 shell 脚本中不可用

所以我再一次制作了一个很棒的 python 程序它让我的生活变得更加轻松并节省了大量时间当然这涉及到一个 virtualenv 用mkvirtualenvvirtualenvwrapper 的功能该项目有一个requiremen
有什么好的适用于 Google App Engine 应用程序的 AJAX 框架吗？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在尝试在我的 Google App Engine 应用程序中实现 AJAX 因此我正在寻找一个好的
caffe安装：opencv libpng16.so.16链接问题

我正在尝试在 Ubuntu 14 04 机器上使用 python 接口编译 caffe 我已经安装了 Anaconda 和 opencvconda install opencv 我还安装了咖啡中规定的所有要求并更改了注释块makefile
创建 xyz 海拔数据的曲面图

我正在尝试用 python 创建一座山的表面图其中我有一些 xyz 数据最终结果应该类似于that https i stack imgur com rKQV0 png 该文件的格式如下 616000 0 90500 0 3096 712
我可以在 matplotlib 中的绘图左侧放置一个垂直颜色条吗？

来自颜色条方法的 matplotlib 命令摘要 http matplotlib org api pyplot api html highlight colorbar matplotlib pyplot colorbar我知道关键字参数or
如何在Python + Selenium中获取元素的值

我在我的 Python 3 6 3 代码中得到了这个 HTML 元素作为 Selenium网页元素当然 span class ocenaCzastkowa masterTooltip style color 000000 alt 5 sp
删除 tkinter 文本默认绑定

我正在制作一个简单的 tkinter 文本编辑器但我想要所有默认绑定文本小部件如果可能的话删除例如当我按Ctrl i它默认插入一个制表符我制作了一个事件绑定来打印文本框中有多少行我将事件绑定设置为Ctrl i以及当我运行它时它会
NumPy 数组与 SQLite

我在 Python 中见过的最常见的 SQLite 接口是sqlite3 但是有什么东西可以很好地与 NumPy 数组或 rearray 配合使用吗我的意思是它可以识别数据类型不需要逐行插入并提取到 NumPy rec 数组中有点
Python 中“is”运算符的语义是什么？

如何is运算符确定两个对象是否相同它是如何工作的我找不到它的记录来自文档 http docs python org reference datamodel html 每个对象都有一个身份一个类型和一个值对象的身份一旦发生就永远
Python FTP下载550错误

我编写了一个 ftp 爬虫来下载特定文件它会一直工作直到找到要下载的特定文件然后抛出此错误 ftplib error perm 550 该文件存在于我的下载文件夹中但文件大小为 0 kb 我需要转换某些内容才能下载吗我可以访问 f
类变量：“类列表”与“类布尔值”[重复]

这个问题在这里已经有答案了我不明白以下示例的区别一次类的实例可以更改另一个实例的类变量而另一次则不能示例1 class MyClass object mylist def add self self mylist append 1
增强迪基-富勒测试中的 BIC 在 Python 中到底是如何工作的？

这个问题是关于 statsmodels tsa stattools python 库 adfuller 中的增强迪基富勒测试实现原则上 AIC 和 BIC 应该计算一组可用模型的信息标准并选择最好的模型信息损失最低的模型但它们在增
在Python中随机交错2个数组

假设我有两个数组 a 1 2 3 4 b 5 6 7 8 9 我想将这两个数组交错为变量 c 注意 a 和 b 不一定具有相同的长度但我不希望它们以确定性的方式交错简而言之仅仅压缩这两个数组是不够的我不想要 c 1 5 2 6 3
如何将 django ModelForm 字段显示为不可编辑

接受我的初步教训django ModelForm 我想让用户能够编辑博客中的条目 BlogEntry has a date postedTime title and content 我想向用户展示一个编辑表单其中显示所有这些字段但仅包含
带 Qt 的菜单栏/系统托盘应用程序

我是 Qt PyQt 的新手我正在尝试制作一个应用程序其功能将从菜单栏系统托盘执行这里展示了一个完美的例子我找不到关于如何做到这一点的好资源有人可以建议吗 Thanks 我认为您正在寻找与QMenu and QMainWindo
如何仅读取 CSV 文件每行的第一列 [重复]

这个问题在这里已经有答案了如何在Python中读取CSV文件每行的第一列我的数据是这样的 1 abc 2 bcd 3 cde 我只需要循环第一列的值另外当我在 calc 中打开 csv 文件时每行中的数据都在同一个单元格中这正常
将二进制数转换为包含每个二进制数的数组

我试图将二进制值转换为每个 1 0 的列表但我得到默认的二进制值而不是列表我有一个字符串我将每个字符转换为二进制它给了我一个列表其中每个字符都有一个字符串现在我试图将每个字符串拆分为值为 0 1 的整数但我什么也得不到 if
如何使 Django 自定义管理命令参数不再需要？

我正在尝试在 django 中编写自定义管理命令如下所示 class Command BaseCommand def add arguments self parser parser add argument delay type int

随机推荐

从文本视图中删除粗体而不更改其他属性

I use setTypeface设置文本粗体或斜体或其他字体属性 TextView tv findViewById R id label tv setTypeface null Typeface BOLD 如何仅删除粗体属性而不更改
在 Java 中将列表复制回数组以及反之亦然的时间复杂度是多少？

我想知道时间复杂度是多少 in bigO n 的符号 ArrayList to Array转换 ArrayList assetTradingList new ArrayList assetTradingList add Stocks tra
这里如何推断泛型类型？

public static void main String args Map
SQL允许相同的列名

当我在 SQL Server 中运行此查询时 SELECT custid AAA companyname AAA FROM Sales Customers WHERE country USA 运行良好但现在结果集有重复的列名 AAA 为什
如何查询bigquery表中存储为字符串的json？

如何查询bigquery表中存储为字符串的json 我有一个表其中列中的值 subscriptions 看起来像这样 data application fee percent null canceled at null created 1
Jupyter 笔记本中未显示散景

我无法在 Jupyter Notebook 中绘制最基本的散景图我进行了搜索发现这是一年多前报告的问题但此后就没有了这对其他人来说仍然是一个问题吗 from bokeh io import output notebook show
当大小是变量而不是常量时如何创建数组？

我有一个接收变量 int 的方法该变量构成了一个数组大小请不要向我提供向量因此我需要在我的方法中初始化一个 const int 来初始化特定大小的数组问题我该怎么做 void foo int variable int int a
获取要传播的附加属性继承

我无法获取附加属性值以在视觉层次结构中将树从父项传播到子项设置如下我有一个实例化 Viewport3D 的自定义面板然后面板处理添加和删除的子项为每个子项创建和添加继承的 Visual3D 类我正在尝试声明一个名为 Attach
如何从 ASP.NET Identity Core 2.0 中删除与角色相关的表

根据在其他地方读到的建议角色是声明的子集我正在寻找一种干净的方法来要求 ASP NET Identity 中的 EF Core 实现不要在 VS 的 ASP NET Identity Core 2 0 模板中创建与角色相关的表2017
在移动设备上使用 mootool 拖动

有没有办法让 mootools 类 Drag 在 Safari 移动设备上工作请不要将我链接到其他框架这是我使 Mootools Drag 支持触摸事件的解决方案此方法不需要我编辑 mootools more 文件因为我使用了 Cl
在什么情况下需要具体指定模板的参数“类型”？

Function declaration template
使用 Wicket 生成注释掉的内容

出于调试原因并且一时兴起我想在 Wicket 页面的 HTML 输出中包含某些信息即包含在 HTML 注释中输出会是这样的其中 1234 是一些有趣的动态创建的信息我已经尝试过但没有成功 Wicket 抱怨 HTML 页面中
将基类函数标记为虚拟函数和最终函数有什么意义吗？ [复制]

这个问题在这里已经有答案了 In various 解释C 11 的final关键字我看到这样的例子 class base public virtual void f final class derived public base publ
如何停止在Windows中运行的vb脚本

我使用的是Windows 7 我编写了一个脚本来检查我的笔记本电脑是否在电池或交流电流下运行我用谷歌搜索并成功了 dim a a 1 Do While a 1 If IsLaptop Then WScript Echo Laptop El
没有空格的长文本的弹出窗口

我在网格中有一列长文本应该在网格中截断以结尾但应该在弹出窗口中显示整体当我的文本中有空格时弹出窗口可以正确显示对于没有空格的文本弹出框显示不正确请参阅下面的示例不正确的弹出窗口正确的弹出窗口我以这种方式显示弹出窗口
将大型 MySQL 表导出为多个较小的文件

我的本地开发服务器上有一个非常大的 MySQL 表超过 800 万行数据我使用 LOAD DATA INFILE 成功加载了表我现在希望导出此数据并将其导入到远程主机上我尝试将 LOAD DATA LOCAL INFILE 加载到远
捕获跨域请求的 JSONP 错误

我在用着jQuery getJSON 在可能不存在的 URL 不同的域上有没有办法让我捕获无法加载资源错误由于此调用的异步性质 try catch 似乎不起作用我不能使用jQuery ajax s error 要么来自文档注
如何在 Spring MVC 中调用一个控制器到另一个控制器 URL？

您好我是 Spring MVC 的新手我想从一个控制器调用方法到另一个控制器我该怎么做请检查下面的代码 Controller RequestMapping value getUser ResponseBody public User
如何在同一个表中插入多行-Oracle 10g

我创建了一个表Oracle SQL create table t1 empno number 6 PRIMARY KEY empname varchar 30 hiredate date basic number 8 deptno numb
自定义 sklearn 管道变压器给出“pickle.PicklingError”

我正在尝试根据本教程的指导为 Python sklearn 管道创建自定义转换器 http danielhnyk cz creating your own estimator scikit learn 现在我的自定义类变压器如下所示 cl

自定义 sklearn 管道变压器给出“pickle.PicklingError”

EDIT:

自定义 sklearn 管道变压器给出“pickle.PicklingError” 的相关文章

随机推荐

热门标签