在 Pipeline sklearn (Python) 中使用多个自定义类

2024-03-07

我尝试为学生做一个关于 Pipeline 的教程，但我阻止了。我不是专家，但我正在努力改进。所以谢谢你的包容。事实上，我尝试在管道中执行几个步骤来为分类器准备数据帧：

第 1 步：数据框的描述
第 2 步：填充 NaN 值
第 3 步：将分类值转换为数字

这是我的代码：

class Descr_df(object):

    def transform (self, X):
        print ("Structure of the data: \n {}".format(X.head(5)))
        print ("Features names: \n {}".format(X.columns))
        print ("Target: \n {}".format(X.columns[0]))
        print ("Shape of the data: \n {}".format(X.shape))

    def fit(self, X, y=None):
        return self

class Fillna(object):

    def transform(self, X):
        non_numerics_columns = X.columns.difference(X._get_numeric_data().columns)
        for column in X.columns:
            if column in non_numerics_columns:
                X[column] = X[column].fillna(df[column].value_counts().idxmax())
            else:
                 X[column] = X[column].fillna(X[column].mean())            
        return X

    def fit(self, X,y=None):
        return self

class Categorical_to_numerical(object):

    def transform(self, X):
        non_numerics_columns = X.columns.difference(X._get_numeric_data().columns)
        le = LabelEncoder()
        for column in non_numerics_columns:
            X[column] = X[column].fillna(X[column].value_counts().idxmax())
            le.fit(X[column])
            X[column] = le.transform(X[column]).astype(int)
        return X

    def fit(self, X, y=None):
        return self

如果我执行步骤 1 和 2 或步骤 1 和 3，它会起作用，但如果我同时执行步骤 1、2 和 3。我有这个错误：

pipeline = Pipeline([('df_intropesction', Descr_df()), ('fillna',Fillna()), ('Categorical_to_numerical', Categorical_to_numerical())])
pipeline.fit(X, y)
AttributeError: 'NoneType' object has no attribute 'columns'

出现此错误是因为在管道中，第一个估计器的输出进入第二个估计器，然后第二个估计器的输出进入第三个，依此类推......

来自管道文档 http://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html#sklearn.pipeline.Pipeline.fit:

依次拟合所有变换并变换数据，然后使用最终估计器拟合转换后的数据。

因此，对于您的管道，执行步骤如下：

Descr_df.fit(X) -> 不执行任何操作并返回 self
newX = Descr_df.transform(X) -> 应该返回一些值分配给 newX ，该值应该传递给下一个估计器，但您的定义不返回任何内容（仅打印）。所以隐式返回 None
Fillna.fit(newX) -> 不执行任何操作并返回 self
Fillna.transform(newX) -> 调用 newX.columns。但步骤 2 中的 newX=None。因此出现了错误。

Solution：更改 Descr_df 的转换方法以按原样返回数据帧：

def transform (self, X):
    print ("Structure of the data: \n {}".format(X.head(5)))
    print ("Features names: \n {}".format(X.columns))
    print ("Target: \n {}".format(X.columns[0]))
    print ("Shape of the data: \n {}".format(X.shape))
    return X

建议：让您的类继承 scikit 中的 Base Estimator 和 Transformer 类，以确认良好实践。

即改变class Descr_df(object) to class Descr_df(BaseEstimator, TransformerMixin), Fillna(object) to Fillna(BaseEstimator, TransformerMixin)等等。

有关 Pipeline 中自定义类的更多详细信息，请参阅此示例：

http://scikit-learn.org/stable/auto_examples/hetero_feature_union.html#sphx-glr-auto-examples-hetero-feature-union-py http://scikit-learn.org/stable/auto_examples/hetero_feature_union.html#sphx-glr-auto-examples-hetero-feature-union-py

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

machinelearning

scikitlearn

pipeline

在 Pipeline sklearn (Python) 中使用多个自定义类的相关文章

通过 python 中的另外两个修改数组[重复]

这个问题在这里已经有答案了假设我们有三个一维数组 A 长度为 5 B 长度相同示例中为5 C 更长比如长度为 100 C最初用零填充 A给出索引C应更改的元素它们可能会重复以及B给出应添加到初始零的值C 例如如果A 1 3 3
键入的完整命令行

我想获得输入时的完整命令行 This join sys argv 在这里不起作用删除双引号另外我不想重新加入已解析和拆分的内容有任何想法吗你太迟了当键入的命令到达 Python 时您的 shell 已经发挥了它的魔力例如引
如何计算数据框中按另一列的列值分组的一列的连续字符串值？

我有以下数据框 Levels Labels Confidence 0 Hands 0 8 0 Leg 0 7 0 Eye 0 9 1 Ear 0 9 1 Eye 0 8 2 Hands 0 9 2 Eye 0 8 3 Eye 0 8 我想检
如何在Windows中的Python 3.9下pip安装pickle？

我需要pickle https docs python org 3 9 library pickle html module pickle包安装在我的下面Python 3 9在 Windows 10 下我尝试过的当尝试与pip inst
带有 mkdocs 的本地 mathjax

我想在无法访问互联网的计算机上使用 MathJax 和 Mkdocs 因此我不能只调用 Mathjax CDN Config mkdocs yml site name My Docs extra javascript javascripts
Django 多对多关系（类别）

我的目标是向我的 Post 模型添加类别我希望以后能够按不同类别有时是多个类别查询所有帖子模型 py class Category models Model categories 1 red 2 blue 3 black title
Python - Unicode 到 ASCII 的转换

我无法在不丢失数据的情况下将以下 Unicode 转换为 ASCII u ABRA xc3O JOS xc9 I tried encode and decode他们不会这么做有人有建议吗 Unicode 字符u xce0 and u xc
查找与另一列 Pandas 中的唯一值关联的列中的值的交集

如果我有一个像这样的数据框非常小的例子 col1 col2 0 a 1 1 a 2 2 b 1 3 b 2 4 b 4 5 c 1 6 c 2 7 c 3 我想要所有的交集col2当价值观与其独特性相关时col1值因此在这种情况下交集
高级描述熊猫

有没有像 pandas 那样更高级的功能通常我会继续这样 r pd DataFrame np random randn 1000 columns A r describe 我会得到一份很好的总结就像这样 A count 1000 000
Python-验证我的文档 xls 中是否存在工作表

我正在尝试在空闲时间设计一个小程序加载 xls 文件然后在要扫描的文档中选择一张纸步骤1 用户导入 xls文件导入程序后检查文件是否存在我能做到的第 2 步我要求用户提供要分析的文档表 xls 的名称这就是它停止的地方该程
使用 if 语句的网格网格和用户定义函数的真值不明确

假设我有一个函数f x y 足够光滑然而有些值仅在有限的意义上存在以sin x x的价值x 0只存在于极限 x gt 0 中在一般情况下我用一个来处理这个问题if陈述如果我在情节中使用它meshgrid我收到一条错误消息 Val
Python：在字典中查找具有唯一值的键？

我收到一个字典作为输入并且想要返回一个键列表其中字典值在该字典的范围内是唯一的我将用一个例子来澄清假设我的输入是字典 a 构造如下 a dict a cat 1 a fish 1 a dog 2 lt unique a bat 3
为什么 Collections.counter 这么慢？

我正在尝试解决罗莎琳德的基本问题即计算给定序列中的核苷酸并在列表中返回结果对于那些不熟悉生物信息学的人来说它只是计算字符串中 4 个不同字符 A C G T 出现的次数我期望collections Counter是最快的方法首先
如何按 pandas 中的值对系列进行分组？

我现在有一只熊猫Series与数据类型Timestamp 我想按日期对其进行分组并且每组中有许多行具有不同的时间看似显而易见的方法类似于 grouped s groupby lambda x x date 然而熊猫的groupby按索
从 wxPython 事件处理程序中调用函数

我正在努力寻找一种在 wxPython 事件处理函数中使用函数的方法假设我有一个按钮单击该按钮时它会使用事件处理程序运行一个名为 OnRun 的函数但是用户忘记单击 OnRun 按钮之前的 RadionButton 我想弹出一个
没有名为“turtle”的模块

我正在学习并尝试用Python3制作贪吃蛇游戏我正在进口海龟我正在使用 Linux mint 19 PyCharm python37 python3 tk Traceback most recent call last File hom
使用 pandas 单元格中列表的长度选择行[重复]

这个问题在这里已经有答案了我有一张表 df a b c 1 x y x 2 x z c d 3 x t e f g 只是想知道如何使用 c 列的长度选择行 such as df loc len df c gt 1 我知道这是不对的正确的
为boost python编译的.so找不到模块

我正在尝试将 C 代码包装到 python 中只需一个类即可导出两个函数我编译为map so 当我尝试时import map得到像噪音一样的错误 Traceback most recent call last File
MoviePY 无法在 Windows 上检测 ImageMagick 二进制文件

我刚买了一台新笔记本电脑想要设置MoviePY在那新的Windows 64x Python3 7 0 机器我对所有内容都进行了三次检查但是当涉及到我的代码的文本部分时它向我抛出了这个错误 OSError MoviePy Error
在Python中停止ThreadPool中的进程

我一直在尝试为控制某些硬件的库编写一个交互式包装器用于 ipython 有些调用对 IO 的影响很大因此并行执行任务是有意义的使用 ThreadPool 几乎效果很好 from multiprocessing pool import

随机推荐

Javascript 将数组中的嵌套对象转换为数组

我需要一个嵌套数组但我有一个包含嵌套对象的数组我拥有的 id 1 title title value test data id 2 title title value test data 但是我需要 1 title test data
升级 XCode 5.0 -> 5.1 后，C++ 代码无法编译“类的前向声明不能有嵌套名称说明符”

我在 h 文件中有这个 class Ogre ManualObject 我不知道它是如何到达那里的但它总是在多个编译器下编译直到突然 XCode5 1 将其作为错误引发苹果改变了C 编译器吗again 正如约翰建议的那样改变clas
Javascript 排序功能在 Safari/iPhone 中不起作用

我已经浏览了之前提出的有关该主题的大部分问题但仍然无法让我的问题发挥作用我有这段代码它对对象数组进行排序 array sort function a b var dateA new Date a created time dateB
Swift Process - 执行命令错误

我正在尝试从用 Swift 编写的 Mac 应用程序执行历史记录命令 discardableResult func shell args String gt Int32 let task Process task launchPath
如何向我的菜单组添加标题

我想通过给组赋予标题或分隔线来区分它们但我找不到组元素的标题选项有没有办法添加标题或分隔符
Tomcat 的 Nginx 反向代理

我在 nginx tomcat 7 反向代理设置工作时遇到问题基本上我想要https 192 168 10 101提供来自上游 cluster webapp 的内容但是我从我的应用程序中收到 404 页面任何有关出现问题的提示将不胜感
XCode 4.4 尝试下载应用程序数据时出现“权限被拒绝”

将我的 XCode 更新到版本 4 4 后似乎无法从我的设备检索应用程序数据在 Xcode 4 3 以及所有以前的版本中我通过管理器管理器 gt 设备 gt 设备 gt 应用程序 gt 应用程序 gt 下载下载了我的应用程序数据
基于两列对多维数组中的数据进行分组

我有一个关联数组的索引数组如下所示 brand gt ABC model gt xyz size gt 13 brand gt QWE model gt poi size gt 23 brand gt ABC model gt xyz s
向 JFrame 添加新的 WindowListener

mainFrame addWindowListener new WindowListener Override public void windowClosing WindowEvent e if JOptionPane showConfi
在 aspx 文件中使用内联代码设置文字文本

在 ASP NET 项目中我有一个文字为了设置文本属性我使用了以下代码
在现实生活中的示例中，何时使用后减/增量与前减/增量？ [复制]

这个问题在这里已经有答案了可能的重复如果该值未在语句中的其他任何地方使用为什么要使用 i 而不是 i https stackoverflow com questions 1392820 why use i instead of i i
Linux 内核：获取符号链接背后的真实路径

我正在研究一些 Linux 内核的东西我有一个名为 dev blah whatever 的假路径它指向 dev block real device 问题是lookup bdev将无法遵循符号链接因此我想通过获取真实路径 dev blo
Python CSV 没有属性“Writer”

有一些代码给我带来了麻烦它在我的另一个脚本中运行得很好但我一定把它搞砸了 The if csv 主要是因为我依赖于 argparser 中的 csv 选项但即使我要在外面运行这个适当的缩进if statement 它仍然返回相同的错误
我可以强制刷新 Facebook 对象的图像 URL 吗？

我有几个由 Facebook 托管的对象这些对象已发布到用户的活动日志中图像的 URL 指向我们的内容交付解决方案该解决方案重定向到版本化图像这意味着 URL 可以保持不变但图像可能会发生变化正如你在这张图片中看到的当图像更改
CSS 属性开头的 *+ 是什么意思？ [复制]

这个问题在这里已经有答案了我在 CSS 声明代码中发现了这一点我现在部分负责 margin 0 0 0 10px margin 4px 0 0 10px margin 3px 0 0 10px 0 the and 0 是我特别关注的这
为什么 FoldBack 的签名与 F# 中的 Fold 有如此大的不同？

至少有两件事我不明白从左侧折叠到右侧折叠的重构不仅需要在签名上进行大量更改而且在每个地方都需要进行大量更改具体取决于文件夹功能没有办法在不翻转参数的情况下将其链接到列表 List foldBack T gt State gt Sta
C# 使用通配符复制多个文件并保留文件名

我需要使用不包含完整信息的文本文件从目录复制多个文件 NCR txt Red 目标目录中有红1 txt红3 txt红44 txt dest 目录需要有红1 txt红3 txt红44 txt 我的代码 System IO Director
组内的 Nexus REST API 查询工件

我有一个 Nexus maven 存储库我想利用 REST API 来查询我的特定组中的工件列表我偶然发现了这个文档但它似乎非常简洁我找不到我需要的东西 https oss sonatype org nexus restlet1x
使用 Keras 创建自定义条件指标

我正在尝试使用 keras 为我的神经网络创建以下指标自定义 Keras 指标 https i stack imgur com fSg0o png 其中 d y pred y true y pred 和 y true 都是向量使用以下代
在 Pipeline sklearn (Python) 中使用多个自定义类

我尝试为学生做一个关于 Pipeline 的教程但我阻止了我不是专家但我正在努力改进所以谢谢你的包容事实上我尝试在管道中执行几个步骤来为分类器准备数据帧第 1 步数据框的描述第 2 步填充 NaN 值第 3 步将分类

在 Pipeline sklearn (Python) 中使用多个自定义类

在 Pipeline sklearn (Python) 中使用多个自定义类 的相关文章

随机推荐

热门标签

在 Pipeline sklearn (Python) 中使用多个自定义类的相关文章