如何将我自己的函数添加为 ML pyspark Pipeline 中的自定义阶段？ [复制]

2024-05-03

Florian 的示例代码

-----------+-----------+-----------+
|ball_column|keep_the   |hall_column|
+-----------+-----------+-----------+
|          0|          7|         14|
|          1|          8|         15|
|          2|          9|         16|
|          3|         10|         17|
|          4|         11|         18|
|          5|         12|         19|
|          6|         13|         20|
+-----------+-----------+-----------+

代码的第一部分删除禁止列表中的列名称

#first part of the code

banned_list = ["ball","fall","hall"]
condition = lambda col: any(word in col for word in banned_list)
new_df = df.drop(*filter(condition, df.columns))

所以上面的代码应该删除ball_column and hall_column.

代码的第二部分存储列表中的特定列。对于这个例子，我们将剩下的唯一一个存储在桶中，keep_column.

bagging = 
    Bucketizer(
        splits=[-float("inf"), 10, 100, float("inf")],
        inputCol='keep_the',
        outputCol='keep_the')

现在使用管道对柱进行装袋如下

model = Pipeline(stages=bagging).fit(df)

bucketedData = model.transform(df)

如何添加代码的第一块（banned list, condition, new_df）将机器学习管道作为一个阶段？

我相信这会达到你想要的效果。您可以创建一个自定义Transformer，并将其添加到Pipeline。请注意，我稍微更改了您的函数，因为我们无法访问您提到的所有变量，但概念保持不变。

希望这可以帮助！

import pyspark.sql.functions as F
from pyspark.ml import Pipeline, Transformer
from pyspark.ml.feature import Bucketizer
from pyspark.sql import DataFrame
from typing import Iterable
import pandas as pd

# CUSTOM TRANSFORMER ----------------------------------------------------------------
class ColumnDropper(Transformer):
    """
    A custom Transformer which drops all columns that have at least one of the
    words from the banned_list in the name.
    """

    def __init__(self, banned_list: Iterable[str]):
        super(ColumnDropper, self).__init__()
        self.banned_list = banned_list

    def _transform(self, df: DataFrame) -> DataFrame:
        df = df.drop(*[x for x in df.columns if any(y in x for y in self.banned_list)])
        return df


# SAMPLE DATA -----------------------------------------------------------------------
df = pd.DataFrame({'ball_column': [0,1,2,3,4,5,6],
                   'keep_the': [6,5,4,3,2,1,0],
                   'hall_column': [2,2,2,2,2,2,2] })
df = spark.createDataFrame(df)


# EXAMPLE 1: USE THE TRANSFORMER WITHOUT PIPELINE -----------------------------------
column_dropper = ColumnDropper(banned_list = ["ball","fall","hall"])
df_example = column_dropper.transform(df)


# EXAMPLE 2: USE THE TRANSFORMER WITH PIPELINE --------------------------------------
column_dropper = ColumnDropper(banned_list = ["ball","fall","hall"])
bagging = Bucketizer(
        splits=[-float("inf"), 3, float("inf")],
        inputCol= 'keep_the',
        outputCol="keep_the_bucket")
model = Pipeline(stages=[column_dropper,bagging]).fit(df)
bucketedData = model.transform(df)
bucketedData.show()

Output:

+--------+---------------+
|keep_the|keep_the_bucket|
+--------+---------------+
|       6|            1.0|
|       5|            1.0|
|       4|            1.0|
|       3|            1.0|
|       2|            0.0|
|       1|            0.0|
|       0|            0.0|
+--------+---------------+

另请注意，如果您的自定义方法需要安装（例如自定义StringIndexer），您还应该创建一个自定义Estimator:

class CustomTransformer(Transformer):

    def _transform(self, df) -> DataFrame:


class CustomEstimator(Estimator):

    def _fit(self, df) -> CustomTransformer:

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

PySpark

apachesparksql

如何将我自己的函数添加为 ML pyspark Pipeline 中的自定义阶段？ [复制] 的相关文章

如何在 AWS CDK 创建的 Python Lambda 函数中安装外部模块？

我在 Cloud9 中使用 Python AWS CDK 并且我部署简单的 Lambda 函数那应该是发送 API 请求到 Atlassian 的 API当对象上传到 S3 存储桶时也是由 CDK 创建的这是我的 CDK 堆栈代码 fr
Python - 将宽字符字符串从二进制文件转换为 Python unicode 字符串

这是漫长的一天我有点困惑我正在读取一个包含大量宽字符字符串的二进制文件我想将它们转储为 Python unicode 字符串为了解压非字符串数据我使用 struct 模块但我不知道如何对字符串执行相同的操作例如阅读系列一
python future 和元组解包

实现像使用 future 进行元组解包这样的事情的优雅惯用的方法是什么我有这样的代码 a b c f x y g a b z h y c 我想将其转换为使用期货理想情况下我想写一些类似的东西 a b c ex submit f x y
pydev 调试器：严重警告：此版本的 python 似乎编译不正确（内部生成的文件名不是绝对的）[重复]

这个问题在这里已经有答案了通过运行 from sklearn datasets import fetch california housing import pandas as pd pd set option precision 4 m
如何使用 Plotly 中的直方图将所有离群值分入一个分箱？

所以问题是我可以在 Plotly 中绘制直方图其中所有大于某个阈值的值都将被分组到一个箱中吗所需的输出但使用标准情节Histogram类我只能得到这个输出 import pandas as pd from plotly import
如何使用 imaplib 获取“消息 ID”

我尝试获取一个在操作期间不会更改的唯一 ID 我觉得UID不好所以我认为 Message ID 是正确的但我不知道如何获取它我只知道 imap fetch uid XXXX 有人有解决方案吗来自 IMAP 文档本身 IMAP4消息号
Spark：导入UTF-8编码的文本文件

我正在尝试处理一个包含很多特殊字符的文件例如德语变音符号 o 等如下所示 sc hadoopConfiguration set textinputformat record delimiter r n r n sc textFile f
TensorFlow的./configure在哪里以及如何启用GPU支持？

在我的 Ubuntu 上安装 TensorFlow 时我想将 GPU 与 CUDA 结合使用但我却停在了这一步官方教程 http www tensorflow org get started os setup md 这到底是哪里 con
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
按元组分隔符拆分列表

我有清单 print L I WW am XX newbie YY ZZ You WW are XX cool YY ZZ 我想用分隔符将列表拆分为子列表 ZZ print new L I WW am XX newbie YY ZZ You
将 JSON 对象传递给带有请求的 url

所以我想利用 Kenneth 的优秀请求模块 https github com kennethreitz requests 在尝试使用时偶然发现了这个问题自由库API http wiki freebase com wiki API 基本上
将 2D NumPy 数组按元素相乘并求和

我想知道是否有一种更快的方法专用 NumPy 函数来执行 2D NumPy 数组的元素乘法然后对所有元素求和我目前使用np sum np multiply A B 其中 A B 是相同维度的 NumPy 数组m x n 您可以使用np
使用 Firefox 绕过弹出窗口下载文件：Selenium Python

我正在使用 selenium 和 python 来从中下载某些文件web page http www oceanenergyireland com testfacility corkharbour observations 我之前一直使用设
使用yield 进行字典理解

作为一个人为的例子 myset set a b c d mydict item yield join item s for item in myset and list mydict gives as cs bs ds a None b N
如何在 OSX 上安装 numpy 和 scipy？

我是 Mac 新手请耐心等待我现在使用的是雪豹 10 6 4 我想安装numpy和scipy 所以我从他们的官方网站下载了python2 6 numpy和scipy dmg文件但是我在导入 numpy 时遇到问题 Library F
使用 PyTorch 分布式 NCCL 连接失败

我正在尝试使用 torch distributed 将 PyTorch 张量从一台机器发送到另一台机器 dist init process group 函数正常工作但是 dist broadcast 函数中出现连接失败这是我在节点 0
限制 django 应用程序模型中的单个记录？

我想使用模型来保存 django 应用程序的系统设置因此我想限制该模型使其只能有一条记录极限怎么办尝试这个 class MyModel models Model onefield models CharField The fiel
如何读取Python字节码？

我很难理解 Python 的字节码及其dis module import dis def func x 1 dis dis func 上述代码在解释器中输入时会产生以下输出 0 LOAD CONST 1 1 3 STORE FAST 0 x
列表值的意外更改

这是我的课 class variable object def init self name name alias parents values table name of the variable self name 这是有问题的函数 f
迭代 pandas 数据框的最快方法？

如何运行数据框并仅返回满足特定条件的行必须在之前的行和列上测试此条件例如 1 2 3 4 1 1 1999 4 2 4 5 1 2 1999 5 2 3 3 1 3 1999 5 2 3 8 1 4 1999 6 4 2 6 1 5 1

随机推荐

在 Ansible 中检查已安装的 yum 包/rpm 版本并使用它的最佳方法

我已经在 CentOS 7 上尝试使用 Ansible 2 0 0 2 我试图从已安装的 rpm yum 软件包中获取版本但在运行脚本时遇到警告消息安塞布尔脚本 name Get version of RPM shell yum lis
NHibernate 会话线程安全

我已经使用 NHibernate 一段时间了并且不时发现如果我尝试同时请求两个页面或尽可能接近偶尔会出错所以我认为这是因为我的会话管理不是线程安全的我以为这是我的课所以我尝试使用与这篇博客文章不同的方法http pwigle w
如何刷新nodejs child_process stdin.write

我需要在服务器端为客户端运行一个 C 程序这个程序可以是交互式的我正在使用 Node js child process 类但我在这里看到一个问题由于我需要保持程序交互因此客户端和 Node js 服务器之间会来回交换消息 1 程序
停止 jQuery 循环设置 display:none;

我正在创建一个小游戏用户从一组项目中进行选择然后对所选项目进行洗牌并选择一个我正在使用 jQuery 循环 http jquery malsup com cycle http jquery malsup com cycle 运行主动画
从 @prisma/client 导入枚举会出现错误“模块 '"@prisma/client"' 没有导出的成员 'Modality'

我想在 ORM 模型中使用我在 schema prisma 文件中定义的枚举我正在使用 TypeGraphQL 我的 prisma 架构定义为 enum Modality CT MAMMO MRI STEREO 运行后npx prisma
iOS-图表库：没有支持数据的 x 轴标签不显示

我正在使用流行的 iOS 图表库 3 1 1 版本我遇到了 x 轴标签的问题我似乎无法在网上找到答案假设我想要一张图表其中一周的每一天都有一个 x 轴标签即 S M T W T F S 我读过的很多论坛都建议采用在 x 轴上设置自
覆盖 SpringMVC 应用程序中的默认重定向 URL

我有一个简单的 Spring MVC 应用程序它将在某些控制器操作后将用户重定向到新页面例如 Controller public class ResponseController RequestMapping value save me
如何在 Windows 7 上安装适用于 Python 3.5 的 cvxopt

我最近更新到 python 3 5 0 并想安装 cvxopt 到目前为止还没有运气所以我尝试了 python 2 7 并按照说明进行操作here http cvxopt org install 我安装了 mingw 4 9 3 并从源代
如何在mysql工作台中打开多个模型/数据库

我有两个型号 1 Server Model conneted to remote database which is stored on server 2 Local Host connected to my pc database is
使用 R 实现具有不同距离度量的 KNN

我正在研究一个数据集以便比较不同距离度量的效果我正在使用KNN算法 R中的KNN算法默认使用欧几里德距离所以我写了自己的一个我想找到最近邻居和目标之间正确的类标签匹配的数量我一开始就准备好了资料然后我调用数据 wdbc n 我选
eshell (elisp shell) 启动时读取什么设置文件？ eshell 如何设置它的 PATH？

使用 emacs eshell echo PATH 显示与 PATH 环境变量不同的路径我还检查了 eshell 不读取 bashrc 或 profile 我认为这就是路径不同的原因 eshell 启动时读取什么设置文件 eshell 如
删除多对多关系中的相关行

我正在删除位于多对多关系的一个站点上的表中的一行我还想删除该关系另一端的任何相关行例如假设我有下表我想从中删除一行Cars 我还想从中删除任何相关行Drivers当然任何不再需要的行CarDrivers Table Cars Ca
Google 文档上的正则表达式回车查找和替换

On 谷歌文档我想要每一个list item 我的项目符号是一个破折号其中 20 个左右的文档中有 1 000 多个内容需要通过额外的换行符分隔这样可以更轻松地在移动设备上阅读如何搜索分隔项目符号的换行符并将其替换为两个换行符
从 Groovy 中的列表中删除空项目

从 Groovy 列表中删除空项目的最佳方法是什么 ex null 30 null 想要返回 30 只需使用减号 null 30 null null
LyX系统重新配置失败

我最近在 Windows 安装中遇到了 LyX 错误该错误以前运行顺利我尝试重新安装 LyX 和 MiKTeX 但没有成功当我打开 LyX 时没有可用的文档类当我尝试重新配置 LyX 时收到一条错误消息 The system r
如何在 PHP 的 GD 库中为文本添加发光或阴影？ [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 是否可以在 GD 中为文本添加发光或
BroadcastReceiver未收到警报广播

我有一个设置新的重复警报的代码在生产中我将使用 inexactRepeating 但是我注册的用于处理它的 BroadCastReceiver 没有被调用这是我设置闹钟的代码 newAlarmPeriod 5000 For debugg
有没有办法在任务栏中设置Pygame图标？ set_icon() 似乎只影响实际窗口中的小图标

运行我的程序时我配置的图标pygame display set icon icon 仅显示在窗口中在任务栏中默认的 python 图标保持不变有办法改变吗 Source import pygame from pygame local
如何在 C# 中迭代 3D 字符串数组

我有一个 3D 数组 String cross new String 1 b b b b c c c new String 2 b b e b c c d 如何迭代这个数组我想像这样迭代 foreach String abc in cro
如何将我自己的函数添加为 ML pyspark Pipeline 中的自定义阶段？ [复制]

这个问题在这里已经有答案了 Florian 的示例代码 ball column keep the hall column 0 7 14 1 8 15 2 9 16 3 10 17 4 11 18

如何将我自己的函数添加为 ML pyspark Pipeline 中的自定义阶段？ [复制]

如何将我自己的函数添加为 ML pyspark Pipeline 中的自定义阶段？ [复制] 的相关文章

随机推荐

热门标签