如何在 PySpark 中创建自定义估算器

2024-04-21

我正在尝试构建一个简单的自定义Estimator在 PySpark MLlib 中。我有here https://stackoverflow.com/questions/32331848/create-a-custom-transformer-in-pyspark-ml/32337101?noredirect=1#comment62052435_32337101可以编写一个自定义 Transformer，但我不知道如何在Estimator。我也不明白什么@keyword_only确实如此，为什么我需要这么多的 setter 和 getter。 Scikit-learn 似乎有一个适合自定义模型的文档（see here http://scikit-learn.org/stable/developers/contributing.html#rolling-your-own-estimator）但 PySpark 没有。

示例模型的伪代码：

class NormalDeviation():
    def __init__(self, threshold = 3):
    def fit(x, y=None):
       self.model = {'mean': x.mean(), 'std': x.std()]
    def predict(x):
       return ((x-self.model['mean']) > self.threshold * self.model['std'])
    def decision_function(x): # does ml-lib support this?

一般来说，没有文档，因为对于 Spark 1.6 / 2.0，大多数相关 API 并不打算公开。它应该在 Spark 2.1.0 中改变（参见SPARK-7146 https://issues.apache.org/jira/browse/SPARK-7146).

API相对复杂，因为它必须遵循特定的约定才能使给定的Transformer or Estimator兼容于PipelineAPI。其中一些方法可能需要用于读写或网格搜索等功能。其他的，比如keyword_only只是一个简单的帮助者，并不是严格要求的。

假设您为平均参数定义了以下混合：

from pyspark.ml.pipeline import Estimator, Model, Pipeline
from pyspark.ml.param.shared import *
from pyspark.sql.functions import avg, stddev_samp


class HasMean(Params):

    mean = Param(Params._dummy(), "mean", "mean", 
        typeConverter=TypeConverters.toFloat)

    def __init__(self):
        super(HasMean, self).__init__()

    def setMean(self, value):
        return self._set(mean=value)

    def getMean(self):
        return self.getOrDefault(self.mean)

标准差参数：

class HasStandardDeviation(Params):

    standardDeviation = Param(Params._dummy(),
        "standardDeviation", "standardDeviation", 
        typeConverter=TypeConverters.toFloat)

    def __init__(self):
        super(HasStandardDeviation, self).__init__()

    def setStddev(self, value):
        return self._set(standardDeviation=value)

    def getStddev(self):
        return self.getOrDefault(self.standardDeviation)

和阈值：

class HasCenteredThreshold(Params):

    centeredThreshold = Param(Params._dummy(),
            "centeredThreshold", "centeredThreshold",
            typeConverter=TypeConverters.toFloat)

    def __init__(self):
        super(HasCenteredThreshold, self).__init__()

    def setCenteredThreshold(self, value):
        return self._set(centeredThreshold=value)

    def getCenteredThreshold(self):
        return self.getOrDefault(self.centeredThreshold)

你可以创建基本的Estimator如下：

from pyspark.ml.util import DefaultParamsReadable, DefaultParamsWritable 
from pyspark import keyword_only  

class NormalDeviation(Estimator, HasInputCol, 
        HasPredictionCol, HasCenteredThreshold,
        DefaultParamsReadable, DefaultParamsWritable):

    @keyword_only
    def __init__(self, inputCol=None, predictionCol=None, centeredThreshold=1.0):
        super(NormalDeviation, self).__init__()
        kwargs = self._input_kwargs
        self.setParams(**kwargs)

    # Required in Spark >= 3.0
    def setInputCol(self, value):
        """
        Sets the value of :py:attr:`inputCol`.
        """
        return self._set(inputCol=value)

    # Required in Spark >= 3.0
    def setPredictionCol(self, value):
        """
        Sets the value of :py:attr:`predictionCol`.
        """
        return self._set(predictionCol=value)

    @keyword_only
    def setParams(self, inputCol=None, predictionCol=None, centeredThreshold=1.0):
        kwargs = self._input_kwargs
        return self._set(**kwargs)        
        
    def _fit(self, dataset):
        c = self.getInputCol()
        mu, sigma = dataset.agg(avg(c), stddev_samp(c)).first()
        return NormalDeviationModel(
            inputCol=c, mean=mu, standardDeviation=sigma, 
            centeredThreshold=self.getCenteredThreshold(),
            predictionCol=self.getPredictionCol())


class NormalDeviationModel(Model, HasInputCol, HasPredictionCol,
        HasMean, HasStandardDeviation, HasCenteredThreshold,
        DefaultParamsReadable, DefaultParamsWritable):

    @keyword_only
    def __init__(self, inputCol=None, predictionCol=None,
                mean=None, standardDeviation=None,
                centeredThreshold=None):
        super(NormalDeviationModel, self).__init__()
        kwargs = self._input_kwargs
        self.setParams(**kwargs)  

    @keyword_only
    def setParams(self, inputCol=None, predictionCol=None,
                mean=None, standardDeviation=None,
                centeredThreshold=None):
        kwargs = self._input_kwargs
        return self._set(**kwargs)           

    def _transform(self, dataset):
        x = self.getInputCol()
        y = self.getPredictionCol()
        threshold = self.getCenteredThreshold()
        mu = self.getMean()
        sigma = self.getStddev()

        return dataset.withColumn(y, (dataset[x] - mu) > threshold * sigma)

致谢本杰明-曼斯 https://stackoverflow.com/users/234944/benjamin-manns为了使用 DefaultParamsReadable、DefaultParamsWritable https://stackoverflow.com/a/52467470适用于 PySpark >= 2.3.0

最后可以如下使用：

df = sc.parallelize([(1, 2.0), (2, 3.0), (3, 0.0), (4, 99.0)]).toDF(["id", "x"])

normal_deviation = NormalDeviation().setInputCol("x").setCenteredThreshold(1.0)
model  = Pipeline(stages=[normal_deviation]).fit(df)

model.transform(df).show()
## +---+----+----------+
## | id|   x|prediction|
## +---+----+----------+
## |  1| 2.0|     false|
## |  2| 3.0|     false|
## |  3| 0.0|     false|
## |  4|99.0|      true|
## +---+----+----------+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何在 PySpark 中创建自定义估算器的相关文章

分配列表的多个值

我很想知道是否有一种 Pythonic 方式将列表中的值分配给元素为了更清楚我要求这样的事情 myList 3 5 7 2 a b c d something myList So that a 3 b 5 c 7 d 2 我正在寻找比手
Python Numpy Reshape错误[关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案我在尝试重塑 3D numpy 数组时遇到一个奇怪的错误数组 x 的形状为 6 10 300 我想将其重塑为 6 3000 我正
在推送到容器注册表之前如何对构建的映像运行测试？

从 gitlab 文档中可以看出如何使用 kaniko 创建 docker 镜像 build stage build image name gcr io kaniko project executor debug entrypoint sc
如何使用我自己的自定义表单覆盖 django-rest-auth 中的表单？

我正在使用 django rest auth 并尝试通过覆盖表单的方法之一来修复密码重置视图中的错误尽管我已经使用不同的 django rest auth 表单成功完成了类似的操作但我无法让它在这个表单上工作无论我做什么都会使用旧的
如何检索分配给 Django 中的组的所有权限

我正在执行一项任务来检索分配给 Django 中的组的一组权限我可以使用以下代码获取创建的组但无法使用它来获取分配给它们的权限 from django contrib auth models import Group Permissio
在 Jupyter Notebook 中设置环境变量的不同方法

在某些情况下我在 Windows 10 计算机上使用 Jupyter 笔记本我想通过设置环境变量 GOOGLE APPLICATION CREDENTIALS 来向 GCP 进行身份验证我想知道这两种设置环境变量的方式有什么区别当
计算熊猫数据帧几个月的总和

我有一个 pandas 数据框如下所示 ID Year R1 R1 f KAR1 20201001 1 5 KAR1 20201101 2 6 KAR1 20201201 3 7 KAR1 20210101 4 8 KAR1 202102
如何将 numpy rearray 的子集转换为连续数组？

我有一个recarray来自读取 csv 文件我有兴趣将列的子集转换为连续浮点数组我想避免将它们转换为列表或将它们一一堆叠我尝试了中的建议https stackoverflow com a 11792956 https stackov
如何在动态执行的代码字符串中使用inspect.getsource？

如果我在文件中有这段代码 import inspect def sample p1 print p1 return 1 print inspect getsource sample 当我运行脚本时它按预期工作在最后一行源代码sampl
如何在 numpy 数组中查找并保存重复的行？

我有一个数组例如 Array 1 1 1 2 2 2 3 3 3 4 4 4 5 5 5 1 1 1 2 2 2 我想要输出以下内容的东西 Repeated 1 1 1 2 2 2 保留重复行的数量也可以例如 Repeated 1 1
dask apply：AttributeError：“DataFrame”对象没有属性“name”

我有一个参数数据框并对每一行应用一个函数该函数本质上是几个 sql queries 和对结果的简单计算我正在尝试利用 Dask 的多处理同时保持结构和界面下面的例子有效并且确实有显着的提升 def get metrics row
django 中的身份验证方法返回 None

你好我在 django 中做了一个简单的注册和登录页面当想要登录时登录视图中的身份验证方法不返回任何内容我的身份验证应用程序模型 py from django db import models from django contri
如何让 Streamlit 每 5 秒重新加载一次？

我必须每 5 秒重新加载 Streamlit 图表以便在 XLSX 报告中可视化新数据如何实现这一目标 import streamlit as st import pandas as pd import os mainDir os pa
导入目录下的所有模块

有没有办法导入当前目录中的所有模块并返回它们的列表例如对于包含以下内容的目录 mod py mod2 py mod3 py 它会给你
将 Python Selenium 输出写入 Excel

我编写了一个脚本来从在线网站上抓取产品信息目标是将这些信息写入 Excel 文件由于我的Python知识有限我只知道如何在Powershell中使用Out file导出但结果是每个产品的信息都打印在不同的行上我希望每种产品都有一条
如何全局安装 Python（开发）依赖项，以便我不必在每个 venv 中重新安装它们？

我希望在为每个项目创建的每个 venv 虚拟环境中都可以使用一些 Python 依赖项例如 black flake8 和 pytest 这可能吗如果可以如何实现我想安装这三个once在我的主要 Python 安装下我必须在启动新
更新 matplotlib 中颜色条的范围

我想更新一个contourf在函数内绘制效果很好然而数据的范围发生了变化因此我还必须更新颜色条这就是我未能做到的地方请参阅以下最小工作示例 import matplotlib pyplot as plt import numpy
RuntimeError(f"目录 '{directory}' 不存在") RuntimeError: 目录 'app/static' 不存在

当我运行 server py 文件时出现错误 File C Users nawin AppData Local Programs Python Python38 lib site packages starlette staticfiles
如何在supervisord中设置组？

因此我正在设置 Supervisord 并尝试控制多个进程并且一切正常现在我想设置一个组以便我可以启动停止不同的进程集而不是全部或全无这是我的配置文件的片段 group tapjoy programs tapjoy game1
在 python 中使用高精度时间戳

嘿我正在使用 python 处理日期时间我想知道解析这个时间戳的最佳方法是什么时间戳是ISO标准这里是一个例子 2010 06 19T08 17 14 078685237Z 现在到目前为止我已经使用过 time datetime d

随机推荐

从网站批量下载图像的最佳方法

我将从网站下载大量图像 20 000 到我的服务器并且我正在尝试找出执行此操作的最佳方法因为有太多图像需要下载目前我有下面的代码可用于测试但是有更好的解决方案还是我应该使用一些软件来做到这一点 foreach products as
Java Scanner 输入与 if else 语句

你好我是java新手正在尝试做一个测验来练习我想提出一个问题用户必须将类别中的单词组合成对如A1 B4 C3 D2 我现在所做的是使用 if else 语句来检查输入是否是正确答案但它仅适用于 1A 对于其他人我可以做 6 个
Google 日历 v3 错误“请求的最短修改时间距过去太远。[410]”

我们使用 Google Calendar v3 API 来返回自某个时间点以来已更新的用户事件列表在 v2 API 中设置过去的日期没有限制如果我们将 UpdatedMin 设置为太早的日期例如 2 个月则会引发错误所请求的最短
Google Analytics 的两个单独的脚本标签？

有谁知道为什么 Google Analytics 需要两个单独的脚本标签具体来说他们的说明建议用户将以下代码片段嵌入网页中以进行跟踪
使用 .NET 加密 API 进行 RSA 盲签名？

我想实施一个RSA 盲签名 http en wikipedia org wiki Blind signature Blind RSA signatures在 NET中有什么办法可以使用标准System Security Cryptogra
是否可以将同一个 DLL 放入控制台应用程序和 NuGet 依赖项中？

我有一个面向 NET Standard 1 5 的项目该项目在 NuGet 上部署为多个 DLL 该项目是从 Java 移植的项目内部的一些类是静态的Main 应该从命令行运行的方法在 NET Core中似乎有编译DLL的2种方法 h
AngularJS中.save和$save到资源的区别

我见过两者都调用的代码 save and save到角度的 resource 有什么区别以及什么时候使用最好的解释例子 by writing id id we want the id to be taken from id parame
如果 Web 应用程序通过 Azure 应用程序服务托管，如何读取证书

我有一个 asp net core web api app1 应用程序它正在调用另一个 asp net core web api app2 我正在考虑将 app1 作为守护应用程序我想使用证书而不是应用程序机密来跟踪客户端凭据 http
具有多个编辑按钮的 SwiftUI 表单

试图有一个Form有多个部分每个部分Section与它自己的EditButton 如何触发Section进入编辑模式而不触发中的所有部分Form 如所附 gif 所示如何追踪EditButton在一定的Section被触发以便Bu
快速文件读取

如果我是对的在 Linux 上在C C gcc g 可以使用以下命令从常规文件中读取数据read 2 or mmap 2 系统调用两个问题做read系统调用的使用mmap内部什么时候第一个比第二个快反之亦然如果您按顺序读取文件
ansible安装node.js版本6

要安装 Node 6 x 版本请执行以下命令 curl sL https deb nodesource com setup 6 x sudo E bash sudo apt get install y nodejs 现在我到底该如何在an
Terraform 有条件地应用生命周期块

您可以有条件地将生命周期块应用到 Terraform 0 12 中的资源吗例如如果我想根据传递给模块的参数将此块添加到 AWS ASG 资源 lifecycle ignore changes target group arns 不你不
Select2 - Ajax 搜索 - 记住最后的结果

我正在使用 Select2 3 5 1 使用这个插件我可以成功加载远程数据然而我今天来这里是为了提出一个问题来改进这个搜索以下是逐步了解我想要做什么的步骤设置一个具有远程数据加载功能的 Select2 使用 ajax 单击 Sele
为什么 OCaml 不允许函数匹配？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
我可以在atom中隐藏打字稿自动生成的.js和.map.js文件吗？

有谁知道 Atom 中是否有用于隐藏或分组自动生成的文件的插件选项我想要隐藏分组的文件是typescript compiler自动生成 js and map js files 如果可能的话 Visual Studio 风格的分组是最好
无法加载文件或程序集“Microsoft.ReportViewer.ProcessingObjectModel，版本=10.0.0.0”

使用 MVC5 和 rdlc 生成 pdf 它在本地主机中工作正常但是当我尝试生成报告时将应用程序部署到服务器时出现错误某些组件丢失 webapp 应用程序中的服务器错误 Could not load file or assembly
正则表达式 - 线上任何地方的负向后看

仅当同一行中前面没有特定字符时如何匹配模式我有以下正则表达式代码 pattern lt s lt replacement span 1 span code Regex Replace code pattern replacement 我
mysqli出现问题怎么办？类似 mysqli_fetch_array() 的错误：参数 #1 必须是 mysqli_result 类型等

在我的本地开发环境中 MySQLi 查询执行正常但是当我将其上传到我的网络主机环境时出现以下错误致命错误在中的非对象上调用成员函数bind param 这是代码 global mysqli stmt mysqli gt pre
无法启动“webServerStartStop”春季启动应用程序

尝试运行我的应用程序后此处存在主类 SpringBootApplication public class RappersInfo public static void main String args SpringApplication
如何在 PySpark 中创建自定义估算器

我正在尝试构建一个简单的自定义Estimator在 PySpark MLlib 中我有here https stackoverflow com questions 32331848 create a custom transformer

如何在 PySpark 中创建自定义估算器

如何在 PySpark 中创建自定义估算器 的相关文章

随机推荐

热门标签

如何在 PySpark 中创建自定义估算器的相关文章