如何在 PySpark ML 中创建自定义 SQLTransformer 来透视数据

2024-01-24

我有一个类似于以下结构的数据框：

# Prepare training data
training = spark.createDataFrame([
    (990011, 1001, 01, "Salary", 1000, 0.0),
    (990011, 1002, 02, "POS Purchase", 50, 0.0),
    (990022, 1003, 01, "Cash Withdrawl", 500, 1.0),
    (990022, 1004, 02, "Interest Charge", 35, 1.0)
], ["customer_id", "transaction_id", "week_of_year", "category", "amount", "label"])

我可以使用 PySpark 动态地转换这些数据，这消除了每周和类别的硬代码 case 语句：

# Attempt 1
tx_pivot = training \
    .withColumn("week_of_year", sf.concat(sf.lit("T"), sf.col("week_of_year"))) \
    .groupBy("customer_id") \
    .pivot("week_of_year") \
    .sum("amount")

tx_pivot.show(20)

我想开发一个自定义 Transformer 来动态转换数据，以便我可以将此自定义 Transform 阶段合并到 Spark ML Pipeline 中。不幸的是，当前 Spark/PySpark 中的 SQLTransfomer 仅支持 SQL，例如 E.g. '选择...从THIS'（参考https://github.com/apache/spark/blob/master/python/pyspark/ml/feature.py https://github.com/apache/spark/blob/master/python/pyspark/ml/feature.py).

任何关于如何创建自定义 Transformer 来动态转换数据的指导将不胜感激。

实现一个接受一个数据帧并返回另一个数据帧的自定义转换器是非常简单的。在你的情况下：

import pyspark.ml.pipeline.Transformer as Transformer

class PivotTransformer(Transformer):

    def _transform(self, data):           
        return data.withColumn("week_of_year",sf.concat(sf.lit("T"),\
                    sf.col("week_of_year"))) \
                   .groupBy("customer_id") \
                   .pivot("week_of_year") \
                   .sum("amount")

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

PySpark

apachesparkmllib

如何在 PySpark ML 中创建自定义 SQLTransformer 来透视数据的相关文章

UnicodeDecodeError：“utf-8”编解码器无法解码位置 14 中的字节 0xb9：起始字节无效

我正在使用 Django REST 进行文件上传测试 Python3 6 2Django1 11djangorest框架 3 6 4Excel OSX 15 38 170902 操作系统 10 12 6 过去使用普通照片文件可以成功完成此操
Pygame 让精灵按照给定的旋转行走

很久以前我做了一个Scratch脚本我想用Pygame将其转换为Python 有很多示例显示图像的旋转但我想知道如何更改精灵的旋转以使其沿给定方向移动而不更改图像这是我的暂存代码这是我的 Pygame 精灵类 class Star
Pandas 在列级别连接数据帧时添加键

根据 Pandas 0 19 2 文档我可以提供keys参数来创建结果多索引 DataFrame 一个例子来自 pandas 文档是 result pd concat frames keys x y z 我将如何连接数据框以便我可以在
如何使用 ipywidgets 创建动态依赖下拉菜单？

我创建了一个带有两个下拉菜单的表单我的目标是使一个下拉列表依赖于另一个下拉列表这张图说明了我的目标和目前的情况 https i stack imgur com o9k5G png 下面的示例代码可以在 Google Colab 或 Ju
监控培训课程如何运作？

我试图理解使用之间的区别tf Session and tf train MonitoredTrainingSession 以及我可能更喜欢其中之一似乎当我使用后者时我可以避免许多杂务例如初始化变量启动队列运行程序或设置文件编写器以
检查列表是否已排序的 Pythonic 方法

有没有一种Python式的方法来检查列表是否已经排序ASC or DESC listtimestamps 1 2 3 5 6 7 就像是isttimestamps isSorted 返回True or False 我想输入一些消息的时间戳列
Python 在 64 位 vista 上获取 os.environ["ProgramFiles"] 的错误值

Vista64 计算机上的 Python 2 4 3 环境中有以下2个变量 ProgramFiles C Program Files ProgramFiles x86 C Program Files x86 但是当我运行以下命令时 impo
Scapy：如何将新层（802.1q）插入现有数据包？

我有一个数据包转储想要将 VLAN 标记 802 1q 标头注入到数据包中怎么做为了找到答案我查看了Scapy 插入新层和记录问题 https stackoverflow com q 17259592 1381638 这确实很有帮
如何不断地将 STDOUT 发送到我的 python TCP 服务器？

我有简单的 python echo 服务器它使用套接字并向客户端回显随机数我有另一个程序每 2 秒将值打印到标准输出如果它只是一个脚本我可以像这样重定向 stdout python script py 并像这样在脚本中获取它da
Python 可选参数对

我正在使用argparse模块获取两个可选的命令行参数 parser add argument start date nargs metavar START DATE help start date in YYYY MM DD parser
Python 中使用 globals() 的原因？

Python 中有 globals 函数的原因是什么它只返回全局变量的字典这些变量已经是全局的所以它们可以在任何地方使用我只是出于好奇而问试图学习Python def F global x x 1 def G print glob
python lxml 使用iterparse编辑并输出xml

我已经在 lxml 库上摆弄了一段时间了也许我没有正确理解它或者我错过了一些东西但我似乎无法弄清楚在捕获某个 xpath 后如何编辑文件并且然后能够在逐个元素解析时将其写回到 xml 中假设我们有这个 xml 作为示例
将带有 md5 消息摘要和 DESede/CBC/PKCS5Padding 的 3DES 加密的 java 代码转换为 python

我有这个工作java代码它使用3DES加密对密码进行加密 import java security MessageDigest import java util Arrays import java util Base64 import
telethon 库：如何通过电话号码添加用户

我正在研究 Telegram 的 Telethon 库它可以使用 Telegram API 充当 Telegram 客户端重要提示这是电报客户端 API https core telegram org telegram api 而不是
在 Python 中将嵌套字典位置作为参数传递

如果我有一个嵌套字典我可以通过索引来获取键如下所示 gt gt gt d a b c gt gt gt d a b c 我可以将该索引作为函数参数传递吗 def get nested value d path a b return d
如何删除 pip 安装的所有软件包？

如何从当前激活的虚拟环境中卸载 pip 安装的所有软件包我发现这个片段作为替代解决方案与重新创建 virtualenv 相比删除库更加优雅 pip freeze xargs pip uninstall y 如果您通过 VCS 安装了软
向结构化 numpy 数组添加字段

将字段添加到结构化 numpy 数组的最简洁方法是什么是否可以破坏性地完成或者是否有必要创建一个新数组并复制现有字段每个字段的内容是否连续存储在内存中以便可以有效地完成此类复制如果您使用 numpy 1 3 还有 numpy li
“yield item”与 return iter(items) 相比有何优点？

在下面的示例中 resp results 是一个迭代器版本1 items for result in resp results item process result items append item return iter items
跟踪白色背景中的白球（Python/OpenCV）

我在 Python 3 中使用 OpenCV 来检测白场上的白黑球并给出它的精确 x y 半径和颜色我使用函数 cv2 Canny 和 cv2 findContours 来找到它但问题是 cv2 Canny 并不总是检测到圆的完整
AES 在 cryptojs 中加密并在 python Crypto.Cipher 中解密

使用 js CryptoJS 加密并使用 python crypto Cipher 解密时出现问题这是我在js中的实现附加 iv 与加密消息并使用 base64 进行编码

随机推荐

计算两组向量之间的叉积的有效方法 numpy

我有两组每组 2000 个 3D 向量我需要计算每个可能对之间的叉积我目前这样做 for tx in tangents x for ty in tangents y cross np cross tx ty do something
绑定文本区域中的值

我正在尝试在 Angular2 中进行最简单的两种方式绑定我想在我的组件和它的模板之间共享一个变量我的模板是
使用注释处理器替换代码

我正在尝试写一个注释处理器 http docs oracle com javase 7 docs api javax annotation processing Processor html在类上插入方法和字段并且文档非常稀疏我没有走得
java.lang.ClassCastException：android.os.BinderProxy 无法转换为 LocalBinder

我有一个Service我正在尝试绑定到我的主要Activity 但我收到了 java lang ClassCastException android os BinderProxy 无法转换为 com walintukai rubix Con
为什么我的数学测验在答案正确时总是打印不正确[关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案好吧我编写了一个代码随机生成问题并让用户回答但我的问题是即使用户得到正确的答案它也总是打印不正确 print
分隔符之间的匹配文本：贪婪或懒惰的正则表达式？

对于分隔符之间匹配文本的常见问题例如 lt and gt 有两种常见模式使用贪心 or 形式的量词START END END e g lt gt gt or 使用懒惰的 or 形式的量词START END e g lt gt 是否有特别
在 UIWebView 中打开弹出链接，可能吗？

我有一个 UIWebView 我将其用作应用程序中的嵌入式浏览器我注意到打开新窗口的网页中的链接将被忽略而不会调用我的代码我尝试过断点 BOOL webView UIWebView webView shouldStartLoadWit
jpa本机查询检索多个实体

我有一个包含 4 个表的数据库 company staff department project 公司 java Entity Table name company SqlResultSetMapping name COMPANY enti
如何让Keycloak注销取消会话？

我有一个配置其中使用 Keycloak 作为身份代理并使用自定义身份提供程序使用 Spring Security OAuth 来提供用户信息我观察到当我尝试注销使用 frontchannel 流时 Keycloak cooki
在 R 中的 ggplot2 中向所有方面添加点的最佳方法

有人可以告诉我添加相同点的最佳方法吗every下面情节的方面例如在下面如果我选择标记为未知的点之一我可以调用geom point在制作绘图方面后但因为它被标记为未知它仅在第四个方面突出显示我想将其添加到every fa
检查 Java 版本时出错：找不到 java.dll

为什么我会得到这个我该如何修复它 C Users ash gt java version Error Registry key Software JavaSoft Java Runtime Environment CurrentVersi
如何防止 Angular-ui 模式关闭？

我在我的项目中使用 Angular UI modalhttp angular ui github io bootstrap modal http angular ui github io bootstrap modal 我不希望用户通过按背
如何使用Spring Security在两个域上进行单点登录？

我有网络应用程序和两个域 example com 和 example ru example com 国际 example ru 对于当地国家我的网络应用程序使用 spring security 来授权用户但是如果用户通过 example
Django+Heroku：compilemessages 可以工作，但我的翻译文件不行。

我发现自己处于一个非常奇怪的境地我没有我的 mo提交到我的存储库中的文件我计划在部署后生成它们我安装了 gettext buildpack 位于https github com piotras heroku buildpack get
Git 使用绝对路径忽略目录

gitignore 中可以使用绝对目录路径吗我将以下内容放入 var www bidjunction gitignore 中但是 html 仍然被跟踪为什么还被追踪 var www bidjunction html 编辑有点偏离主题
如何在 ASP.NET MVC 中维护 Html.CheckBox() 的状态

我的 MVC 应用程序中有两个复选框它们都是布尔位字段通知电子邮件和通知短信每当我回发到服务器并发生错误时尽管我设置了尝试的值但复选框的状态已消失为什么不做这么简单的事情呢
重定向回他们登录前查看的实际页面

如果我的用户被重定向到登录页面如何使他们在登录后重定向到原始目标页面他们第一次单击的页面将最初请求的 URL 作为重定向到登录页面的请求参数传递 String from request getRequestURI if request
记录器日志自动清除

我创建了这个脚本来通过电子邮件发送日志类似于上的示例https developers google com apps script reference base logger https developers google com app
什么是 python runpy 模块？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我想知道这样做的目的runpyPython 中的模块以及它如何帮助 Python 用户社区的日常开发有人可以解释一下它的必要性用法
如何在 PySpark ML 中创建自定义 SQLTransformer 来透视数据

我有一个类似于以下结构的数据框 Prepare training data training spark createDataFrame 990011 1001 01 Salary 1000 0 0 990011 1002 02 POS P

如何在 PySpark ML 中创建自定义 SQLTransformer 来透视数据

如何在 PySpark ML 中创建自定义 SQLTransformer 来透视数据 的相关文章

随机推荐

热门标签

如何在 PySpark ML 中创建自定义 SQLTransformer 来透视数据的相关文章