如何在 PySpark 的 UDF 中返回“元组类型”？

2024-02-17

All the 中的数据类型pyspark.sql.types are https://spark.apache.org/docs/latest/api/python/_modules/pyspark/sql/types.html:

__all__ = [
    "DataType", "NullType", "StringType", "BinaryType", "BooleanType", "DateType",
    "TimestampType", "DecimalType", "DoubleType", "FloatType", "ByteType", "IntegerType",
    "LongType", "ShortType", "ArrayType", "MapType", "StructField", "StructType"]

我必须编写一个 UDF（在 pyspark 中），它返回一个元组数组。我该给它的第二个参数（即 udf 方法的返回类型）做什么？这将是类似的事情ArrayType(TupleType())...

不存在这样的事情TupleType在斯帕克.产品类型表示为structs具有特定类型的字段。例如，如果您想返回一个数组（整数、字符串），您可以使用如下模式：

from pyspark.sql.types import *

schema = ArrayType(StructType([
    StructField("char", StringType(), False),
    StructField("count", IntegerType(), False)
]))

用法示例：

from pyspark.sql.functions import udf
from collections import Counter

char_count_udf = udf(
    lambda s: Counter(s).most_common(),
    schema
)

df = sc.parallelize([(1, "foo"), (2, "bar")]).toDF(["id", "value"])

df.select("*", char_count_udf(df["value"])).show(2, False)

## +---+-----+-------------------------+
## |id |value|PythonUDF#<lambda>(value)|
## +---+-----+-------------------------+
## |1  |foo  |[[o,2], [f,1]]           |
## |2  |bar  |[[r,1], [a,1], [b,1]]    |
## +---+-----+-------------------------+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

DataFrame

PySpark

apachesparksql

如何在 PySpark 的 UDF 中返回“元组类型”？的相关文章

JavaScript 相当于 Python 的参数化 string.format() 函数

这是 Python 示例 gt gt gt Coordinates latitude longitude format latitude 37 24N longitude 115 81W Coordinates 37 24N 115 81W
boto3 资源（例如 DynamoDB.Table）的类型注释

The boto3库提供了几种返回资源的工厂方法例如 dynamo boto3 resource dynamodb Table os environ DYNAMODB TABLE 我想注释这些资源以便我可以获得更好的类型检查和完成但我
如何使用显式引用转储 YAML？

递归引用非常适合ruamel yaml or pyyaml ruamel yaml dump ruamel yaml load A A id001 id001 然而它显然不适用于普通引用 ruamel yaml dump ruamel
TF map_fn 或 while_loop 用于不同形状的张量列表

我想处理不同形状的张量序列列表并输出另一个张量列表考虑每个时间戳上具有不同隐藏状态大小的 RNN 就像是输入 tf ones 1 2 2 tf ones 2 2 3 tf ones 3 2 1 输出 tf zeros 1 2 4 t
当单词以“|”分隔时如何读取文件（埃因霍温）？

在Python中我有一个文件其中的单词由例如 city state zipcode 我的文件阅读器无法区分单词另外我希望我的文件阅读器从第 2 行而不是第 1 行开始如何让我的文件阅读器分隔单词 import os import
登录网站并使用 python 请求下载文件

我有一个带有 HTML 表单的网站登录后它会将我带到 start php 站点然后将我重定向到overview php 我想从该服务器下载文件当我单击 ZIP 文件的下载链接时链接后面的地址是 getimage php path
如何将 self 传递给装饰器？

我该如何通过self key下面进入装饰器 class CacheMix object def init self args kwargs super CacheMix self init args kwargs key func Cons
WindowsError：[错误 126] 使用 ctypes 加载操作系统时

python代码无法在Windows 7平台上运行 def libSO lib ctypes cdll LoadLibrary ConsoleApplication2 so lib cfoo2 1 3 当我尝试运行它时得到来自python
Python Fabric - 未找到主机。请指定用于连接的（单个）主机字符串：

如何获取找不到主机请指定用于连接的单个主机字符串面料如何解决 def bootstrap host ec2 54 xxx xxx xxx compute 1 amazonaws com env hosts host env use
Python Pandas 根据另一列的总计从另一个数据帧中选择值

我下面有一个 DataFrame 但我需要根据取消和订单列从每个代码中选择行假设代码 xxx 的阶数为 6 1 5 1 阶数为 11 我需要一种算法可以选择满足总共 11 行的行阶数为 6 5 如果没有行匹配则选择最接近的 id 并
在Python中计算内存碎片

我有一个长时间运行的进程不断分配和释放对象尽管正在释放对象但 RSS 内存使用量会随着时间的推移而增加如何计算发生了多少碎片一种可能性是计算 RSS sum of allocations 并将其作为指标即便如此我该如何计算分母
django-admin.py makemessages 不起作用

我正在尝试翻译一个字符串 load i18n trans Well Hello there how are you to Hola amigo que tal 我的 settings py 文件有这样的内容 LOCALE PATHS os
Python 类型安全吗？

根据维基百科 https en wikipedia org wiki Type system Type safety and memory safety 如果一种语言不允许违反类型系统规则的操作或转换计算机科学家就认为该语言是类型安全的
在 Sphinx 中，有没有办法在声明参数的同时记录参数？

我更喜欢在声明参数的同一行记录每个参数根据需要以便应用D R Y http en wikipedia org wiki Don t repeat yourself 如果我有这样的代码 def foo flab nickers a ser
Python]将两个文本文件合并为一个（逐行）[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我是蟒蛇新手我想做的是将文件 a 和文件 b 逐行合并到一个文件中例如 text file a a n b n c text fi
如何使用 Keras ImageDataGenerator 预测单个图像？

我已经训练 CNN 对图像进行 3 类分类在训练模型时我使用 keras 的 ImageDataGenerator 类对图像应用预处理功能并重新缩放它现在我的网络在测试集上训练得非常准确但我不知道如何在单图像预测上应用预处理功能如
在 virtualenvwrapper 中激活环境

我安装了virtualenv and virtualenvwrapper用这个命令我创建了一个环境 mkvirtualenv cv 它有效创建后我就处于新环境中现在我重新启动了我的电脑我想activate又是那个环境但是怎么样我使
Pandas - 合并数据框以将所有值保留在左侧，如果“左侧没有键”，则从右侧“插入”值，否则“更新”左侧现有的“键”

我有两个数据框 df1 和 df2 np random seed 0 df1 pd DataFrame key A B C D id 2 23 234 2345 2021 np random randn 4 df2 pd DataFrame
Django 模型：如何使用 mixin 类来覆盖 django 模型以实现 save 等功能

我想在每次保存模型之前验证值所以我必须重写保存函数代码几乎是一样的我想把它写在 mixin 类中但失败了我不知道如何写 super func 我英语不好抱歉 class SyncableMixin object def sav
如何获取所有mysql元组结果并转换为json

我能够从表中获取单个数据但是当我试图获取表上的所有数据时我只得到一行 cnn execute sql rows cnn fetchall column t 0 for t in cnn description for row in ro

随机推荐

如何使用 JPA 或 JDBC 使用 REF CURSOR 调用特定的 PL/SQL 函数

我的问题是我想在 Spring Boot 中的 PostConstruct 方法中调用 PL SQL 函数此函数返回有关数据库中表的信息如上所示 CREATE OR REPLACE FUNCTION dbINFO return sys
使用 scons 编译带有 -std=c++11 标志的 c++ 文件

我正在尝试使用 scons 编译带有 std c 11 选项的 c 文件文件测试 cc include
如何在 webpack 中以正确的顺序导入样式

我使用 bootstrap css 和一个用 less 编写的附加模板我将两者导入到我的反应组件的根组件中不幸的是即使 less 文件是第二个导入的文件引导程序中的样式也会推翻 less 样式有没有办法确保 webpack 中样式
如何找出哪个进程正在使用我的文件？

当我在 Build 上遇到这样的错误时如何找出哪个进程正在使用我的文件错误 18 无法将文件 Some dll 复制到 bin Debug Some dll 这进程无法访问文件 bin Debug Some dll 因为它是被另一个
Sublime Text 2 中可以显示确切的位置吗？

我一直在学习 Markdown 并使用 Python Markdown 包当我尝试转换从网络粘贴的文本时它通常会返回以下内容 UnicodeEncodeError ascii codec can t encode character u
ASP.NET MVC 通过字符串 id 路由？

在 ASP NET 2 中如何创建一个允许通过字符串 id 例如 ProductCode 查找对象例如 Product 的路由通过整数 ID 例如 ProductId 查找同一对象的路线是自动的所以我实际上不知道它是如何工作的根据
如何在没有安全问题的情况下运行用户提供的Javascript（例如jsFiddle、jsBin等）？

我需要运行一个完全由用户编写的 Javascript 函数我给他提供了一个骨架但细节需要他指定例如 function main model console the user can enter anything here ideall
如何高效查询包含两个WHERE子句的表（Android Room）

假设我有一个对象 class Person String firstName String lastName other fields 和一个数据库其中包含 Entity class DatabaseTable String firstN
Pandas 按日期将接近的事件分组，然后测试其他值是否相等

问题将时间上彼此接近且还具有相同变量的事件分组在一起例如给定疾病发病日期和地址查找在指定时间范围内在同一地点发生的疾病爆发大 300K 行 pandas 数据框示例数据 df pd DataFrame 2020 01 01 10
将 HTML 转义字符串转换为纯 Unicode/ASCII [重复]

这个问题在这里已经有答案了可能的重复 Java 如何像 HttpUtility HtmlDecode 一样解码 Java 中的 HTML 字符实体 https stackoverflow com questions 994331 java
为什么 ListView 中偶尔会加载错误的图像？

我有一个列表视图它以异步方式加载每个单元格中的图像当我尝试缓慢向下滚动时加载当前视图中的所有图像后它可以完美地工作但是当我尝试在加载它们之前向下滚动并向上滚动时我遇到了这个问题细胞开始显示与它们不对应的图像我的 getVi
使用 Node.js 上传多个图像

我正在使用 Node js 并尝试处理多个图像我使用以下代码上传单个图像然后将路径以字符串格式保存到数据库中 var multiparty require multiparty var form new multiparty Form
在 React 本机应用程序上得到“分配的来源之一在原型链上有一个可枚举的键”

我正在为Android应用程序使用react native 并使用axios作为http库当我尝试发送Blob通过 http post 对象我会得到以下错误 HTTP Failure in Axios TypeError One of t
动态更改 UILabel 宽度不适用于自动布局

我有一些代码 CGRect currentFrame textLabel frame CGSize max CGSizeMake textLabel frame size width 3000 CGSize expected textLab
如何在“/tmp”而不是工作目录中创建临时文件“.#filename”

当在 Emacs 中修改文件时会在工作目录中创建一个临时文件如下所示 filename 保存缓冲区时文件将被删除我在 Git 远程存储库中发现了一些此类临时文件我认为最好从源头上消灭萌芽而不是将 Git 配置为在每个项目中忽略它们
为什么非静态字段不能充当GC根？

据我所知静态字段以及线程局部变量和方法参数 JNI 引用充当 GC 根我无法提供可以证实这一点的链接但我已经阅读了很多相关文章为什么非静态字段不能充当GC根首先我们需要确保我们对于跟踪垃圾收集算法在标记阶段的作用达成共识
cmd / DOS 批处理脚本中变量周围的方括号表示法

我见过 cmd 批处理脚本使用平方符号来包围变量例如 echo off if 1 echo no parameter entered else echo param1 is 1 这样做的目的是什么它用于正确的语法想象一下您想检查变量
模拟器上未收到 Firebase 消息

我按照中的说明进行操作https stackoverflow com a 38626398 565212 https stackoverflow com a 38626398 565212将 SNS 到 FCM 连接到 Android 应用
如何使用SLIM框架创建MySQL事务

我正在使用Slim框架来创建一个RESTful API 如何创建一个事务来执行多个SQL语句和或能够回滚其中一些语句 SLIM没有附带 MySQL 所以基本上你会用正常的方式使用 PDO 或 MySQLi 来完成它所以基本上假设 P
如何在 PySpark 的 UDF 中返回“元组类型”？

All the 中的数据类型pyspark sql types are https spark apache org docs latest api python modules pyspark sql types html all Dat

如何在 PySpark 的 UDF 中返回“元组类型”？

如何在 PySpark 的 UDF 中返回“元组类型”？ 的相关文章

随机推荐

热门标签

如何在 PySpark 的 UDF 中返回“元组类型”？的相关文章