PySpark DataFrame：自定义爆炸函数

2024-01-01

如何使用udfs实现自定义爆炸功能，以便我们可以获得有关项目的额外信息？例如，除了项目之外，我还想要项目的索引。

我不知道该怎么做的部分是当 udf 返回多个值时，我们应该将这些值放置为单独的行。

如果您需要自定义爆炸函数，那么您需要编写获取数组并返回数组的UDF。例如对于这个 DF：

df = spark.createDataFrame([(['a', 'b', 'c'], ), (['d', 'e'],)], ['array'])
df.show()
+---------+
|    array|
+---------+
|[a, b, c]|
|   [d, e]|
+---------+

添加索引并分解结果的函数如下所示：

from pyspark.sql.types import *
value_with_index = StructType([
    StructField('index', IntegerType()),
    StructField('letter', StringType())
])
add_indices = udf(lambda arr: list(zip(range(len(arr)), arr)), ArrayType(value_with_index))
df.select(explode(add_indices('array'))).select('col.index', 'col.letter').show()
+-----+------+
|index|letter|
+-----+------+
|    0|     a|
|    1|     b|
|    2|     c|
|    0|     d|
|    1|     e|
+-----+------+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

PySpark

PySpark DataFrame：自定义爆炸函数的相关文章

为什么在 python 控制台中对 SparkSession.builder.getOrCreate() 的调用被视为命令行 Spark-submit？

代替python console我正在尝试创建一个Spark Session 我没有使用pyspark以隔离依赖关系为什么是spark submit命令行提示并生成错误 NOTE SPARK PREPEND CLASSES is set
如何计算 pyspark dataframe 中的每日基础（时间序列）

所以我有一个数据框我想计算一些数量比如说每天假设我们有 10 列 col1 col2 col3 col4 coln 其中每列都依赖于值col1 col2 col3 col4 等等日期根据id date col1 id col2 co
保存的数据带有不需要的引号

我使用以下代码将数据框导出到 csv data write format com databricks spark csv options delimiter t codec org apache hadoop io compress Gz
错误：从列表创建 Spark 数据帧时 TimestampType 无法接受对象

我正在尝试从以下列表创建一个数据框 data 1 abc 2020 08 20 10 00 00 I 1 abc 2020 08 20 10 01 00 U 1 abc 2020 08 21 10 02 00 U 2 pqr 2020 08
在 Spark-submit 上的 _find_and_load 中获取文件“”，第 991 行

我目前使用的是Python 3 7 9 spark spark 2 4 6 bin hadoop2 6 在这个项目 venv 中我的设置为 kafka python 2 0 2 pip 21 2 4 py4j 0 10 9 pyspark
Spark 中的广播 Annoy 对象（对于最近邻居）？

由于 Spark 的 mllib 没有最近邻居功能我正在尝试使用Annoy https github com spotify annoy为近似最近邻我尝试广播 Annoy 对象并将其传递给工人然而它并没有按预期运行下面是可重复性的
将 Spark 数据框中的时间戳转换为日期

我见过这里如何将DataFrame中的时间戳转换为日期格式 https stackoverflow com questions 40656001 how to convert timestamp to date format in da
Spark (Python) 中的 Kolmogorov Smirnov 测试不起作用？

我正在 Python Spark ml 中进行正态性测试看到了我的结果think是一个错误这是设置我有一个标准化的数据集范围 1 到 1 当我做直方图时我可以清楚地看到数据不正常 gt gt gt prices norm hist
根据 pyspark 中的条件从数据框中删除行

我有一个包含两列的数据框 col1 col2 22 12 2 1 2 1 5 52 1 2 62 9 77 33 3 我想创建一个新的数据框它只需要行 col1 的值 gt col2 的值就像注释一样col1 很长类型和col2 有双
如何将包含多个字段的大型 csv 加载到 Spark

新年快乐我知道以前曾提出回答过此类类似的问题但是我的问题有所不同我有大尺寸的 csv 有 100 个字段和 100MB 我想将其加载到 Spark 1 6 进行分析 csv 的标题看起来像附件sample http www roc
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
如何在不使用 .toPandas() hack 的情况下提取 PySpark 中对长度敏感的特征？

我是 PySpark 的新手我想翻译特征提取 FE 将 pythonic 部分脚本放入 PySpark 中首先我有所谓的 Spark 数据框sdf包括 2 列 A 和 B 下面是示例 data A B https example1 o
使用notebook时将jar添加到pyspark

我正在尝试将 mongodb hadoop 与 Spark 集成但不知道如何使 IPython 笔记本可以访问这些 jar 这是我想做的 set up parameters for reading from MongoDB via Had
如何在Python中检查UDF函数中pyspark数据帧列的单元格值为none或NaN以实现前向填充？

我基本上是在尝试进行前向填充插补下面是代码 df spark createDataFrame 1 1 None 1 2 5 1 3 None 1 4 None 1 5 10 1 6 None session timestamp id PR
Apache Spark 中的高效字符串匹配

我使用 OCR 工具从屏幕截图中提取文本每个大约 1 5 句话然而当手动验证提取的文本时我注意到时不时会出现一些错误鉴于文本你好我真的很喜欢 Spark 我注意到 1 像 I 和 l 这样的字母被替换 2 表情符号未被正确提
如何在 Pyspark 中使用滑动窗口对时间序列数据进行数据转换

我正在尝试根据时间序列数据的滑动窗口提取特征在Scala中似乎有一个sliding函数基于这个帖子 https stackoverflow com a 28863132 3089523 and 文档 http spark apache
使用列的长度过滤 DataFrame

我想过滤一个DataFrame使用与列长度相关的条件这个问题可能很简单但我在SO中没有找到任何相关问题更具体地说我有一个DataFrame只有一个Column哪一个ArrayType StringType 我想过滤DataFrame
如何在 AWS Glue 中指定联接类型？

我正在使用 AWS Glue 连接两个表默认情况下它执行INNER JOIN 我想做一个LEFT OUTER JOIN 我参考了 AWS Glue 文档但无法将联接类型传递给Join apply 方法有没有办法在 AWS Glue
使用 Pyspark 从 S3 读取时，内容长度分隔消息正文过早结束 SparkException

我正在使用下面的代码来阅读S3 csv 文件从我的本地机器 from pyspark import SparkConf SparkContext from pyspark sql import SparkSession import con
我可以使用 dask 创建 multivariate_normal 矩阵吗？

有点相关这个帖子 https stackoverflow com questions 52337612 random multivariate normal on a dask array 我正在尝试复制multivariate norma

随机推荐

使用 XTS 进行 Rbind。如何堆叠而不按索引日期排序

我正在使用 Quantmod 来生成带有股票信息的 XTS 对象并且我希望编译堆叠一堆 XTS 文档来处理代码将 Rbind 与 XTS 结合使用我发现它不会将 XTS 堆叠在一起而是按日期进行合并和排序 x lt xts 1 1
确定表单上是否存在字段

我有一个从数据库动态创建的表单字段一系列复选框因此表单上可能不存在该字段如果数据库中没有匹配的值我有一些代码需要根据字段是否存在来执行并提取所选值如果存在不过我似乎无法让 javascript 承认该字段的存在这是我尝试过
当应用程序处于打瞌睡模式时，警报管理器触发的 Android 通知不会触发

我有以下要求用户需要能够在我的应用程序中安排定期提醒以便在某个时间触发推送通知exact每天的时间这是我希望我最终不会提交的问题之一因为在撰写本文时推荐了类似的问题然而一些团队成员花了很多时间浏览 Android 开发人员文档和
使用 Cakephp 3 用户名或电子邮件登录

我想使用用户名或电子邮件登录所以我想动态更改 Auth 字段如何像 Cakehp 2 那样修改 this gt Auth 字段在 cakephp 2 中你可以这样做 this gt Auth gt authenticate array
Java 7 -> Java 8：AES 导致异常：“BadPaddingException：给定的最终块未正确填充”与 BufferedReader 和 ZipStreams 结合使用

我们使用以下语句实例化密码 Cipher cipher Cipher getInstance AES SecretKeySpec key new SecretKeySpec cipherKey AES 这适用于 java 7 1 7 45
如何从子组件显示应用程序级别的警报

我想要一些规则或建议来做到这一点我有一个应用程序级别的警报我想在我的组件之一发生某些情况时显示该警报例如保存信息已成功或失败另外如何发送我想要显示的不同文本有 ViewChild 的等价物吗感谢您的帮助我会这样做Obser
从 django list_filter 中删除重复项

我在 django admin 中对相关对象中的字段使用列表过滤器 class A models Model pass class B models Model fk models ForeignKey A val models CharF
当单元格结果按公式更改时运行宏

我需要什么每当单元格 C3 返回与当前不同的值基于其公式而不是基于手动键入不同的值时我们将要触发的宏称为 MacroRuns 我花了一整天的时间阅读并尝试了关于这个主题的谷歌搜索的前两页上的每个解决方案到目前为止似乎没有什么
使用 cassandra 而不是 memcache？

我不断地从不同来源查阅那些大型网站正在从 memcache 切换到 cassandra 的文章由于我有 mySQL 背景当我试图比较彼此之间的优缺点时我会有点头疼你能帮我了解更多这方面的信息吗替换 memcached 是愚蠢的作为
无法使用 QOAuth2AuthorizationCodeFlow 实现 Google 登录

问题在于重定向 URI 我不知道将其设置为什么有谁能够弄清楚这一点吗我收到错误Qt Creator s输出窗格如下所示 qt networkauth oauth2 Unexpected call qt networkauth reply
在 JNI 代码中抛出异常的最佳方式？

我想要一种一致且简单的方法来在 JNI 代码中抛出异常处理链式异常的东西隐式地来自 env gt ExceptionOccurred 方法或显式地通过参数无论哪种方式都很好并且每次我想要这样做时都可以节省我查找构造函数的时间以上
如何通过 JavaScript 连接到我的 PHP 程序所在的服务器？

我正在编写一个 Android 应用程序并且已经有一个用 HTML 和 PHP 编写的工作程序使用这两者他们通过用户在 html 页面上自定义的查找来联系 API 然后将其发送到 PHP 页面通过自定义搜索联系 API 获取结果然
JavaScript 中的原型和构造函数（简单英语）？

JavaScript 是世界上最容易被误解的语言 D Crockford 我的问题用简单的英语描述构造函数和原型使用原型需要什么是什么purpose后面使用原型和构造函数我的意思是他们提供更多灵活性我问这个是因为我一直在使用这
Eclipse：无法连接到远程虚拟机。连接被拒绝。 [复制]

这个问题在这里已经有答案了当我尝试启动 Eclipse 调试对于服务器端代码时我收到以下错误无法连接到远程虚拟机连接被拒绝可能是什么问题我已经尝试过网络上的大多数解决方案但都没有解决我的问题任何人都可以帮助我解决这个问题吗
Android Studio 创建一个不包括 jniLibs 的构建变体/类型？

我有一个使用本机 JNI 库的 Android 应用程序我把它放入app src main jniLibs armeabi v7a无需任何 gradle 配置 Android studio 很乐意将其捆绑到 APK 中我有一个要求即所
每 x 秒使用 React 轮询一次 API

我必须每隔一两秒监视屏幕上的一些数据更新信息我认为使用此实现的方式 componentDidMount this timer setInterval gt this getItems 1000 componentWillUnmount t
未解析的参考：从内部类访问 SplashScreen 时 this@SplashScreen

我正在尝试从内部类访问 SplashScreen 活动如下所示但我无法解决这个 SplashScreen class SplashScreen AppCompatActivity override fun onCreate savedI
在 WinForms 上使用 TPL 进行并行编程

我尝试在 WinForms NET 4 0 上使用 TPL 我遵循this http blogs msdn com b csharpfaq archive 2010 06 01 parallel programming in net fra
使用 sed 在 xml 文件中查找并替换

我需要查找并替换特定 xml 元素的值条件如下元素的值enabled必须从0 to 1 enabled必须是一个孩子somenode element 我的测试 xml 如下所示
PySpark DataFrame：自定义爆炸函数

如何使用udfs实现自定义爆炸功能以便我们可以获得有关项目的额外信息例如除了项目之外我还想要项目的索引我不知道该怎么做的部分是当 udf 返回多个值时我们应该将这些值放置为单独的行如果您需要自定义爆炸函数那么您需要编写获取数

PySpark DataFrame：自定义爆炸函数

PySpark DataFrame：自定义爆炸函数 的相关文章

随机推荐

热门标签

PySpark DataFrame：自定义爆炸函数的相关文章