在 Spark UDF 中操作数据帧

2023-12-04

我有一个 UDF，可以从数据帧中过滤和选择值，但它遇到“对象不可序列化”错误。详细信息如下。

假设我有一个数据框 df1 ，其中包含名称为（“ID”，“Y1”，“Y2”，“Y3”，“Y4”，“Y5”，“Y6”，“Y7”，“Y8”，“Y9”的列”，“Y10”）。我想根据另一个数据帧 df2 中匹配的“ID”和“值”对“Y”列的子集进行求和。我尝试了以下方法：

val y_list = ("Y1", "Y2", "Y3", "Y4", "Y5", "Y6", "Y7", "Y8", "Y9", "Y10").map(c => col(c))

def udf_test(ID: String, value: Int): Double = {
  df1.filter($"ID" === ID).select(y_list:_*).first.toSeq.toList.take(value).foldLeft(0.0)(_+_)
}
sqlContext.udf.register("udf_test", udf_test _)

val df_result = df2.withColumn("Result", callUDF("udf_test", $"ID", $"Value"))

这给了我以下形式的错误：

java.io.NotSerializableException: org.apache.spark.sql.Column
Serialization stack:
- object not serializable (class: org.apache.spark.sql.Column, value: Y1)

我查了一下，发现 Spark Column 是不可序列化的。我想知道：

1) 有什么方法可以在 UDF 中操作数据帧吗？

2）如果不是，实现上述操作类型的最佳方法是什么？我的真实案例比这更复杂。它要求我根据大数据帧中的某些列从多个小数据帧中选择值，然后计算回大数据帧的值。

我使用的是 Spark 1.6.3。谢谢！

您不能在 UDF 内使用数据集操作。 UDF 只能操作现有列并生成一个结果列。它不能过滤数据集或进行聚合，但可以在过滤器内部使用。 UDAF 还可以聚合值。

相反，您可以使用.as[SomeCaseClass]从 DataFrame 生成数据集，并在过滤器、映射、归约中使用普通的强类型函数。

编辑：如果你想将你的bigDF与smallDFs列表中的每个小DF一起加入，你可以这样做：

import org.apache.spark.sql.functions._
val bigDF = // some processing
val smallDFs = Seq(someSmallDF1, someSmallDF2)
val joined = smallDFs.foldLeft(bigDF)((acc, df) => acc.join(broadcast(df), "join_column"))

broadcast是给小DF添加Broadcast Hint的功能，这样小DF会使用更高效的Broadcast Join而不是Sort Merge Join

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

DataFrame

apachesparksql

在 Spark UDF 中操作数据帧的相关文章

K均值||用于 Spark 上的情感分析

我正在尝试编写基于Spark的情感分析程序为此我使用了 word2vec 和 KMeans 聚类从 word2Vec 我在 100 维空间中得到了 20k 个单词向量集合现在我正在尝试对这个向量空间进行聚类当我使用默认并行实现运
以最小的内存占用拆分大型 Pandas 数据帧

我有一个大的 DataFrame 我想将其分成一个测试集和一个用于模型构建的训练集但是我不想复制 DataFrame 因为我已达到内存限制是否有一个类似于 pop 的操作但对于一个大段它会同时删除 DataFrame 的一部分并允
为什么我必须明确告诉 Spark 要缓存什么？

在 Spark 中每次我们对 RDD 执行任何操作时都会重新计算 RDD 因此如果我们知道 RDD 将被重用我们应该显式地缓存 RDD 比方说 Spark 决定延迟缓存所有 RDD 并使用 LRU 自动将最相关的 RDD 保留在内存
dplyr 更改许多数据类型

我有一个数据框 dat lt data frame fac1 c 1 2 fac2 c 4 5 fac3 c 7 8 dbl1 c 1 2 dbl2 c 4 5 dbl3 c 6 7 要更改数据类型我可以使用类似的东西 l1 lt c f
如何创建两个 pandas DataFrame 列的字典

组织以下 pandas Dataframe 的最有效方法是什么 data Position Letter 1 a 2 b 3 c 4 d 5 e 进入字典就像alphabet 1 a 2 b 3 c 4 d 5 e In 9 pd Seri
使用滚动标准差检测 Pandas 数据框中的异常值

我有一个用于快速傅立叶变换信号的数据帧一列表示以 Hz 为单位的频率另一列表示相应的幅度我读过几年前发表的一篇文章您可以使用一个简单的布尔函数来排除或仅包含最终数据框中高于或低于几个标准差的异常值 df pd DataFrame D
使用 pySpark 在 Azure Databricks 中使用来自 EventHub 的事件

我可以看到 Spark 连接器和使用 Azure Databricks 中的 Scala 从事件中心消费事件的指南但是我们如何使用 pySpark 从 azure databricks 消费事件中心中的事件任何建议文档详细信息都会有
Pandas DataFrame：根据条件替换列中的所有值

我有一个简单的 DataFrame 如下所示 Team First Season Total Games 0 Dallas Cowboys 1960 894 1 Chicago Bears 1920 1357 2 Green Bay Pac
有没有办法编辑此函数以将数字添加到同一列？

我有这个函数可以将整数添加到现有的数据帧中它获取我的整数并将它们作为一列转置到数据框中当我添加一列较短值时行将自动分配为 0 当我添加另一列长度较长时所有现有的较短长度列都会添加 0 使其与最长列的长度相同例如 Function
如何向多重索引添加级别？

index np array foo foo qux np array a b a data np random randn 3 2 columns X Y df pd DataFrame data index index columns
用于在 pyspark 中处理大数的数据类型

我将 Spark 与 python 一起使用上传 csv 文件后我需要解析 csv 文件中的一列其中包含 22 位数字长的数字为了解析我使用的列长类型我使用 map 函数来定义列以下是我在 pyspark 中的命令 gt gt
为什么 `pandas.read_csv` 不是 `pandas.DataFrame.to_csv` 的倒数？

我觉得很奇怪pandas read csv不是直接倒数函数df to csv 在此图中请注意在使用所有默认设置时原始 DataFrame 和最终 DataFrame 之间的未命名列有何不同 In 1 import pandas as
根据连续行值差异拆分数据框

我有一个这样的数据框 df col1 col2 col3 1 2 3 2 5 6 7 8 9 10 11 12 11 12 13 13 14 15 14 15 16 现在我想当两个连续行的 col1 差异大于 1 时从上面创建多个数据框所
在 R 中编写每列具有不同小数位数的数据框

我需要生成一个 dataframe 或 data table 其中每列具有不同的小数位数例如 Scale Status 1 874521 1 需要以 CSV 格式打印为 Scale Status 1 874521 1 000 正如我所尝试
Scala Spark：将数据框中的双列转换为日期时间列

我正在尝试编写代码来将日期时间列 date 和 last updated date 转换为 mm dd yyyy 格式以进行显示它们实际上是 unix 时间转换为双精度数我该怎么做呢 import org joda time impor
从 Pandas 的 DatetimeIndex 中创建月份和年份的列表

我有一个信息数据框我将索引设置为接收的日期和时间现在我想要一个清单我设置 df 索引这样做 df index pd to datetime df index format m d Y H M 这给了我这个 print df index
Spark 写入 S3 V4 SignatureDoesNotMatch 错误

我遇到S3SignatureDoesNotMatch尝试使用 Spark 将 Dataframe 写入 S3 时症状尝试过的事情代码失败有时但有效有时代码可以read从 S3 没有任何问题并且能够不时写入 S3 这排除了错误的配置
Spark中DataFrame、Dataset、RDD的区别

我只是想知道有什么区别RDD and DataFrame Spark 2 0 0 DataFrame 只是一个类型别名Dataset Row 在阿帕奇火花你能将其中一种转换为另一种吗首先是DataFrame是从SchemaRDD 是的
Zeppelin：如何在 zeppelin 中重新启动 SparkContext

我正在使用 zeppelins Spark 解释器的隔离模式在这种模式下它将为 Spark 集群中的每个笔记本启动一项新工作我想在笔记本执行完成后通过 zeppelin 终止该作业为此我做了sc stop这停止了 sparkCont
Spark错误：无效的日志目录/app/spark/spark-1.6.1-bin-hadoop2.6/work/app-20161018015113-0000/3/

我的 Spark 应用程序因上述错误而失败实际上我的 Spark 程序正在将日志写入该目录 stderr 和 stdout 都被写入所有工作人员我的程序以前运行良好但昨天我将 fodler 更改为指向 SPARK WORKER DIR

随机推荐

在 MVC6 中创建自定义模型绑定器的正确方法是什么？

我正在尝试按照中的步骤操作本文使用 vNext 项目和 mvc 6 我一直在阅读代码here但仍然有点不确定如何实现这一点有没有人有一个可以分享的可行示例或为我指明正确的方向我特别想知道如何注册自定义绑定器以及我将从哪些类继承因为
具有不同数据类型答案的调查的 SQL 设计

我正在开展一项在线调查大多数问题的答案等级为 1 5 如果我们需要向调查添加问题我会使用一个简单的 Web 表单该表单会插入到相应的表中瞧调查提出了新问题没有新代码或对数据库结构进行更改我们被要求添加可以有不同数据类型答案的调
如何保存Jenkins配置？

有没有办法在 Git 或其他任何地方保存管道配置或项目配置以便当我的 Jenkins 机器崩溃时我可以将保存的配置迁移到新的 Jenkins 实例中我会作为开始让自己 https wiki jenkins io display J
有没有一个库可以模拟 facebook 的“Link Detect”？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心以获得指导我正在寻找编写一个库可以
寻找有 2 个点的向量

我正在帮助我的朋友玩 pygame 但我们被困住了所以我们正在尝试获取射弹的方向但我们不知道如何获取例如 1 1 将走向东南 1 1 将走向 NE 1 1 将走向西北和 1 1 将去 SW 我们需要某种方程来获取玩家位置和鼠标位置并
从 Google Assistant 启动我的应用程序（如果有）

要求是如果用户命令 GA 启动我的 Android 应用程序查找附近的麦当劳餐厅其中 McDonald 是应用程序名称由于用户没有提及他她想要在 McDonald 应用程序中进行搜索因此应用程序无法使用定义的意图过滤器来处理明确的意图
NSTimer 不会失效

我在使计时器失效时遇到问题 property nonatomic strong NSTimer timer 在成功的块内我在主线程上分配和设置计时器 dispatch async dispatch get main queue self
Mongoose（或 MongoDB）中的 TransientTransactionError 是什么？

I have server js and db js The db js文件使用 Mongoose 与我的数据库交互我使用server js从中调用函数db js var mongoose require mongoose mongoos
Cassandra Datastax 驱动程序在访问器上设置分页状态

我正在使用 Datastax 可爱的 cassandra java 驱动程序我试图将所有查询字符串封装到内置访问器中以进行映射但我需要能够设置查询的分页状态我发现这可以通过普通的语句 SimpleStatement 实现但我还没有找
如何以Google方式隐藏库源代码？

例如我有一个library我想保护源代码不被查看我想到的第一个方法是为私有函数创建公共包装器如下所示 function executeMyCoolFunction param1 param2 param3 return execute
如何在xslt中提取这种格式

我有一个 xml 结构
Bash 故障排除：不是有效的标识符

初学者试图让管道在 bash 中工作如果有人能明白为什么当我运行以下命令时我会得到 bash i not a valid identifier 这真的很有帮助另外如果还有其他错误请告诉我 for i in home regionstex
Postgres 9.4 Django 1.9 获取所有 json 键

我在 django 模型中有一个 JSONField 如下所示 from django db import models from django contrib postgres fields import JSONField class
JBoss / HotSpot JVM 崩溃

我们有一个基于 Jboss 构建的 Web 应用程序已经投入生产多年在过去的 18 个月里它从未下降过然而最近两天 jvm崩溃了4次当 JVM 崩溃时我们会收到一份我正在努力解读的错误报告我看过其他几个崩溃报告在这个网站和
Keras 中的自定义损失函数

我正在研究一种图像类增量分类器方法使用 CNN 作为特征提取器和全连接块进行分类首先我对 VGG 训练网络进行了微调以完成新任务一旦网络针对新任务进行了训练我就会为每个类别存储一些示例以避免忘记新类别何时可用当某些类可用时我
从类路径资源文件夹获取文件列表？ [复制]

这个问题在这里已经有答案了我正在尝试从资源文件夹设置 JFX ImageView 图像但似乎无法获得不会引发异常的适当 URL 字符串文件路径 var x getRandomImageFromPackage pictures toStr
声明通用项数组时，如何允许推断通用参数？

我遇到的情况是我有一系列通用项目 Item 并且在项目本身内我希望推断和具体的通用参数也就是说我想要一组通用项目但每个项目都可以有不同的通用类型应该保留这一点 type Item
Python 套接字。 OSError: [Errno 9] 错误的文件描述符

这是我的客户 CLIENT import socket conne socket socket socket AF INET socket SOCK STREAM conne setsockopt socket SOL SOCKET soc
我在 addCase 中指定什么“类型”来返回列？

我正在尝试使用 case 语句进行查询但无法弄清楚如何让 case 返回列值而不是常量我的查询工作得很好除了我为结果提供的列名被 Cake 或者 PDO 引用或错误处理在我无法挖掘的层中的某处我已经了解了bindValue 但是我一
在 Spark UDF 中操作数据帧

我有一个 UDF 可以从数据帧中过滤和选择值但它遇到对象不可序列化错误详细信息如下假设我有一个数据框 df1 其中包含名称为 ID Y1 Y2 Y3 Y4 Y5 Y6 Y7 Y8 Y9 的列 Y10 我想根据另一个数据帧 df2

在 Spark UDF 中操作数据帧

在 Spark UDF 中操作数据帧 的相关文章

随机推荐

热门标签

在 Spark UDF 中操作数据帧的相关文章