Spark scala 数据框 udf 返回行

2024-03-06

假设我有一个数据框，其中包含一列（称为 colA），它是行的序列。我想向 colA 的每条记录附加一个新字段。（而且新的归档与之前的记录相关联，所以我必须写一个udf。）这个udf应该怎么写呢？

我尝试编写一个 udf，它以 colA 作为输入，并输出 Seq[Row]，其中每条记录都包含新字段。但问题是 udf 无法返回 Seq[Row]/ 例外是“不支持类型 org.apache.spark.sql.Row 的架构”。我应该怎么办？

我写的udf：val convert = udf[Seq[Row], Seq[Row]](blablabla...)例外是 java.lang.UnsupportedOperationException: 不支持类型 org.apache.spark.sql.Row 的架构

从 Spark 2.0 开始，您可以创建返回的 UDFRow / Seq[Row]，但您必须提供返回类型的架构，例如如果您使用双精度数组：

val schema = ArrayType(DoubleType)

val myUDF = udf((s: Seq[Row]) => {
  s // just pass data without modification
}, schema)

但我真的无法想象这在哪里有用，我宁愿从 UDF 返回元组或案例类（或其 Seq）。

编辑：如果您的行包含超过 22 个字段（元组/案例类的字段限制），这可能会很有用

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

userdefinedfunctions

Spark scala 数据框 udf 返回行的相关文章

如何最好地处理 Future.filter 谓词不满足类型错误

我喜欢 scala 的类型安全性但我不断遇到的一个运行时错误是 Future filter predicate is not satisfied 我知道为什么会出现此错误只是寻求有关如何最好地解决此错误并优雅地处理它的建议或者也许我做
Spark toLocalIterator 和迭代器方法之间的区别

在编写 Spark 程序时我遇到了这个toLocalIterator 方法之前我只使用iterator method 如果有人曾经使用过这种方法请点亮我在使用时遇到foreach and foreachPartitionSpark程序
如何使用 *non-case* 类通过 Scala 从 JSON 反序列化？

我正在编写一个 Scala 应用程序需要序列化和反序列化 JSON 某些 JSON 对象具有超过 22 个字段因此我无法使用案例类并且也无法更改格式我找到的所有 Scala JSON 库都只能轻松地与案例类一起使用而不是与普通
如何为每个用户或系统范围配置 Ivy 缓存目录？

我在用SBT http www scala sbt org 作为我构建 Scala 项目的构建工具我的问题是我无法配置 SBT 将依赖项下载到我的用户主目录因此我正在寻找每个用户甚至更好的系统范围设置来告诉 SBT 将 Ivy 缓存
将spark.local.dir设置为不同的驱动器

我正在尝试在 Windows 10 上设置独立 Spark 我想设置spark local dir to D spark tmp tmp 目前它似乎正在使用C Users
什么是 ZIO 错误通道以及如何了解要放入其中的内容？

ZIO https zio dev https zio dev 是一个 scala 框架其核心是ZIO R E A 数据结构及其站点给出了三个参数的以下信息 ZIO The ZIO R E A 数据类型具有三个类型参数 R 环境类型该效
具有定期更新的静态数据集的结构化流

将流媒体与静态数据集合并是结构化流媒体的一个重要功能但在每个批次中数据集都会从数据源刷新由于这些源并不总是那么动态因此在指定的时间段或批次数内缓存静态数据集会提高性能在指定的时间段批次数之后将从源重新加载数据集否则从缓存
在“GROUP BY”子句中重用选择表达式的结果？

在 MySQL 中我可以有这样的查询 select cast from unixtime t time Y m d H 00 as datetime as timeHour from some table t group by timeH
Scala 中的模式匹配是如何在字节码级别实现的？

Scala 中的模式匹配是如何在字节码级别实现的是不是像一系列if x instanceof Foo 构造还是其他什么它对性能有何影响例如给出以下代码来自Scala 示例 http www scala lang org docu
Spark JSON 文本字段到 RDD

我有一个 cassandra 表其中有一个名为 snapshot 的文本类型字段其中包含 JSON 对象 identifier timestamp snapshot 我了解到为了能够使用 Spark 对该字段进行转换我需要将该 RD
什么时候有2.13的sbt版本？

我想开发一个sbt插件其依赖项仅适用于斯卡拉2 13 我发现https github com sbt sbt issues 5032 https github com sbt sbt issues 5032这个列表 SBT 0 x 仅在 S
这是一种在 Akka FSM 中内部监视到第一个状态的转换的方法吗？

考虑从状态 Idle 开始的 FSM actor startWith Idle IdleData 我想监视到第一个状态的转换从无状态 I tried onTransition case gt Idle gt Wasn t called 根
Apache Spark 从 S3 读取异常：内容长度分隔消息正文过早结束（预期：2,250,236；收到：16,360）

我想从 S3 资源创建 Apache Spark DataFrame 我在 AWS 和 IBM S3 Clout 对象存储上尝试过都失败了 org apache spark util TaskCompletionListenerExcep
警告 ReliableDeliverySupervisor：与远程系统的关联失败，地址现已门控 [5000] 毫秒。原因：[已解除关联]

我正在 aws Spark 上运行以下句子 val sqlContext new org apache spark sql SQLContext sc import sqlContext implicits case class Wiki
将范围传递给 Excel 用户定义函数并将其分配给数组

我在尝试着通过两个范围多行单列 Excel 2007 中的用户定义函数然后将其分配给一个数组进行处理谁能告诉我如何将这样的范围分配给数组范围不是恒定的因为我在不同的单元格中使用 UDF 来处理不同的数据所以我不能使用 e g
将 PySpark 连接到 AWS Redshift 时出错

一直在尝试将我的 EMR 5 11 0 集群上的 Spark 2 2 1 连接到我们的 Redshift 存储我遵循的方法是使用内置的 Redshift JDBC pyspark jars usr share aws redshift
为什么这个 Clojure 程序在可变数组上运行如此慢？

剧透警告这是代码降临第六天的第一部分我试图解决this http adventofcode com day 6Clojure 和 Scala 中的问题 Scala 程序在我的 Macbook Air 上运行良好几秒钟内就完成了然
将结构数组分解为 Spark 中的列

我想将结构数组分解为列由结构字段定义例如 root arr array nullable true element struct containsNull true id long nullable false name string
如何在 Scala 中使用 Circe 解码 JSON 列表/数组

我有代码片段 cursor downField params downField playlist downField items as List Clip 其中 Clip 是字符串和数字的简单 case 类传入的 Json 应包含一个
如何在 Scala 用户定义注释中使用命名参数？

在下面的代码中我能够获得第一个注释对象 Publishable 但不能获得第二个第二个使用命名参数它转换为 x 2 x 3 x 1 作为 AST 中的参数我该如何正确地做到这一点 class Publishable val path

随机推荐

查询缓存效率

我正在使用 MySQLTuner pl 来优化我的网站尽管我不完全确定如何解决其中一些问题并且想知道是否有人可以帮助我我运行 16GB RAM MySQL 设置如下 key buffer 1024M max allowed packe
C# 按值复制数组

我有一个类型数组MyType types 我想制作这个数组的独立副本我试过这个 MyType types2 new MyType types Length types2 types 但这会创建对第一个的引用然后我尝试了 Array Co
在 QTextEdit 中激活光标

我无法找到一种方法来激活 QTextEdit 内的光标而无需在实际的小部件内单击我想要做的是在 QTextEdit 窗口中键入一些内容单击 QPushButton 并使光标在 QTextEdit 中保持活动状态而无需再次单击窗口
如何在 Xcode 4.0 中使用编译源？

在 Xcode 3 0 中您可以使用组和文件面板中的项目目标来删除不需要的依赖文件以下是说明单击目标旁边的箭头直到在组和文件面板中将其展开单击 xauth 旁边的箭头单击编译源删除以下 YAJL 依赖文件在
引导标准错误位于引导类中的什么位置？

考虑以下引导程序 library MASS library boot c set seed 1 boot fn function data index mean data index output boot Boston medv boot
如何用 South 重命名外键字段？

重命名一个简单的 charfield 等似乎很容易 Django 如何使用 South 重命名模型字段 https stackoverflow com questions 3235995 django how to rename a mod
Django admin：如何格式化只读字段？

我有一个模型 Director有两个 DateFields 和两个子类代码如下我正在尝试为每个主管创建一个管理页面其中显示相应的子类实例而不是Director实例这部分很简单我为每个子类创建一个内联给主 ModelAdmin
交货天数和交货订单数分在两个单独的列中。有没有办法获得有关订单的汇总统计信息？

我在解释这一点时遇到了一些困难所以请耐心等待我对使用 Excel 也很陌生所以如果有一个简单的修复方法我提前道歉 I have two columns one listing number of days starting from
使用 xmlrpc 和 jQuery 创建 WordPress 帖子

我有一个动态页面用户可以在其中填写一些字段这些用户都将在 WordPress 博客上拥有一个帐户我想让他们直接将网页生成的内容发布到博客上我不想将他们的密码存储在服务器中因此我想使用 JQuery 在客户端执行此操作我已经看过标
变量声明中的逗号是什么意思？

我在中找到了这个includes parser Parser phpMediaWiki PHP 源代码 public function replaceInternalLinks2 s global wgExtraInterlanguageL
如何在 Fog 中使用文件上传 S3 元数据？

我努力了 my directory files create key key body body metadata custom x And my directory files create key key body body custo
android 地图 v2 自定义叠加层在缩放时消失

当 MapTiler 生成的地图缓存中不包含缩放级别时 Android Maps v2 不会显示地图我的理解是 Android 地图 v2 将使用给定图块缓存可用的最高缩放级别那么为什么它要隐藏该图层呢仔细检查这是因为我实现的图块提
Pytest版本冲突错误

更新 Debian Jessie 后 pytest 无法工作 py test Traceback most recent call last File usr bin py test line 5 in
如何在intellij中运行spring boot应用程序？

我想在 intellij idea 中运行演示 spring boot 应用程序但出现错误 Error 3 32 java package org springframework boot does not exist My pom xm
非平面图的平面化算法

是否有一种流行的非平面图平面化算法我目前正计划在 Boost Boost Graph Library 中为无向图实现正交平面布局算法 BGL 有一个实现来检查无向图的平面性 Boyer Myrvold 平面性测试我计划使用此方法返回的平
在 Mongoose 模式上保存数组属性

我有一个猫鼬对象架构类似于以下内容 var postSchema new Schema imagePost images url String text String 我正在尝试使用以下内容创建新帖子 var new post new P
整数超出范围且剩余磁盘空间太小无法将id转换为bigint等解决方案

When I insert我正进入状态integer out of range因为我的 id 主键被错误地创建为int代替bigint or bigserial 我试过 ALTER TABLE tbl ALTER COLUMN id TY
为什么 HTML/JavaScript/CSS 不是编译语言，而且它们将来会是编译语言吗？

为什么 HTML JavaScript CSS 没有成为编译语言或者甚至合并为单一编译语言如果浏览器运行浏览器虚拟机并且 html javascript css 源可以编译为浏览器字节码会怎样是不是对开发者和用户都有很大的帮助
jQuery 是否有类似 :any 或 :matches 伪类的东西？

我想简化我的选择器 a b a href mailto c d a href mailto To matches a b c d a href mailto 仅使用 jQuery 选择器可以实现这一点吗或者我必须这样做 a b c d f
Spark scala 数据框 udf 返回行

假设我有一个数据框其中包含一列称为 colA 它是行的序列我想向 colA 的每条记录附加一个新字段而且新的归档与之前的记录相关联所以我必须写一个udf 这个udf应该怎么写呢我尝试编写一个 udf 它以 colA 作为输入并

Spark scala 数据框 udf 返回行

Spark scala 数据框 udf 返回行 的相关文章

随机推荐

热门标签

Spark scala 数据框 udf 返回行的相关文章