Spark DataFrame 中将 null 值转换为空数组

2024-03-13

我有一个 Spark 数据框，其中一列是整数数组。该列可以为空，因为它来自左外连接。我想将所有空值转换为空数组，这样以后就不必处理空值了。

我想我可以这样做：

val myCol = df("myCol")
df.withColumn( "myCol", when(myCol.isNull, Array[Int]()).otherwise(myCol) )

但是，这会导致以下异常：

java.lang.RuntimeException: Unsupported literal type class [I [I@5ed25612
at org.apache.spark.sql.catalyst.expressions.Literal$.apply(literals.scala:49)
at org.apache.spark.sql.functions$.lit(functions.scala:89)
at org.apache.spark.sql.functions$.when(functions.scala:778)

显然数组类型不受支持when功能。还有其他简单的方法来转换空值吗？

如果相关的话，这里是该列的架构：

|-- myCol: array (nullable = true)
|    |-- element: integer (containsNull = false)

您可以使用 UDF：

import org.apache.spark.sql.functions.udf

val array_ = udf(() => Array.empty[Int])

结合WHEN or COALESCE:

df.withColumn("myCol", when(myCol.isNull, array_()).otherwise(myCol))
df.withColumn("myCol", coalesce(myCol, array_())).show

In the 最新版本您可以使用array功能：

import org.apache.spark.sql.functions.{array, lit}

df.withColumn("myCol", when(myCol.isNull, array().cast("array<integer>")).otherwise(myCol))
df.withColumn("myCol", coalesce(myCol, array().cast("array<integer>"))).show

请注意，只有从以下位置转换时，它才会起作用string允许更改为所需的类型。

当然，同样的事情也可以在 PySpark 中完成。对于遗留解决方案，您可以定义udf

from pyspark.sql.functions import udf
from pyspark.sql.types import ArrayType, IntegerType

def empty_array(t):
    return udf(lambda: [], ArrayType(t()))()

coalesce(myCol, empty_array(IntegerType()))

在最近的版本中只需使用array:

from pyspark.sql.functions import array

coalesce(myCol, array().cast("array<integer>"))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

DataFrame

apachesparksql

apachespark15

Spark DataFrame 中将 null 值转换为空数组的相关文章

Spark Scala：按小时或分钟计算两列的 DateDiff

我在数据框中有两个时间戳列我想获取它们的分钟差异或者小时差异目前我可以通过四舍五入获得日差 val df2 df1 withColumn time datediff df1 ts1 df1 ts2 但是当我查看文档页面时https
如何从 Databricks Delta 表中删除列？

我最近开始发现 Databricks 并遇到了需要删除增量表的特定列的情况当我使用 PostgreSQL 时它就像 ALTER TABLE main metrics table DROP COLUMN metric 1 我正在浏览 Da
Pandas DataFrame：如何计算组中第一行和最后一行的差异？

这是我的熊猫数据框 import pandas as pd import numpy as np data column1 338 519 871 1731 2693 2963 3379 3789 3910 4109 4307 4800 4
AttributeError：“DataFrame”对象没有属性“ix”

当我尝试使用 pandas 数据框的 ix 属性拉出列时出现此错误例如df ix col header AttributeError DataFrame object has no attribute ix 该脚本今天早上有效但今天下
列对象不可调用 Spark

我尝试安装 Spark 并运行教程中给出的命令但出现以下错误 https spark apache org docs latest quick start html https spark apache org docs latest q
根据条件计算平均值

下面是我的数据框 Row ID A B 1 0 0 2 0 0 3 0 0 4 0 1 5 0 1 6 0 1 7 62 75 0 8 100 0 9 100 0 10 100 1 11 100 1 12 100 1 13 100 1 14
如何通过sparkSession向worker提交多个jar？

我使用的是火花2 2 0 下面是我在 Spark 上使用的 java 代码片段 SparkSession spark SparkSession builder appName MySQL Connection master spark ip
如何根据 Pyspark 中另一列的表达式评估有条件地替换列中的值？

import numpy as np df spark createDataFrame 1 1 None 1 2 float 5 1 3 np nan 1 4 None 0 5 float 10 1 6 float nan 0 6 floa
检索除指定一列之外的所有 DataFrame [重复]

这个问题在这里已经有答案了有没有办法选择 pandas DataFrame 对象中除一列之外的所有列我已经看到了删除列的方法但我不想这样做 use drop method df drop column name axis 1
通过删除连续的重复项来减少字符串长度

我有一个包含 2 个字段的 R 数据框 ID WORD 1 AAAAABBBBB 2 ABCAAABBBDDD 3 我想通过仅保留字母而不是重复中的重复项来简化具有重复字母的单词 e g AAAAABBBBB应该给我AB and ABCAA
如何将模型结果保存到文本文件？

我正在尝试将从模型生成的频繁项集保存到文本文件中该代码是 Spark ML 库中 FPGrowth 示例的示例 Using saveAsTextFile直接在模型上写入 RDD 位置而不是实际值 import org apache spa
在 pandas 数据框中按列应用 Seaborn 热图

我试图在枢轴熊猫数据帧上使用seaborn的热图就像在超链接中一样有效 df pd DataFrame np random randint 1 100 size 3 2 df columns A B df sns heatmap df a
如何读取一次流数据集并输出到多个接收器？

我有 Spark 结构化流作业它从 S3 读取数据转换数据然后将其存储到一个 S3 接收器和一个 Elasticsearch 接收器目前我正在做readStream一次然后writeStream format start 两次这
Unpivot Pandas 数据

我目前有一个DataFrame布置为 Jan Feb Mar Apr 2001 1 12 12 19 2002 9 2003 我想将数据逆透视使其看起来像 Date Value Jan 2001 1 Feb 2001 1 Mar 200
从受密码保护的 Excel 文件到 pandas DataFrame

我可以使用以下命令打开受密码保护的 Excel 文件 import sys import win32com client xlApp win32com client Dispatch Excel Application print Exce
如何使用 Spark 2 屏蔽列？

我有一些表我需要屏蔽其中的一些列要屏蔽的列因表而异我正在读取这些列application conf file 例如对于员工表如下所示 id name age address 1 abcd 21 India 2 qazx 42 Ger
pyspark flatmat 错误：TypeError：“int”对象不可迭代

这是我书中的示例代码 from pyspark import SparkConf SparkContext conf SparkConf setMaster spark chetan ThinkPad E470 7077 setAppNam
Spark：如何使用crossJoin

我有两个数据框 df1有 100000 行并且df2有 10000 行我想创建一个df3这是两者的交叉连接 val df3 df1 crossJoin df2 这将产生 10 亿行尝试在本地运行它但似乎需要很长时间您认为本地可以实现
删除 R 中具有重复属性的行

我有一个大数据框其中包含以下列 ID time OS IP 该数据帧的每一行对应一个条目在该数据框中对于某些IDs存在多个条目行我想删除这些多行显然同一 ID 的其他属性会有所不同或者换句话说我只想要每个 ID 一个条目行
如何仅注释堆积条形图的一个类别

我有一个数据框示例如下所示 data Date 2021 07 18 2021 07 19 2021 07 20 2021 07 21 2021 07 22 2021 07 23 Invalid NaN 1 1 NaN NaN NaN N

随机推荐

Rust 0.13 中大型固定大小数组的堆栈溢出

我希望与 Rust 专家验证这个简单的 Rust 程序 Linux x86 64 系统上的 rustc 0 13 0 nightly the runtime error is task
如何在gridview中动态添加的文本框上触发textboxchanged事件

在我的项目中我可以在gridview中动态添加n个文本框我的问题是如果用户更改 gridview 任何行中任何文本框的文本我想触发 textboxchanged 事件 HTML 代码
numpy：将 (n,) 数组转换为 (n, 1) 数组的语法/习惯用法？

我想投射一个 numpyndarray形状物体 n 变成具有形状 n 1 我想出的最好的方法是推出我自己的 to col 函数 def to col a return a reshape a size 1 但我很难相信这样一个普遍存在的操作
Eclipse - Builder 到底是什么？

我不明白CDT中的构建器到底是什么与 C C Build 内容有什么关系我在 C C Build 配置中设置了SCons 它确实有效我做了两个配置发布和调试并且启动了我的 SCons 脚本但当我现在尝试调试时我正在研究这些 B
在 for 循环中动态创建文本框

我试图动态创建一个表格并将文本框放入其中在下面的代码中我试图为每个 k 创建一个具有不同名称的文本框但文本框中仅显示 k 的最后一个值我想知道如何为文本框命名以便显示所有内容 for int k 0 k lt tblCols k T
在c#中调用带参数的存储过程

我能够在程序中删除插入和更新并且尝试通过从数据库调用创建的存储过程来执行插入我制作的这个按钮插件效果很好 private void btnAdd Click object sender EventArgs e SqlConnectio
处理 Airflow DAG 随着时间的变化（DAG 版本控制）

我们有相对复杂的动态 DAG 作为 ETL 的一部分 DAG 包含数百个转换它是基于一组 yaml 文件以编程方式创建的它随着时间的推移而发生变化添加新任务任务执行的查询发生变化甚至任务之间的关系也发生变化我知道每次以这种方式更
tee stdout 和 stderr 来分隔文件，同时将它们保留在各自的流上

我正在尝试编写一个脚本其本质上充当非交互式命令创建的所有输出的直通日志而不影响命令到其他进程的输出也就是说 stdout 和 stderr 应该看起来像没有运行过我的命令一样为此我尝试将 stdout 和 stderr 分别重
多列上的 Pandas 数据框布尔掩码

我有一个数据框 df 其中包含具有实际测量值的几列以及相应数量的列 A B 其中每列具有不确定性 dA dB A B dA dB 0 1 3 0 31 0 08 1 2 4 0 263 0 357 2 5 5 0 382 0 397 3 4
是否可以将所有适配器配置保存在 IBM MFP 的一个文件中

我在我的 Maven 项目中使用 JavaScript HttpAdapter 我遇到一种情况我的客户希望有多个 HttpAdapter 作为adapter xml 文件的一部分这是我以前没有尝试过的一个文件中是否可以有多个适配器配置
Multiselectlistpreference android 检索值

我试图检索这些值但不知何故我得到了更多的值这是我正在运行的代码有人知道我做错了什么吗我确实在很多地方搜索过但大多数都已经过时了我检查了第2项和第3项只是为了确保我只想读出列表中选定的复选框但我不知道 0 1 2 123 来自
所有 WordPress 文件都被黑客入侵。如何去除编码注入？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案一位朋友让我查一下为什么他的 WordPress 网站根本无法运行结果发现它被黑了在所有 PHP 文件的开头都会注入一个编码字符串如下所示 ze
如果将 NULL 和大小 0 传递给 realloc() 会怎样？

行为实现是否已定义如果 NULL 且 size 0 被传递给realloc int main void int ptr NULL ptr realloc ptr 0 if ptr NULL printf realloc fails n g
为什么该程序的 F# 版本比 Haskell 版本快 6 倍？

Haskell版本 1 03s module Main where import qualified Data Text as T import qualified Data Text IO as TIO import Control Mo
strcat 分段错误

第二次致电strcat这里产生了分段错误为什么 include
Rails Active Storage 本地附件因神秘错误而失败：未初始化常量可分析

红宝石 2 7 1 rails 6 0 3 2 我无法使本地活动存储附件正常工作这是我的设置我跑了 rails active storage install rake db migrate 模型架构 create table amazo
在字符串和冒泡排序上使用 charAt() 方法[重复]

这个问题在这里已经有答案了我试图对字符串进行冒泡排序但出现以下错误 MyClass java 13 error unexpected type str1 charAt i 1 str1 charAt i required variabl
在 Jetpack Compose 中显示自定义警报对话框

我正在搜索如何在 Jetpack Compose 中创建自定义对话框在 XML 或 Material Design 中我们可以轻松创建自定义对话框在其中我们可以接受用户输入单选按钮等但我在 Jetpack Compose 中没有找
mobile safari 如何确定何时提示用户共享位置？

我有一个移动网络应用程序我想跟踪用户的最新位置但前提是他们位于某个区域但是 iPhone 上出现过多的提示有点麻烦有一些位置初始化代码大致如下 if firstTime navigator getCurrentPosition f
Spark DataFrame 中将 null 值转换为空数组

我有一个 Spark 数据框其中一列是整数数组该列可以为空因为它来自左外连接我想将所有空值转换为空数组这样以后就不必处理空值了我想我可以这样做 val myCol df myCol df withColumn myCol whe

Spark DataFrame 中将 null 值转换为空数组

Spark DataFrame 中将 null 值转换为空数组 的相关文章

随机推荐

热门标签

Spark DataFrame 中将 null 值转换为空数组的相关文章