PySpark 用数组替换 Null

2024-05-07

通过 ID 连接后，我的数据框如下所示：

ID  |  Features  |  Vector
1   | (50,[...]  | Array[1.1,2.3,...]
2   | (50,[...]  | Null

我最终得到“向量”列中某些 ID 的空值。我想用 300 维的零数组替换这些 Null 值（与非空向量条目的格式相同）。 df.fillna 在这里不起作用，因为它是我想插入的数组。知道如何在 PySpark 中实现这一点吗？

- -编辑 - -

类似于这个帖子 https://stackoverflow.com/questions/41531108/python-spark-dataframe-replace-null-with-sparsevector?rq=1我目前的做法：

df_joined = id_feat_vec.join(new_vec_df, "id", how="left_outer")

fill_with_vector = udf(lambda x: x if x is not None else np.zeros(300),
                                 ArrayType(DoubleType()))

df_new = df_joined.withColumn("vector", fill_with_vector("vector"))

不幸的是收效甚微：

org.apache.spark.SparkException: Job aborted due to stage failure: Task 0in stage 848.0 failed 4 times, most recent failure: Lost task 0.3 in stage 848.0 (TID 692199, 10.179.224.107, executor 16): net.razorvine.pickle.PickleException: expected zero arguments for construction of ClassDict (for numpy.core.multiarray._reconstruct)
---------------------------------------------------------------------------
Py4JJavaError                             Traceback (most recent call last)
<ipython-input-193-e55fed27fcd8> in <module>()
      5 a = df_joined.withColumn("vector", fill_with_vector("vector"))
      6 
----> 7 a.show()

/databricks/spark/python/pyspark/sql/dataframe.pyc in show(self, n, truncate)
    316         """
    317         if isinstance(truncate, bool) and truncate:
--> 318             print(self._jdf.showString(n, 20))
    319         else:
    320             print(self._jdf.showString(n, int(truncate)))

/databricks/spark/python/lib/py4j-0.10.4-src.zip/py4j/java_gateway.py in __call__(self, *args)
   1131         answer = self.gateway_client.send_command(command)
   1132         return_value = get_return_value(
-> 1133             answer, self.gateway_client, self.target_id, self.name)
   1134 
   1135         for temp_arg in temp_args:

更新：我无法获取 SQL 表达式形式来创建双精度数组。 'array(0.0, ...)' 似乎创建了 Decimal 类型的数组。但是，使用 python 函数，您可以让它正确创建双精度数组。

总体思路是使用 when/otherwise 函数有选择地仅更新您想要的行。您可以提前将所需的文字值定义为列，然后将其转储到“THEN”子句中。

from pyspark.sql.types import *
from pyspark.sql.functions import *

schema = StructType([StructField("f1", LongType()), StructField("f2", ArrayType(DoubleType(), False))])
data = [(1, [10.0, 11.0]), (2, None), (3, None)]

df = sqlContext.createDataFrame(sc.parallelize(data), schema)

# Create a column object storing the value you want in the NULL case
num_elements = 300
null_value = array([lit(0.0)] * num_elements)

# If you want a different type you can change it like this
# null_value = null_value.cast('array<float>')

# Keep the value when there is one, replace it when it's null
df2 = df.withColumn('f2', when(df['f2'].isNull(), null_value).otherwise(df['f2']))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Arrays

null

PySpark

PySpark 用数组替换 Null 的相关文章

如何从列表创建多维数组？

我在 MySQL 中有一个带有父 ID 的类别列表如何从列表中创建 PHP 数组 ID Category Parent ID 1 Car NULL 2 Education NULL 3 Mathematics 2 4 Physics 2
python array(10,1) 和 array(10,) 之间的区别

我正在尝试将 MNIST 数据集加载到数组中当我使用 X train y train X test y test mnist load data 我得到一个数组 y test 10000 但我希望它的形状为 10000 1 数组 1000
高效创建抗锯齿圆形蒙版

我正在尝试创建抗锯齿加权而不是布尔圆形掩模以制作用于卷积的圆形内核 radius 3 no of pixels to be 1 on either side of the center pixel shall be decimal a
如何在 Swift 中使用未知密钥解码 JSON 响应？

我想将数据拆分为https blockchain info ticker https blockchain info ticker这样每一行都是它自己的String在一个数组中我正在制作一个获取所选货币价格的应用程序因此如果有人想要澳
D 动态数组初始化、stride和索引操作

抱歉这成为了有关数组的三重问题我认为动态数组在 D 中确实很强大但以下问题已经困扰我一段时间了在 C 中我可以轻松地分配具有指定值的数组但在 D 中我还没有找到这样做的方法当然下面的内容是没有问题的 int a new
如何初始化一个最初大小未知的数组？

假设我有这个 int x int x State Determined By Program const char pArray const int x 在使用 pArray 之前如何初始化它因为Array的初始大小是由用户输入决定的 T
如何避免 ArrayIndexOutOfBoundsException 或 IndexOutOfBoundsException？ [复制]

这个问题在这里已经有答案了如果你的问题是我得到了java lang ArrayIndexOutOfBoundsException在我的代码中我不明白为什么会发生这种情况这意味着什么以及如何避免它这应该是最全面的典范 https me
char*str={"foo",...} 和 char str[][5]={"foo",...} 数组定义之间有什么区别？

Case 1 当我写作时 char str what is this then str i newstring 是有效的而str i j j 是无效的 Case 2 当我写作时 char str 5 what is this then s
更改API数据输出的布局

我是 API 集成和 PHP 的新手我最近将 VIN 解码器集成到我的应用程序中在输入框中输入车辆的 VIN 选择提交然后就会显示 API 数据库中有关该车辆的所有信息数据存储为关联数组其中包含类别及其相应元素例如对于 VIN
我可以让这个 Ruby 代码更快并且/或使用更少的内存吗？

我有一个Array of StringRuby 中的对象由如下单词组成 animals cat horse dog cat dog bird dog sheep chicken cow 我想将其转换为另一个Array of String对象
使用 Java 进行 MongoDB 查询。计算数组中的匹配项

我在 Mongo 中存储了类似于以下内容的数据 LIST NAME a VALUE z NAME b VALUE y NAME c VALUE x NAME d VALUE w NAME e VALUE v NAME f VALUE u N
如何测试 UITextField 是否为零？

我正在尝试制作我的应用程序的一部分如果该人不更改我的 UITextField 中的空白文本那么他她将无法继续下一步基本上我想测试 UITextField 的 nil 文本我已经使用了 if text 方法但是如果用户单击 UI
需要解释搜索最小大和的算法

我正在解决 Codility 问题作为练习但无法回答其中一个问题我在互联网上找到了答案但我不明白这个算法是如何工作的有人可以引导我逐步完成它吗这是问题 You are given integers K M and a non em
如何检查 BOOL 是否为空？

有没有办法在将值分配给 BOOL 之前检查该值是否为 NULL Nil 例如我在 NSDictionary 中有一个值可以是 TRUE FALSE NULL mySTUser current user following results
如何将一个变量的字符串分配给另一变量？

这是我在这个网站上的第一个问题如何将一个变量的字符串分配给另一变量我在这里做错了什么 include
将数组字段组合成单个数组字段 mongo

我正在使用 mongo 版本 3 4 3 我的文档存储在 mongo 中如下所示 id ObjectId 5ad5ab8aaf2808b739ba6ab2 ResumeId 105839064 ResumeDetails WorkProf
pyspark加入多个条件

我如何指定很多条件当我使用pyspark时 join 例子与蜂巢 query select a NUMCNT b NUMCNT as RNUMCNT a POLE b POLE as RPOLE a ACTIVITE b ACTIVIT
json_encode 返回 NULL？

由于某种原因项目描述返回NULL使用以下代码这是我的数据库的架构 CREATE TABLE staff id int 11 NOT NULL AUTO INCREMENT name longtext COLL
JNI 将 Char* 2D 数组传递给 JAVA 代码

我想从 C 代码通过 JNI 层传递以下指针数组 char result MAXTEST MAXRESPONSE 12 12 8 3 29 70 5 2 42 42 在java代码中我写了以下声明 public static native
将数组作为参数传递

如果我们修改作为方法内参数传递的数组的内容则修改是在参数的副本而不是原始参数上完成的因此结果不可见当我们调用具有引用类型参数的方法时会发生什么过程这是我想问的代码示例 using System namespace Value Re

随机推荐

Scala 中两个地图的交集和合并/连接

假设我有两张类似这样的地图 val m1 Map 1 gt One 2 gt Two 3 gt Three val m2 Map 2 gt 2 0 3 gt 3 0 4 gt 4 0 我想根据键获取交集并返回一个表示合并值的元组结果看起来
cout 可以以某种方式改变变量吗？

所以我有一个看起来像这样的函数 float function float x SomeValue return x SomeOtherValue 在某些时候这个函数会溢出并返回一个非常大的负值为了尝试准确追踪发生这种情况的位置我添加了
C++中exit和kill的区别

我已经编写了一个信号处理程序来处理SIG 如果我得到的进程太多我想终止该进程那么以下哪个代码更好或者我应该同时使用它们 exit 1 or some other exit code kill getpid SIGKILL 您可能不想
如何研究.NET 中的非托管内存泄漏？

我有一个通过 MSMQ 运行的 WCF 服务内存随着时间的推移逐渐增加表明存在某种内存泄漏我在本地运行该服务并使用 PerfMon 监视一些计数器 CLR 内存托管堆字节总数保持相对恒定而进程的私有字节随着时间的推移而增加这让我相
如何将现场 prestashop 站点移至本地主机？

我在将 PS 1 7 从服务器域传输到本地主机时遇到问题我已按照 Prestashop 文档中的文件传输的所有步骤进行操作我执行此步骤 1 将所有 prestashop 文件从服务器下载到我的 mac 并将其放入 mamp htdocs
iphone XMPP 应用程序运行后台

我使用 XMPP 框架创建了一个聊天应用程序当我退出应用程序进入后台模式时我想接收聊天消息并且还需要显示图标徽章我该怎么做您确实可以通过将基于 XMPP 框架的应用程序称为 VoIP 应用程序来在 iOS4 中的后台运行该应用
SBT - 运行任务来设置SettingKey

所以我的一般问题是我想根据任务的结果设置版本密钥但是版本密钥是在任务运行之前设置的据我了解一旦设置了键的值我就无法更改它因此我无法在我的任务中更改它我想要做的是将任务作为发布任务的依赖项运行并更改版本的值我觉得一定有办法做到这
从列表视图启动活动

您好我有一个列表视图我正在尝试通过以下方式从列表视图启动一项活动startActivity class java public class ll2 extends Activity public void onCreate Bundle
dplyr - 分组并选择 TOP x %

使用 dplyr 包和函数sample frac可以从每个组中抽取一定比例的样本我需要的是首先对每个组中的元素进行排序然后从每个组中选择前 x 有一个功能top n 但这里我只能确定行数并且我需要一个相对值例如以下数据按齿轮分组并
Python - 在和不在列表中语法错误

我正在尝试从另一个现有的浮点数列表构建一个新的浮点数列表通过示例更容易识别第一个列表的预期内容 price list 39 99 74 99 24 99 49 99 预期的后期功能 print new price list gt gt 2
java中filewriter的flush和close函数之间的区别

我需要知道Java中的flush和close函数之间的确切区别是什么当在写入文件期间将数据转储到文件中时请提供一个例子 flush just确保所有缓冲数据都写入磁盘在这种情况下更一般地说通过您正在使用的任何 IO 通道刷新之后
Windows 7 VM 上的 Android Studio 虚拟设备不兼容

我的计算机上有一个 VirtualBox VM 该 VM 运行 Windows 7 64 位我在该虚拟机上安装了 Android Studio 我只有基本的 Hello World 应用程序当我尝试运行 AVD 时我收到以下消息运行
java：在目录和子目录中根据文件名搜索文件

我需要根据目录树中的名称查找文件然后显示该文件的路径我发现了类似的东西但它根据扩展名进行搜索谁能帮助我如何根据我的需要重新编写这段代码谢谢 public class filesFinder public static void m
使用传感器方向

在我的应用程序中我想显示设备方向例如北南东西为此我使用加速度计和磁传感器并尝试使用以下代码 public class MainActivity extends Activity implements SensorEventLi
数据库被锁定？

我如何修复数据库锁因为我的测试没有通过它使同一类别中的一堆测试失败谢谢 1 UsersController GET edit should have a link to change the Gravatar Failure Erro
在 Go 中修改导入的库

我的问题弹性节拍 https www elastic co products beats是一个用 Go 编写的日志传送程序的开源项目它具有多种日志输出功能包括控制台 Elasticsearch 和 Redis 我想将我自己的输出添加到
使用 array.map 后如何运行函数？

我想做的是在使用 array map 之后运行一个函数理论上我应该能够在 array map 之后运行但是由于某种原因它在 array map 完成之前运行该函数我该如何解决这是我的代码 var channelIds chan
Android 地理围栏广播接收器

我已经使用 GoogleApiClient 实现了地理围栏 gt 触发时服务会连接到 GoogleApiClient 并添加多个地理围栏在我将另一个 IntentService 注册为地理围栏事件的回调之前这或多或少有效但仅限于
获取引用而不下载对象[重复]

这个问题在这里已经有答案了我想检查 origin master 是否与我的 HEAD 不同 I do not想要git fetch 因为它可能非常昂贵我滥用 git 的方式使得成本高得令人望而却步任何允许我从远程获取提交列表或顶部提交
PySpark 用数组替换 Null

通过 ID 连接后我的数据框如下所示 ID Features Vector 1 50 Array 1 1 2 3 2 50 Null 我最终得到向量列中某些 ID 的空值我想用 300 维的零数组替换这些 Null 值与非空向量条

PySpark 用数组替换 Null

PySpark 用数组替换 Null 的相关文章

随机推荐

热门标签