从 PySpark DataFrame 中的 Python 列表列表中删除元素

2023-11-27

我正在尝试从 Python 列表中删除一个元素：

+---------------+
|        sources|
+---------------+
|           [62]|
|        [7, 32]|
|           [62]|
|   [18, 36, 62]|
|[7, 31, 36, 62]|
|    [7, 32, 62]|

我希望能够删除一个元素，rm，来自上面列表中的每个列表。我编写了一个可以对列表列表执行此操作的函数：

def asdf(df, rm):
    temp = df
    for n in range(len(df)):
        temp[n] = [x for x in df[n] if x != rm]
    return(temp)

这确实删除了rm = 1:

a = [[1,2,3],[1,2,3,4],[1,2,3,4,5]]
In:  asdf(a,1)
Out: [[2, 3], [2, 3, 4], [2, 3, 4, 5]]

但我无法让它适用于 DataFrame：

asdfUDF = udf(asdf, ArrayType(IntegerType()))

In: df.withColumn("src_ex", asdfUDF("sources", 32))

Out: Py4JError: An error occurred while calling z:org.apache.spark.sql.functions.col. Trace:
py4j.Py4JException: Method col([class java.lang.Integer]) does not exist

期望的行为：

In: df.withColumn("src_ex", asdfUDF("sources", 32))
Out: 

+---------------+
|         src_ex|
+---------------+
|           [62]|
|            [7]|
|           [62]|
|   [18, 36, 62]|
|[7, 31, 36, 62]|
|        [7, 62]|

（除了将上面的新列附加到 PySpark DataFrame 之外，df)

有什么建议或想法吗？

火花 >= 2.4

您可以使用array_remove:

from pyspark.sql.functions import array_remove

df.withColumn("src_ex", array_remove("sources", 32)).show()

+---------------+---------------+
|        sources|         src_ex|
+---------------+---------------+
|           [62]|           [62]|
|        [7, 32]|            [7]|
|           [62]|           [62]|
|   [18, 36, 62]|   [18, 36, 62]|
|[7, 31, 36, 62]|[7, 31, 36, 62]|
|    [7, 32, 62]|        [7, 62]|
+---------------+---------------+

or filter:

from pyspark.sql.functions import expr

df.withColumn("src_ex", expr("filter(sources, x -> not(x <=> 32))")).show()

+---------------+---------------+
|        sources|         src_ex|
+---------------+---------------+
|           [62]|           [62]|
|        [7, 32]|            [7]|
|           [62]|           [62]|
|   [18, 36, 62]|   [18, 36, 62]|
|[7, 31, 36, 62]|[7, 31, 36, 62]|
|    [7, 32, 62]|        [7, 62]|
+---------------+---------------+

火花

有很多事情：

DataFrame不是一个列表列表。实际上，它甚至不是一个普通的 Python 对象，它没有len它不是Iterable.
你的专栏看起来很简单array type.
你无法参考DataFrame（或 UDF 内的任何其他分布式数据结构）。
直接传递给 UDF 调用的每个参数都必须是str（列名称）或Column目的。传递字面意义的使用lit功能。

唯一剩下的只是列表理解：

from pyspark.sql.functions import lit, udf

def drop_from_array_(arr, item):
    return [x for x in arr if x != item]

drop_from_array = udf(drop_from_array_, ArrayType(IntegerType()))

用法示例：

df = sc.parallelize([
    [62], [7, 32], [62], [18, 36, 62], [7, 31, 36, 62], [7, 32, 62]
]).map(lambda x: (x, )).toDF(["sources"])

df.withColumn("src_ex", drop_from_array("sources", lit(32)))

结果：

+---------------+---------------+
|        sources|         src_ex|
+---------------+---------------+
|           [62]|           [62]|
|        [7, 32]|            [7]|
|           [62]|           [62]|
|   [18, 36, 62]|   [18, 36, 62]|
|[7, 31, 36, 62]|[7, 31, 36, 62]|
|    [7, 32, 62]|        [7, 62]|
+---------------+---------------+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

PySpark

apachesparksql

从 PySpark DataFrame 中的 Python 列表列表中删除元素的相关文章

为什么 Spark 退出并显示 exitCode: 16？

我将 Spark 2 0 0 与 Hadoop 2 7 一起使用并使用纱线集群模式每次我都会收到以下错误 17 01 04 11 18 04 INFO spark SparkContext Successfully stopped S
为什么 .setGeometry() 不改变 QWidget 实例的大小？

我想使用 QWidget 更改 QPushButton 的大小 setGeometry https doc qt io qtforpython 5 PySide2 QtWidgets QWidget html PySide2 QtWidge
从字符串到类型的词法转换

最近我尝试用Python存储和读取文件中的信息遇到了一个小问题我想从文本文件中读取类型信息从 string 到 int 或 float 的类型转换非常有效但从 string 到 type 的类型转换似乎是另一个问题当然我尝试了
如何使用Python将WebP图像转换为Gif？

我已经尝试过这个 from PIL import Image im Image open this webp im save that gif gif save all True 这给了我这个错误类型错误不支持的操作数类型 tuple
可以在 TensorFlow 中使用排名相关作为成本函数吗？

我正在处理偶尔充满异常值的极其嘈杂的数据因此我主要依靠相关性来衡量我的神经网络的准确性是否可以明确使用诸如等级相关性斯皮尔曼相关系数之类的东西作为我的成本函数到目前为止我主要依赖 MSE 作为相关性的代理我现在面临三个主要障碍
Python - 用逗号分割，跳过括号内的内容

我需要用逗号分隔字符串但我对这种情况有一个问题 TEXT EXAMPLE THIS IS A EXAMPLE BUT NOT WORKS FOR ME SECOND THIRD 我想拆分并得到 var 0 TEXT EXAMPLE THI
如何限制Django CreateView中ForeignKey字段的选择？

我有一个沿着这些思路的模型结构 models py class Foo models Model class Bar models Model foo models ForeignKey Foo class Baz models Model
如果字段值在外部列表中，Django 会注释布尔值

想象一下我有这个 Django 模型 class Letter models Model name models CharField max length 1 unique True 还有这个列表 vowels a e i o u 我想查询
Spark scala：大量列上的简单 UDF 会导致性能下降

我有一个包含 1 亿行和约 10 000 列的数据框这些列有两种类型标准 C i 和动态 X i 这个dataframe是经过一些处理后得到的性能很快现在只剩下2步了 Goal 需要使用 C i 列的相同子集对每个 X i 执行特定
具有多个元素的数组的真值是二义性错误吗？ Python

from numpy import from pylab import from math import def TentMap a x if x gt 0 and x lt 0 5 return 2 a x elif x gt 0 5 a
获取列表中倒数第二个元素[重复]

这个问题在这里已经有答案了我可以通过以下方式获取列表的倒数第二个元素 gt gt gt lst a b c d e f gt gt gt print lst len lst 2 e 有没有比使用更好的方法print lst len lst
如何使用Python的super()来更新父值？

我对继承很陌生之前所有关于继承和 Python 的 super 函数的讨论都有点超出我的理解我当前使用以下代码来更新父对象的值 usr bin env python test py class Master object mydata
如何在Python和Selenium中通过标签名称或id获取元素[重复]

这个问题在这里已经有答案了我正在尝试使用 Python 和 Selenium 获取输入但它向我显示错误我该如何解决这个错误 inputElement send keys getStock getStocklFunc 0 Error i
将 Pandas 列中的列表拆分为单独的列

这是我在 pandas 数据框中的特征列 Feature Cricket 82379 Kabaddi 255 Reality 4751 Cricket 15640 Wildlife 730 LiveTV 13 Football 4129
如何列出 python PDB 中的当前行？

在 perl 调试器中如果重复列出离开当前行的代码段可以通过输入命令返回到当前行点我无法使用 python PDB 模块找到任何类似的东西如果我list如果我自己离开当前行并想再次查看它似乎我必须记住当前正在执行的行号对我来说
将一个列表的元素除以另一个列表的元素

我有两个清单比如说 a 10 20 30 40 50 60 b 30 70 110 正如你所看到的列表 b 由一个列表的元素总和组成其中 window 2 b 0 a 0 a 1 10 20 30 etc 如何获得另一个列表该列表由
如何通过字符串匹配加速 pandas 行过滤？

我经常需要过滤 pandas 数据框df by df df col name string value 并且我想加快行选择操作有没有快速的方法可以做到这一点例如 In 1 df mul df 3000 2000 3 reset inde
全局变量是 None 而不是实例 - Python

我正在处理Python 中的全局变量代码应该可以正常工作但是有一个问题我必须使用全局变量作为类的实例Back 当我运行应用程序时它说 back is None 这应该不是真的因为第二行setup 功能 back Back Back
如何禁止 celery 中的 pickle 序列化

Celery 默认使用 pickle 作为任务的序列化方法如中所述FAQ http ask github com celery faq html isn t using pickle a security concern 这代表一个安全漏
使用 Python 生成类似于 Messenger 或 kik 代码的圆形二维码

我可以使用 Python 生成圆形 QR 码就像 Facebook Messenger 或 kik 使用的那样吗我访问了很多网站但找不到这种类型的二维码默认情况下 Python 生成方形 QR 码但在我的项目中我想要圆形 QR 码

随机推荐

如何在重新加载数据表时传递参数

我有一个像这样初始化的数据表 mytable DataTable ajax url url getTableData dataSrc sortClasses false paging false scrollY 300 columns co
如何在 Laravel 5.1 中实现“记住我”？

如何在 Laravel 5 1 中实现记住我功能谁能给我举个例子吗 Laravel 身份验证优惠记住账号开箱即用的功能为了使用它你需要做两件事 add 记住令牌用户表中的列这是存储令牌的位置 pass true作为第二个参数验证尝
Kivy 不工作（错误：无法找到任何有价值的 Window 提供程序。）

我收到此错误无法找到任何有价值的 Window 提供程序 kivy 继承了完整错误 INFO Logger Record log in C Users Victor kivy logs kivy 17 05 27 10 txt INF
设备 emulator-5554 未获得授权。（安卓）

我遇到过类似的问题 emulator 5554 未经授权使用 adb 设备 1 基本上我正在尝试使用 Windows 10 在 Android 虚拟设备上进行一些 flutter 编程尽管我不认为这个问题是 flutter 特有的启动
Git for Windows（64 位）中的 Maven classworlds.launcher.Launcher 错误

我已经在 Git Bash 64 位上使用 Maven 几个月了突然它停止工作并且现在在任何 Maven 命令上生成此错误 myuser mypc MINGW64 master mvn v Error Could not find o
SHA256 的“纯粹”方案实现（R5RS）？

我可以在Scheme中使用SHA256 使用外部库 Java C或系统相关或使用特定的Scheme实现例如Chicken 但我想知道是否有一个纯粹的 scheme实现我今天写了一个实现唉 R5RS 既没有字节向量也没有二进制 I
为什么 WPF 中没有视觉继承？

在 Windows 窗体中让一个窗口继承另一个窗口有时很有用但在WPF中这是不允许的为什么 WPF 窗口没有视觉继承 WPF 不支持视觉继承的原因是表单设计是通过标记 xaml 实现的而不是使用代码隐藏来生成布局的 winform
xmllint DTD 验证语法

尝试验证 XML 文档但是 xmllint 坚持将选项作为文件读取因此我收到 FileNotFound 异常只是为了确认我的 xmllint exe 与我的 XML 文件位于同一文件夹中我在CMD中找到该目录并输入命令 xmlli
在线共享和保护 Excel 文档（使用 Powerpivot），无需 Sharepoint 和 Power BI？

我的一位客户制作了这份令人难以置信而且非常巨大的 Excel 文档其中包含许多数据源工作表 Powerpivot 表格图表等非常棒的工作他希望与授权人员共享但保护他有价值的内容也称为数据源和文档逻辑例如用户可以使用过
IdentityServer4 Net Core 2不调用自定义iProfileService

我已将 Identity Server 项目升级到 Net Core 2 现在我无法调用 iProfileService 对象来添加自定义用户声明它在 Net Core 1 中确实有效 Startup cs的ConfigureServic
如何让 C 程序等待（在 Linux 上）？

如何让 C 程序等待在 Linux 上我需要使用等待与 MPI 我需要 C 代码如果要等待 MPI 请求请使用 MPI Wait http www manpagez com man 3 MPI Wait 如果您想等待一定时间请使用
gitk：奇怪的历史树

我正在将 svn 存储库移植到 git 使用 svn2githttps www negativetwenty net redmine projects show svn2git 并且由于 svn 不跟踪合并我需要手动编辑 git info
为什么 .html() 不能与使用 jquery 的 SVG 选择器一起使用？

Question有人可以告诉我如何将 SVG 元素转换为字符串吗我在用着canvg将我的 SVG 转换为图像它必须首先在画布中渲染 canvg 方法期待一个SVG STRING code function updateChartImag
使用 Url 视图帮助链接时从 URL 中删除参数

使用 Url view helper 构建链接时如果当前页面的 url 中有参数则 Url view helper 生成的 url 也会包含参数例如在页面中控制器操作参数值下面的代码 a href Dashboard a 将
如何从WKInterfaceButton获取标题

要获得标题有函数 setTitle 但是如何将 WKInterfaceButton 的标题作为字符串获取我没有找到任何东西https developer apple com library prerelease ios document
Python 2 中的类型提示

In PEP 484 类型提示被添加到 Python 3 中其中包括typing模块在Python 2中有什么办法可以做到这一点吗我能想到的就是有一个装饰器添加到方法中来检查类型但这会在运行时失败并且不会像提示所允许的那样更早被捕
AWS S3 中的“KeyError: 'Records'” - Lambda 触发器

我有以下 lambda 函数代码用于简单地打印 S3 存储桶的上传事件的作者和元数据 from future import print function import json import urllib import boto3 pri
解析Robot Framework的输出xml

机器人框架吐出一个输出 XML 然后用于构建 HTML 报告带有rebot 重新运行失败等我需要解析此文件以生成其他报告特别是我需要解析正则表达式的测试用例文档获取测试用例结果然后构建报告这是为了与遗留系统集成 Robot F
如何用新的 viewController 替换当前的 viewController

我正在尝试用新的视图控制器替换当前的视图控制器我之前已经能够做到这一点但我遇到了一些 BAD ACCESS 问题这是当我想用新视图替换当前视图时将运行的代码该函数将使用本地属性 self some data 非原子保留调用 vo
从 PySpark DataFrame 中的 Python 列表列表中删除元素

我正在尝试从 Python 列表中删除一个元素 sources 62 7 32 62 18 36 62 7 31 36 62 7 32 62 我希望能够删除一个元素 rm 来自上面列表中的每个列表我编写了一个可以对列表列表执行此操作的函数

从 PySpark DataFrame 中的 Python 列表列表中删除元素

从 PySpark DataFrame 中的 Python 列表列表中删除元素 的相关文章

随机推荐

热门标签

从 PySpark DataFrame 中的 Python 列表列表中删除元素的相关文章