Pyspark：如何过滤两列值对的列表？

2024-03-19

所以我有一个 PySpark Dataframe，我想用一个（长）有效列表来过滤它pairs两列。

假设我们的数据框的名称是df和列col1 and col2:

col1   col2
1      A
2      B
3      1
null   2
A      null
2      null
1      null
B      C

我的有效配对列表为：flist=[(1,A), (null,2), (1,null)]

当我尝试使用.isin()函数（如下），它告诉我.isin()不适用于元组。

df.filter((df["col1"],df["col2"]).isin(flist))

通过连接两个字符串或为每对写下一个布尔表达式，可以解决此问题，但我有一长串有效对（很难转换为布尔值），并且由于空值，连接也不可靠。使用Python(df['col1'],df['col2']) in flist也不起作用。

有 Python/PySpark 方法可以做到这一点吗？

您可以创建filder_df使用列表并进行连接：

flist = [("1", "A"), (None, "2"), ("1", None)]
filter_df = spark.createDataFrame(flist, ["col1", "col2"])

df1 = df.join(filter_df, ["col1", "col2"])

df1.show()
#+----+----+
#|col1|col2|
#+----+----+
#|   1|   A|
#+----+----+

请注意，您不能比较空值。所以只有元组的行("1", "A")都被返回到这里。要检查空值，您需要使用isNull()在专栏上：

df1 = df.alias("df").join(
    filter_df.alias("fdf"),
    ((F.col("df.col1") == F.col("fdf.col1")) |
     (col("df.col1").isNull() & F.col("fdf.col1").isNull())
     ) &
    ((F.col("df.col2") == F.col("fdf.col2")) |
     (col("df.col2").isNull() & F.col("fdf.col2").isNull())
     )
).select("df.*")

df1.show()

#+----+----+
#|col1|col2|
#+----+----+
#|   1|   A|
#|null|   2|
#|   1|null|
#+----+----+

或者更好的使用eqNullSafe正如@Chris 的回答中所建议的。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

PySpark

apachesparksql

Filtering

Pyspark：如何过滤两列值对的列表？的相关文章

在 Python 2.7 中出现“ImportError：无法导入名称 HTTPSConnection”错误

我正在尝试在 AWS ElasticBeanstalk 中部署 django 当我按照所示步骤操作时here http docs aws amazon com elasticbeanstalk latest dg create deploy
键入的完整命令行

我想获得输入时的完整命令行 This join sys argv 在这里不起作用删除双引号另外我不想重新加入已解析和拆分的内容有任何想法吗你太迟了当键入的命令到达 Python 时您的 shell 已经发挥了它的魔力例如引
如何计算数据框中按另一列的列值分组的一列的连续字符串值？

我有以下数据框 Levels Labels Confidence 0 Hands 0 8 0 Leg 0 7 0 Eye 0 9 1 Ear 0 9 1 Eye 0 8 2 Hands 0 9 2 Eye 0 8 3 Eye 0 8 我想检
Flask 失败并显示“错误：导入‘X’时，引发了 ImportError”，但不显示错误。如何找到错误的根源？

当使用以下命令启动 Flask 应用程序时 flask run 我收到错误 Error While importing wsgi an ImportError was raised Usage flask OPTIONS COMMAND A
如何在Windows中的Python 3.9下pip安装pickle？

我需要pickle https docs python org 3 9 library pickle html module pickle包安装在我的下面Python 3 9在 Windows 10 下我尝试过的当尝试与pip inst
无法在 virtualenv 中安装 libxml2

我有一个问题libxml2蟒蛇模块我正在尝试将其安装在python3 虚拟环境使用以下命令 pip install libxml2 python3 但它显示以下错误 Collecting libxml2 python3 Using cac
正在使用 PIL 保存损坏的图像

我遇到一个问题操作图像像素导致保存损坏的图像因此我使用 PIL 打开图像然后将其转换为 NumPy 数组 image Image open myimage png np image np asarray image 然后我转置图像
在请求中设置端口

我正在尝试利用cgminer使用 Python 的 API 我对利用requests图书馆我了解如何做基本的事情requests but cgminer想要更具体一点我想缩小 import socket import json sock
类型错误：此 COM 对象无法自动执行 makepy 过程 - 请为此对象手动运行 makepy

这是什么错误回溯错误 C Users DELL PycharmProjects MyNew venv Scripts python exe C Users DELL PycharmProjects MyNew agaaaaain py T
为什么将模块级代码放入函数中然后调用该函数在Python中速度更快？

在亚历克斯马尔泰利的回应中使 Python 脚本面向对象 https stackoverflow com questions 1813117 making a python script object oriented 他提到在 Pyth
python Recipe：列出最接近等于值的项[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案考虑像这样的列表 0 3 7 10 12 15 19 21 我想获得最接近任何值的最近的最小数字所以如果我通过4 我会得到3 如果我
Django 2、python 3.4 无法解码 urlsafe_base64_decode(uidb64)

我正在尝试通过电子邮件激活用户电子邮件有效编码有效我使用了 django1 11 中的方法该方法运行成功在 Django 1 11 中以下内容成功解码为 28 其中 uidb64 b Mjg force text urlsafe
从 wxPython 事件处理程序中调用函数

我正在努力寻找一种在 wxPython 事件处理函数中使用函数的方法假设我有一个按钮单击该按钮时它会使用事件处理程序运行一个名为 OnRun 的函数但是用户忘记单击 OnRun 按钮之前的 RadionButton 我想弹出一个
Python 2.7 缩进错误[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案这个问题是由拼写错误或无法再重现的问题引起的虽然类似的问题可能是on topic help on topic在这里这个问题的解决方式不
无需访问 Internet 即可部署 Django 的简单方法？

我拥有的是使用 Django 开发的 Intranet 站点的开发版本以及放置在 virtualenv 中的一些外部库它运行良好我可以在任何具有互联网连接的计算机上使用相同的参数使用 pip 轻松设置 virtualenv 但是不幸
Python 读取未格式化的直接访问 Fortran 90 给出不正确的输出

这是数据的写入方式它是一个二维浮点矩阵我不确定大小 open unit 51 file rmsd nn output form unformatted access direct status replace recl Npoints
两种 ODE 求解器之间的差异

我想知道两者之间有什么区别ODEINT and solve ivp用于求解微分方程它们之间有什么优点和缺点 f1 solve ivp f 0 1 y0 y0 is the initial point f2 odeint f y0 0 1
如何使用 Python/Django 在 Facebook 中获取（和使用）扩展权限

我正在尝试编写一个简单的应用程序让用户授予我的代码写入其页面的 Facebook 流的权限据我了解它应该很简单让用户单击一个按钮启动一个弹出窗口其中包含我的 Facebook 应用程序中的页面在该页面中他们单击授予的内容流发
如何同时接受int和float类型的输入？

我正在制作一个货币转换器如何让 python 同时接受整数和浮点数我就是这样做的 def aud brl amount From to ER 0 42108 if amount int if From strip aud and to
在Python中停止ThreadPool中的进程

我一直在尝试为控制某些硬件的库编写一个交互式包装器用于 ipython 有些调用对 IO 的影响很大因此并行执行任务是有意义的使用 ThreadPool 几乎效果很好 from multiprocessing pool import

随机推荐

如何在 iOS 7 应用程序上启用后台更新

如何让我的应用程序使用 iOS 7 后台更新功能我注意到一些应用程序已经做到了这一点但似乎并不是所有应用程序都是自动的根据iOS 7 的新功能 https developer apple com library ios release
是否可以在 Chrome 检查器中过滤选项请求？

我正在构建一个使用 CORS 与其服务器进行通信的 Web 应用程序这意味着每个请求之前都有一个带有 OPTIONS 方法的请求是否可以在检查器中过滤掉它们它在网络选项卡上造成了很多不必要的混乱是的您可以使用 method OPT
属性错误：“用户”对象没有属性“is_admin”

我通过扩展 AbstractBaseUser 自定义了用户模型用户名仅接受电子邮件 ID 这是模型 class User AbstractBaseUser PermissionsMixin email models EmailField
修改包含数据的列类型，而不删除数据

我有一个专栏我认为该专栏的声明是错误的它包含数据我不希望丢失数据我希望将定义从 varchar max 更改为 varchar 整数我的印象是我不能只改变列类型最好的方法是创建临时列 column2 将数据从有问题类型的列传输到
Subversion 更新问题

当我尝试更新我的存储库时出现以下错误有人能解释一下这是什么意思吗命令更新错误网址错误 http mysvn foo 错误现有目录错误 C SVN MyProj NinjectModules Models 不匹配错误预期 URL
保留 SQL 中的文本格式

我有一个文本区域可将其内容插入到 SQL 表中有没有办法保留文本的格式然后在 HTML 中使用它我假设您正在谈论保留换行符 Either 输出标签内的文本 or 在插入数据库之前将换行符转换为标记例如 PHP 中的 nl2br
R 噩梦：Yosemite、R、RStudio 和 Homebrew

我使用配备 OS X Yosemite 10 10 2 的 MacBook Pro 13 Retina 2013 年末我不希望我最大的敌人遇到这种情况也许吧噩梦按时间顺序排列从官方网站下载 R 和 RStudio 运行这两个应用程序
将数组数据分解为spark中的行[重复]

这个问题在这里已经有答案了我有一个数据集如下所示 FieldA FieldB ArrayField 1 A 1 2 3 2 B 3 5 我想爆炸数据数组字段所以输出将如下所示 FieldA FieldB ExplodedField 1
提高 Python Tesseract OCR 的准确性

我在用pytesseract https pypi org project pytesseract 随着openCV https pypi org project opencv python 在 Python 中的简单 django 应用程
无法使用 Apache FOP 生成 PDF

我正在尝试使用 Apache FOP 使用 XML 数据和 XSL 样式表创建 PDF 但我不断收到以下错误 org apache fop apps FOPException org apache fop fo ValidationExce
显示寄存器内容

您好我需要帮助显示寄存器的内容我的代码如下我已经能够显示数据寄存器的值但我想显示标志状态例如 1 或 0 如果还显示其他寄存器如 esi ebp 的内容将会很有帮助我的代码没有打印标志的状态我缺少什么 section te
清除回发时的查询字符串

简单的问题但我不知道该怎么做我有一个带有 GridView 的页面最初使用查询字符串填充获取查询字符串值后我不需要查询字符串因为我使用 DropDownList 的值来填充 GridView 我怎样才能摆脱它回发并不能清除它
以编程方式将列表作为 Web 部件插入 WSS 3.0 中的 Web 部件页面中

我尝试在网上搜索以编程方式将列表作为 Web 部件插入到 Web 部件页面中但不够幸运我有什么想法或想法以编程方式将列表作为 Web 部件插入到 Web 部件页面中非常感谢首先添加这些 using 语句 using Microsof
使用插件 dsl 语法应用 hibernate-gradle-plugin？

我想用org hibernate hibernate gradle plugin在我的项目中使用插件 dsl 风格这是我的build gradle kts插件部分 plugins kotlin jvm version 1 3 31 id
如何解析 .msstyles 文件？

我需要从 msstyles 文件 Windows XP 视觉样式文件中提取一些位图但我不知道从哪里开始我似乎找不到任何有关如何执行此操作的文档并且文件格式似乎是二进制的并且不容易解析我已经能够使用以下方法自行提取位图 IntPtr
在 javascript 中更改 RGB 颜色的色调

如同this https stackoverflow com questions 6443990 javascript calculate brighter colour 如何增加亮度我想更改 RGB 十六进制颜色的色调 Say cha
获取 woocommerce 类别及其子类别

我想在前端获取所有 woocommerce 类别其子类别如下结果 ul li a href Link a ul li a href Submenu link a li ul li ul 这是我所拥有的但这不是我想要的
如何在 Django 1.7 中重置迁移

我知道有一个与此相同的标题但问题不同我设法使我的开发机器迁移和生产迁移不同步我有一个使用 South 的 Django 应用程序我有自己的工作流程运行良好这可能不是正确的做事方式但我没有遇到任何问题基本上我有一个脚本将生产数
使用 Graph API 和 Android SDK 将图片上传到 Facebook

我正在尝试使用 graph api 将照片上传到 facebook 但不断出现 OutOfMemory 异常上传的代码是这样的 private void PostPhoto SessionHandler facebook Uri phot
Pyspark：如何过滤两列值对的列表？

所以我有一个 PySpark Dataframe 我想用一个长有效列表来过滤它pairs两列假设我们的数据框的名称是df和列col1 and col2 col1 col2 1 A 2 B 3 1 null 2 A null 2 nul

Pyspark：如何过滤两列值对的列表？

Pyspark：如何过滤两列值对的列表？ 的相关文章

随机推荐

热门标签

Pyspark：如何过滤两列值对的列表？的相关文章