Pyspark：如果列包含来自另一列的字符串（SQL LIKE 语句），则过滤数据框

2024-03-28

我正在尝试按以下方式过滤我的 pyspark 数据框：我有一列包含long_text和一列包含数字。如果长文本包含number我想保留这个专栏。我正在尝试使用 SQLLIKE声明，但似乎我无法将其应用到另一列（此处number）我的代码如下：

from pyspark.sql.functions import regexp_extract, col, concat, lit
from pyspark.sql.types import *
PN_in_NC = (df
        .filter(df.long_text.like(concat(lit("%"), df.number, lit("%"))))))

我收到以下错误：Method like([class org.apache.spark.sql.Column]) does not exist.

我尝试了多种方法来修复它（例如创建'%number%'字符串作为过滤器之前的列，不使用lit, using '%' + number + '%'）但没有任何作用。如果LIKE无法应用于其他列，是否有其他方法可以做到这一点？

您可以使用contains功能。

from pyspark.sql.functions import *
df1 = spark.createDataFrame([("hahaha the 3 is good",3),("i dont know about 3",2),("what is 5 doing?",5),\
("ajajaj 123",2),("7 dwarfs",1)], ["long_text","number"]) 
df1.filter(col("long_text").contains(col("number"))).show()

long_text 列应包含数字列中的数字。

Output:

+--------------------+------+
|           long_text|number|
+--------------------+------+
|hahaha the 3 is good|     3|
|    what is 5 doing?|     5|
|          ajajaj 123|     2|
+--------------------+------+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Pyspark：如果列包含来自另一列的字符串（SQL LIKE 语句），则过滤数据框的相关文章

配置 PIP 以在代理后面工作

我已经安装了 python 3 4 3 附带pip 我想从代理后面使用 pip 所以我执行了以下操作 Created C Users foo pip pip ini并添加了代理配置部分 proxy export http proxy my
如何在anaconda python 3.6上安装tensorflow

我使用 anaconda 包安装了新版本的 python 3 6 但是我无法安装张量流总是收到这样的错误 tensorflow gpu 1 0 0rc2 cp35 cp35m win amd64 whl 在此平台上不受支持如何在 ana
熊猫加入具有不同索引级别/日期时间的数据帧？

嗨我有两个 DataFrame 如下所示 dineType menuName unique columns date y m d
使用 Python 将列名称与 CSV 文件中的数据对齐

这是我用来将数据写入 csv 文件的代码 with open temp csv a as fp a csv writer fp delimiter t data faceXpos faceYpos faceHeight faceWidth
如何从 Windows 7 PC 上完全卸载 Python 2.7

从这里安装了Python 2 7 https www python org downloads release python 279 https www python org downloads release python 279 然后我
Python 错误：将 statsmodels 与一行数据一起使用时，对象的 len() 未调整大小

我可以使用 statsmodel 的 WLS 加权最小二乘回归 http statsmodels sourceforge net devel generated statsmodels regression linear model WLS
为什么 pandas.DataFrame.update 会更改更新后的数据帧的数据类型？

出于显而易见的原因我想在更新后将列的数据类型保留为 int 有什么想法为什么这不能按预期工作吗 import pandas as pd df1 pd DataFrame a 1 b 2 c foo a 3 b 4 c baz df2 pd
seaborn 箱线图的子图

我有一个像这样的数据框 import seaborn as sns import pandas as pd pylab inline df pd DataFrame a one one two two one two one one one
LogRecord 没有预期的字段

在使用 logging 模块的Python中文档承诺LogRecord实例将具有许多属性这些属性在文档中明确列出然而情况似乎并不总是如此当我不使用日志记录模块的 basicConfig 方法时下面的程序显示属性 asctime
Python3 - 如何将字符串转换为十六进制

我正在尝试将字符串逐个字符转换为十六进制但我无法在Python3中弄清楚它在较旧的 python 版本中我的以下内容有效 test This is a test for c in range 0 len test print 0x s
将具有多个时区的 pandas 列转换为单个时区

Problem 我在 pandas DataFrame 中有一个列其中包含带有时区的时间戳此列中有两个不同的时区我需要确保只有一个这是该列末尾的输出 260003 2019 05 21 12 00 00 06 00 260004 2
django-allauth：电子邮件确认

我已经设置了 django allauth 并在新用户注册时使用电子邮件确认效果很好但在确认电子邮件中我得到 Hello from example com You re receiving this e mail because us
如何在solidpython中设置特殊变量$fa、$fs、$fn

in 上一个线程 https stackoverflow com questions 54040390 how to save data in stl file after python solid processing显示了如何通过 So
Scrapy FakeUserAgentError：获取浏览器时发生错误

我使用 Scrapy FakeUserAgent 并在我的 Linux 服务器上不断收到此错误 Traceback most recent call last File usr local lib64 python2 7 site pack
__author__ 的起源是什么？

使用私有元数据变量的约定在哪里 author 一个模块内部从何而来 This http mail python org pipermail python dev 2001 March 013328 htmlPython 邮件列表线程似乎暗示
获取列的 [0, x] 元素的最小值

我需要计算一列其中值是对其他列进行矢量化运算的结果 df new col df col1 min 0 df col2 然而事实证明我不能像上面的语法一样使用 min 那么获得 pandas 列的零和给定值之间的最小值的正确方法是什么
如何通过异常值检测方法在周期性或基于序列的数据上生成脉冲作为异常值以进行实验？

我想对一些时间序列数据进行一些实验KM https scikit learn org stable auto examples cluster plot cluster iris html sphx glr auto examples cl
如何使用 PySpark 预处理图像？

我有一个项目需要为 1 设置大数据架构 AWS S3 SageMaker 的概念验证使用 PySpark 预处理图像 2 执行 PCA and 3 训练一些机器或深度学习模型我的问题是了解如何使用 PySpark 操作图像数据但无法在
重写 __cmp__ python 函数

嗨我是压倒一切的 cmp 如果传递的第二个对象是None 或者如果它不是一个实例someClass 然后返回 1 我不明白这里到底发生了什么 class someClass def cmp self obj if obj None ret
收到 Python 错误“来自：无法读取 /var/mail/Bio”

我正在运行一个 bio python 脚本这会导致以下错误 from can t read var mail Bio 由于我的脚本与邮件没有任何关系我不明白为什么我的脚本在 var mail 中查找这里似乎有什么问题我怀疑这会有帮助

随机推荐

cpanel中的Python Flask应用程序路由：只能访问根url

我在 cPanel 中设置了一个 python 应用程序我已将应用程序 URL 设置为backend当我查询时mydomain com backend 它返回应用程序的根视图这只是一个 html 你好其余的端点是我需要的但我在每个其
Vite + Vue项目

Pyspark：如果列包含来自另一列的字符串（SQL LIKE 语句），则过滤数据框

python

apachespark

PySpark

sqllike

Pyspark：如果列包含来自另一列的字符串（SQL LIKE 语句），则过滤数据框的相关文章

配置 PIP 以在代理后面工作

如何在anaconda python 3.6上安装tensorflow

熊猫加入具有不同索引级别/日期时间的数据帧？

使用 Python 将列名称与 CSV 文件中的数据对齐

如何从 Windows 7 PC 上完全卸载 Python 2.7

Python 错误：将 statsmodels 与一行数据一起使用时，对象的 len() 未调整大小

为什么 pandas.DataFrame.update 会更改更新后的数据帧的数据类型？

seaborn 箱线图的子图

LogRecord 没有预期的字段

Python3 - 如何将字符串转换为十六进制

将具有多个时区的 pandas 列转换为单个时区

django-allauth：电子邮件确认

如何在solidpython中设置特殊变量$fa、$fs、$fn

Scrapy FakeUserAgentError：获取浏览器时发生错误

author 的起源是什么？

获取列的 [0, x] 元素的最小值

如何通过异常值检测方法在周期性或基于序列的数据上生成脉冲作为异常值以进行实验？

如何使用 PySpark 预处理图像？

重写 cmp python 函数

收到 Python 错误“来自：无法读取 /var/mail/Bio”

随机推荐

cpanel中的Python Flask应用程序路由：只能访问根url

Vite + Vue项目

Pyspark：如果列包含来自另一列的字符串（SQL LIKE 语句），则过滤数据框

Pyspark：如果列包含来自另一列的字符串（SQL LIKE 语句），则过滤数据框 的相关文章

随机推荐

Pyspark：如果列包含来自另一列的字符串（SQL LIKE 语句），则过滤数据框的相关文章