如何在 PySpark 中使用 .contains() 按单个或多个子字符串进行过滤？

2023-11-30

这是一个简单的问题（我认为），但我不确定回答它的最佳方法。

我需要根据 Spark Dataframe 中包含字符串的列中是否存在“子字符串”进行过滤。

目前我正在执行以下操作（使用过滤.contains):

data = [[1, "ABC"], [2, "DEF"], [3, "DEF"], [4, "JFKLMN"], [5, "JFKOPQ"], [6, "MNO"]]

df = pd.DataFrame(data, columns=["Item", "String"])
sdf = spark.createDataFrame(df)

但我想概括这一点，以便我可以过滤到一个或多个字符串，如下所示：

filtered_sdf = sdf.filter(
    spark_fns.col("String").contains("JFK") | spark_fns.col("String").contains("ABC")
)

filtered_sdf = sdf.filter(
    spark_fns.col("String").contains("ABC")
)

where ideally, the .contains()部分是包含 1+ 个子字符串的预设参数。

有谁知道最好的方法是什么？或者其他方法？

我尝试过使用.isin(substring_list)但它不起作用，因为我们正在搜索子字符串的存在。

您可以创建适合所有所需模式的正则表达式模式：

list_desired_patterns = ["ABC", "JFK"]
regex_pattern = "|".join(list_desired_patterns)

然后应用类似的 Column 方法：

filtered_sdf = sdf.filter(
    spark_fns.col("String").rlike(regex_pattern)
)

这将过滤any匹配所需模式的列表。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

PySpark

apachesparksql

如何在 PySpark 中使用 .contains() 按单个或多个子字符串进行过滤？的相关文章

Keras 中的 load_model 和 Lambda 层

如何加载具有 lambda 层的模型这是重现行为的代码 MEAN LANDMARKS np load data mean shape 68 npy def add mean landmarks x mean landmarks np ar
Django 自引用关系？

我正在尝试创建模型页面页面也应该能够有子页面我的模型代码如下使Python崩溃 http pastie org private butthk1aaeb3pmh7mmag1g在我的Mac python 2 6 1 和Ubuntu 10
Python XLWT调整列宽

XLWT 的易用性给我留下了深刻的印象但有一件事我还没有弄清楚该怎么做我正在尝试将某些行调整为显示所有字符所需的最小宽度换句话说如果双击单元格之间的分隔线 excel 会做什么我知道如何将列宽调整为预定量但我不确定如何确定显示所
Python2 math.fsum 不准确？

我正在使用 python2 数学模块来计算 fsum 的总和据我所知 0 1通常不能存储二进制据我了解 math fsum 应该以某种方式解决这个问题 import math math fsum 0 0 0 1 0 1 math fsu
如何显示 pymongo.errors.OperationFailure 详细信息？

写入 MongoDB 时我在 python 中遇到 pymongo OperationsFailure 除了回溯之外还有没有办法打印出详细信息或代码属性另请参阅 http api mongodb org python current
为什么这个“[::-1]”在Python中返回一个反向列表？ [复制]

这个问题在这里已经有答案了可能的重复 Python 切片表示法的良好入门指南 https stackoverflow com questions 509211 good primer for python slice notation P
url 查询中的字符 %7D 意味着什么？

如果我使用 url 访问我的 web 应用程序 vi 5907399890173952 html 然后它就可以工作了但是当我查看日志文件时 googlebot 会尝试访问一个类似的网址该网址会生成异常 vi 59073998901739
来自 yahoo 的 python lxml etree 小程序信息

雅虎财经更新了他们的网站我有一个 lxml etree 脚本用于提取分析师建议然而现在分析师的建议已经存在但只是以图表的形式出现你可以看到一个例子这一页 https finance yahoo com quote CSX ana
如何在 Pandas 中用多个唯一字符串替换重复值？

import pandas as pd import numpy as np data Name Tom Tom Jack Terry Age 20 21 19 18 df pd DataFrame data 假设我有一个如下所示的数据框
AMLS 实验运行停留在“正在运行”状态

我运行了 Azure 机器学习服务实验并使用 Jupyter Notebook 记录了神经网络损失日志记录工作正常神经网络训练也按预期完成但实验一直停留在运行状态关闭计算资源不会关闭实验运行我无法从实验面板取消它此外运行没有
Keras ImageDataGenerator 验证分割未从打乱的数据集中选择

如何将图像数据集随机拆分为训练数据集和验证数据集更具体地说 validation splitKeras 中的论证ImageDataGenerator函数不是随机地将我的图像分割为训练和验证而是从未洗牌的数据集中分割验证样本当指定val
如何有效地找到两个轮廓集之间的所有交点

我想知道找到两组轮廓线之间所有交点舍入误差的最佳方法哪种方法最好这是示例 import matplotlib pyplot as plt import numpy as np x np linspace 1 1 500 X Y np
我可以使用对象（类的实例）作为 Python 中的字典键吗？

我想使用类实例作为字典键例如 classinstance class dictionary classinstance hello world Python似乎无法将类作为字典键处理还是我错了另外我可以使用像 classinstan
如何设置 pandas DataFrame _repr_html_ 方法的默认样式？

我有一个 pandas DataFrame 其中有一列是 url 并且我编写了以下格式化程序以将其作为链接呈现在我的笔记本中 def make clickable val target blank to open new window re
使用 Cython 扩展模块分发共享库和一些 C 代码

我正在尝试从大型 C 共享库 libbig so 中获取一些函数并通过 Cython 将它们公开给 Python 为此我有一个小 C 文件 small cpp 它为我需要的共享库的功能提供了一个薄包装器从而可以轻松地通过 Cython
Python 中 Javascript 的 reduce()、map() 和 filter() 的等价物是什么？

Python 的等价物是什么 Javascript function wordParts currentPart lastPart return currentPart lastPart word Che mis try console l
使用 Python for PyQt WebEngine 授予对 Cam & Mic 的访问权限

我正在构建一个从 Python 调用的简单 Web 应用程序我正在使用下面的代码加载此页面时以编程方式授予对摄像头和麦克风的访问权限的最简单方法是什么我只在网上找到了 C 示例无法找到在 Python 代码中执行此操作的方法 fr
从 NumPy、matplotlib 包导入 python 子模块有什么区别[重复]

这个问题在这里已经有答案了当我尝试使用时pyplot from matplotlib import matplotlib print matplotlib pyplot just checking 它给了我AttributeError m
MySQL：进行基本搜索

我的数据库中有一个名称表我希望对其进行模糊搜索例如我的数据库包含 Name ID John Smith 1 Edward Smith 2 Gabriel Gray 3 Paul Roberts 4 目前当我通过 python 搜索数据
如何在（最好是纯）Python 中解码 QR 码图像？

TL DR 我需要一种使用最好是纯 Python 从图像文件中解码 QR 码的方法我有一个带有 QR 码的 jpg 文件我想使用 Python 对其进行解码我发现有几个库声称可以做到这一点 PyQRCode 网站在这里 http p

随机推荐

使用工具时 URL 被禁止 403，但在浏览器中正常

我有一些图像需要执行 HttpRequestMethod HEAD 才能找出图像的一些详细信息当我在浏览器上访问图像网址时它加载时没有问题当我尝试通过我的代码或在线工具获取标头信息时它失败了示例 URL 是http www ado
ASP.NET MVC、Webforms 和 HTTP 处理程序 (.ashx) - 哪个是最轻量级的？ [关闭]

Closed 这个问题是基于意见的目前不接受答案我计划构建一个简单但使用率高的 Web 应用程序并且需要确定一个架构基本服务器端逻辑动态数据库驱动内容大约有六个十几页内容涵盖了所有内容内容无需重写 URL 非常简单的页面流
NSJSONSerialization isValidJSONObject 对于从场所搜索端点接收到的数据返回 false

Xcode 8 1 部署目标 iOS 9 0 我按照预期从 Foursquare 场地搜索端点获得了一系列紧凑的场地对象 void URLSession NSURLSession session dataTask NSURLSessionD
register_shutdown_function() 出现匿名函数错误

我在使用 register shutdown function 函数时遇到问题和奇怪的行为让我通过示例来说明首先使用普通的回调函数 result 函数被调用函数被调用第二个使用匿名回调函数
Scala：通过 Reflect.runtime.universe.Type 进行模式匹配？

如何对 Reflect runtime universe Type 进行模式匹配 def test t reflect runtime universe Type t match case Int gt case Double gt cas
防止导入 android.R

如何防止 android R 包在 IntelliJ Idea 中自动导入当Idea导入android R包并且你不能从你的项目中使用R类时这真的很烦人除非你删除 import android R 代码中的行例如我输入 new A
#include <文件名> 和#include“文件名”有什么区别？

在尖括号和引号中使用尖括号和引号有什么区别include指示 include
Pandas 混合类型到整数

给定以下数据框 import pandas as pd df pd DataFrame A A B C D C 1 12 8 df A C 0 A 1 1 B 12 2 C 3 D 8 我想删除的所有实例并将其余的转换为整数我的实际数据
OpenModelica 建模库仑摩擦：翻译错误，优化后模块 findZeroCrossings（模拟）失败

我正在尝试在 Modelica 中模拟库仑摩擦力基本概念是检查表面之间的相对速度是否小于常数并且试图使表面相互滑动的外力是否小于最大静摩擦力法线力静摩擦系数则摩擦力等于负值的外部剪切力否则摩擦力等于滑动方向相反方向的动摩擦力
未删除令牌类型 Int 或 Long 的 Android 处理程序回调 (*Kotlin)

我执行了这段代码Kotlinandroid 项目它将记录这两条消息如果我改变token to Char or String它只会打印一条消息这是想要的行为 android 中的 java 项目中的相同用例可以正常工作 val hand
在 Swift 3 中声明“NSMapTable StrongObject”

我怎样才能声明NSMapTable在斯威夫特 3 中为什么苹果的这个例子不起作用 let activeLines NSMapTable strongToStrongObjectsMapTable Xcode 建议更改为 let activ
如何在更新面板回发后执行 JavaScript 回调？

我使用 jQuery 提示插件在用户将鼠标悬停在页面的某些元素上时显示帮助提示我需要在使用 css 选择器加载页面后注册插件事件问题是我正在使用 ASP NET 更新面板并且在第一次回发后提示停止工作因为更新面板替换了页面内容但
为什么我的警报消息和背景颜色更改没有同时执行？

我试图让我的最终警报消息恭喜和 HTML 背景颜色更改同时发生颜色发生变化after我单击已显示的警报消息的确定按钮我哪里出错了诚然存在类似的问题尽管我没有从建议的解决方案中得到任何指示 let myColors red
追加到嵌套列表

我正在使用嵌套列表来查找我创建的字典中的值然后我想将找到的值附加到列表中我不知道如何编码的问题是如何将附加的值保留在同一嵌套列表结构中这是代码其中最后一行我将值附加到空列表中 Creating a dictionary of FID
python 字典组列表

如何将字典中的相似键分组到列表中如果我有 data quantity 2 type Vip quantity 23 type Vip quantity 2 type Regular quantity 2 type Regular quan
MS Graph Bearer Token 能否用于访问 Office REST API？

我们已使用 Microsoft Graph 在 Net Core 2 0 应用程序中实现身份验证以针对 Azure AD 进行身份验证效果很好我们的目标是使用 Microsoft Graph 来访问 Office 365 数据不幸的
在一行中分配多个变量

我正在尝试制作斐波那契数列但我不明白为什么会这样 def fibonacci n f1 0 f2 1 i 1 while i lt n print f2 f1 f2 f2 f1 f2 i 1 return f3 返回 1 2 4 8 而
ConstraintLayout中的动态circleRadius

在我的应用程序中我有以下布局它使用新的圆形定位其内在的属性ConstraintLayout 我认为它非常好因为它不为任何视图尺寸使用固定的 dp 值除了circleRadius 这正是我的问题我的circleRadius也应该是动
我如何使用 php 和 css 使图像显示在这样的行中？

我想知道如何显示如图中所示的图像我知道我必须使用 while 循环检索图像但是像这样显示它们是困难的一点谢谢也许这个 ul li class image img src li li class image img src li li
如何在 PySpark 中使用 .contains() 按单个或多个子字符串进行过滤？

这是一个简单的问题我认为但我不确定回答它的最佳方法我需要根据 Spark Dataframe 中包含字符串的列中是否存在子字符串进行过滤目前我正在执行以下操作使用过滤 contains data 1 ABC 2 DEF 3 D

如何在 PySpark 中使用 .contains() 按单个或多个子字符串进行过滤？

如何在 PySpark 中使用 .contains() 按单个或多个子字符串进行过滤？ 的相关文章

随机推荐

热门标签

如何在 PySpark 中使用 .contains() 按单个或多个子字符串进行过滤？的相关文章