如果包含字符串列表，则过滤 pyspark 数据帧

2024-04-30

假设我们有一个 pyspark 数据框，其列之一 (column_a) 包含一些字符串值，并且还有一个字符串列表 (list_a).

数据框：

column_a      | count
some_string   |  10
another_one   |  20
third_string  |  30

list_a:

['string', 'third', ...]

我想过滤此数据框，并且仅在 column_a 的值包含 list_a 的项目之一时保留行。

这是用于过滤的代码column_a基于单个字符串：

df['column_a'].like('%string_value%')

但是我们如何才能对字符串列表获得相同的结果呢？（保留column_a的值为'string'，'third'，...的行）

IIUC，您想要返回其中的行column_a是“像”（在 SQL 意义上）中的任何值list_a.

一种方法是使用functools.reduce:

from functools import reduce

list_a = ['string', 'third']

df1 = df.where(
    reduce(lambda a, b: a|b, (df['column_a'].like('%'+pat+"%") for pat in list_a))
)
df1.show()
#+------------+-----+
#|    column_a|count|
#+------------+-----+
#| some_string|   10|
#|third_string|   30|
#+------------+-----+

本质上你循环了所有可能的字符串list_a进行比较like并对结果进行“或”操作。这是执行计划：

df1.explain()
#== Physical Plan ==
#*(1) Filter (Contains(column_a#0, string) || Contains(column_a#0, third))
#+- Scan ExistingRDD[column_a#0,count#1]

另一种选择是使用pyspark.sql.Column.rlike http://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.Column.rlike代替like http://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.Column.like.

df2 = df.where(
    df['column_a'].rlike("|".join(["(" + pat + ")" for pat in list_a]))
)

df2.show()
#+------------+-----+
#|    column_a|count|
#+------------+-----+
#| some_string|   10|
#|third_string|   30|
#+------------+-----+

其中有对应的执行计划：

df2.explain()
#== Physical Plan ==
#*(1) Filter (isnotnull(column_a#0) && column_a#0 RLIKE (string)|(third))
#+- Scan ExistingRDD[column_a#0,count#1]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python3x

PySpark

如果包含字符串列表，则过滤 pyspark 数据帧的相关文章

如何修复 TypeError: G 必须是 'd' 矩阵？

目标尝试通过优化过程运行玩具数据集我遇到以下错误 TypeError Traceback most recent call last
芹菜中未处理的异常冻结了工人

我通过 redis 后端在 docker 中运行 celery 我有芹菜搅拌容器芹菜工人容器 Redis容器 celery 工作容器生成 6 个工作进程如果 celery 任务遇到异常工作人员所有工作人员将停止使用作业我尝试稍
使用 pybtex 将 bibtex 转换为格式化的 HTML 参考书目，例如哈佛风格

我正在使用 Django 并将 bibtex 存储在我的模型中并且希望能够以格式化 HTML 字符串的形式向我的视图传递引用使其看起来像哈佛引用样式使用中描述的方法Pybtex 无法识别 bibtex 条目 https stackov
使用 Apache Beam python 创建 Google 云数据流模板时出现 RuntimeValueProviderError

我无法使用 python 3 7 暂存云数据流模板它在一个参数化参数上失败了apache beam error RuntimeValueProviderError RuntimeValueProvider option input typ
带表格格式的 Matplotlib 条形图

我在图的底部添加了一个表格但它存在许多问题右边的内边距太多了左边的填充太少底部没有填充物单元格对于其中的文本来说太小该表距离图的底部太近属于行名称的单元格的颜色未与条形图的颜色相匹配我要发疯了去摆弄这个有人可以帮我解决这
Python3 在 DirectX 游戏中移动鼠标

我正在尝试构建一个在 DirectX 游戏中执行一些操作的脚本除了移动鼠标之外我一切都正常是否有任何可用的模块可以移动鼠标适用于 Windows python 3 Thanks I used pynput https pypi or
Pandas 中的 Groupby、转置和追加？

我有一个数据框如下所示每个用户有10条记录现在我想创建一个如下所示的数据框 userid name1 name2 name10 这意味着我需要反转该列的每 10 条记录name并附加到新的数据框那么它是如何做到的呢有什么办法可
更新到 Django 1.8 - AttributeError: django.test.TestCase 没有属性 'cls_atomics'

我将 Django 1 7 项目更新为 Django 1 8 现在运行测试时出现错误它们是 Django 的子类 django test TestCase Traceback most recent call last File env
pyspark加入多个条件

我如何指定很多条件当我使用pyspark时 join 例子与蜂巢 query select a NUMCNT b NUMCNT as RNUMCNT a POLE b POLE as RPOLE a ACTIVITE b ACTIVIT
在Python中，如何将矩阵逆时针旋转90度？

gt gt gt def rotate matrix k List List int For example if I have m 1 2 3 2 3 3 5 4 3 rotate matrix m should give me 3 3
在请求中设置端口

我正在尝试利用cgminer使用 Python 的 API 我对利用requests图书馆我了解如何做基本的事情requests but cgminer想要更具体一点我想缩小 import socket import json sock
导入 pandas 显示 ImportError: 无法导入名称哈希表

我已经在 python 3 3 上安装了 pandas 代码如下 import csv import pandas from pandas import DataFrame csvdata pandas read csv datafile
没有名为“turtle”的模块

我正在学习并尝试用Python3制作贪吃蛇游戏我正在进口海龟我正在使用 Linux mint 19 PyCharm python37 python3 tk Traceback most recent call last File hom
重命名 python 子包，将旧名称标记为已弃用

我有一个 python 包它具有以下目录结构 package init py subpackage A init py moduleA py moduleB py 现在我想更改名称subpackage A to subpackage B同
PySpark - 系统找不到指定的路径

Hy 我已经多次运行 Spark Spyder IDE 今天我收到这个错误代码是相同的 from py4j java gateway import JavaGateway gateway JavaGateway os environ SP
如何使用 Plotly 中的直方图将所有离群值分入一个分箱？

所以问题是我可以在 Plotly 中绘制直方图其中所有大于某个阈值的值都将被分组到一个箱中吗所需的输出但使用标准情节Histogram类我只能得到这个输出 import pandas as pd from plotly import
tkinter - 检查文本小部件是否为空

操作系统 Windows 8 1 Python 3 5 在 Tkinter 中我发现了很多代码来验证输入框是否为空但是当我尝试对文本小部件应用相同的方法时它不起作用看起来文本小部件有一个 n 字符这可能就是问题所在知道如何进行此
pysftp putfo 在 SFTP 服务器上创建一个空文件，但不传输来自 StringIO 的内容

我的代码首先将行写入 CSVio StringIO fileBuffer io StringIO write header header writer csv DictWriter fileBuffer fieldnames columnN
Python 3 os.urandom

在哪里可以找到完整的教程或文档os urandom 我需要获得一个随机 int 来从 80 个字符的字符串中选择一个字符如果你只需要一个随机整数你可以使用random randint a b 来自随机模块 http docs pytho
pyspark 数据框中的自定义排序

是否有推荐的方法在 pyspark 中实现分类数据的自定义排序我理想地寻找 pandas 分类数据类型提供的功能因此给定一个数据集Speed列可能的选项是 Super Fast Fast Medium Slow 我想实现适合上下文的

随机推荐

开发目录结构[关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
使用 iPhone 版 gmap 中的经纬度计算两个地点之间的距离 [重复]

这个问题在这里已经有答案了可能的重复 GPS 坐标以度为单位来计算距离 https stackoverflow com questions 6994101 gps coordinates in degrees to calculate
获取 iPhone 文档目录。 NSSearchPathForDirectoriesInDomains 仍然是唯一的方法吗？

Is the NSSearchPathForDirectoriesInDomainss 函数仍然是获取 iPhone Documents 目录路径的最佳方法吗我之所以这么问是因为我看到的大多数主题都是去年的而且这似乎仍然是获取 iPh
将 Django/Python 3.4 部署到 Heroku

我正在尝试使用 Django Heroku 入门教程使用 Django Heroku 部署我的第一个示例应用程序我的工具 Python 3 4 和 Windows 7 PowerShell 我的挑战部署到 Heroku 失败我不知道为
App.config 连接字符串相对路径

我需要在 app config 中设置 sqlite 连接字符串我想设置相对于调试发布文件夹的路径数据库文件将复制到这些文件夹
Windows命令行参数编码是什么？

Windows 使用什么编码来传递给在 cmd exe 窗口中启动的程序的命令行参数命令行参数的编码似乎不受使用控制台代码页设置的影响chcp 我将其设置为 UTF 8 代码页 65001 并使用 Lucida Console 字体如果
Python 中的静态变量？

在 C 中我们有 static 关键字它在循环中是这样的 for int x 0 x lt 10 x for int y 0 y lt 10 y static int number of times 0 number of times
不循环查找

我有两个表我正在尝试从一个表中查找值以添加到另一个表中的值目前我正在使用两个 for 循环但它们运行缓慢我是 R 新手知道我应该避免循环以加快速度但我不知道如何做表1 几千行 37列 type cat1 cat2 cat3 c
C++ 的异步函数调用

我需要提示如何在 C C 中实现异步函数调用或 Windows 和或 Linux 的框架 API 调用的名称用例如下父线程调用函数该函数创建一个子线程并返回因此调用是非阻塞的父线程可以继续执行某些工作例如 pthread j
React PropTypes：数字范围

有没有更好的方法来验证如果数字在范围内避免写作 PropTypes oneOf 1 2 3 4 5 6 7 8 9 10 根据文档 https reactjs org docs typechecking with proptypes ht
Sentry django 配置 - 记录器

我正在尝试使用简单的日志记录并希望将错误异常发送到 Sentry 我按照文档配置了 Sentry 并在我的开发人员上成功运行了测试 python manage py raven test 我添加了日志记录配置如下所示哨兵文档 https
使用 Struts 2 的 RESTful Web 服务

我们正在评估一种教育活动设计我们希望以 RESTful Web 服务的形式创建完整的后端处理业务逻辑这些服务可供各种应用程序使用从 Struts 2 框架调用这些 Web 服务是个好主意吗我读了几篇文档但人们不鼓励这样做我们很
REST 服务上的错误请求错误使用 POST（json 数据）调用方法？

您好我是 RESTful WCF 的新手我正在尝试使用 POST 对 Web 服务方法进行简单调用这是我的代码 Service Interface code ServiceContract public interface IJson
对于包含“+”的 Artifact 版本，Azure Artifact 发布失败

我一直在尝试将 java 模块 jar 的工件发布到 Azure Artifact 但收到错误 404 经过一段时间的调试我已经意识到我的语义版本 https semver org spec item 10破坏了 URL 1 0 2 bet
Ruby Koans #75 test_constants_become_symbols，正确答案？

我的问题建立在这个问题的基础上 Ruby Koan 常量变成符号 https stackoverflow com questions 5358727 ruby koan constants become symbols 我有以下代码 in
使用MySqlCommand参数时如何查看命令字符串？

代码如下 MySqlCommand cmd new MySqlCommand SELECT FROM DB name here WHERE some field some value cmd Parameters AddWithValue
该应用程序引用 Payload Capacitor.Framework STATE_ERROR.VALIDATION_ERROR.50 中的非公共选择器

今天我在尝试将电容器应用程序上传到 App Store 时遇到了问题该应用程序是在几天前发布的据我了解上传的任何关键内容都没有改变我收到的错误也没有说明实际问题 The error looks the following 并说该
Azure Function Docker 无法使用 http 触发器

最近我使用具有 HttpTrigger 的 Azure Function 节点创建了一个 docker 映像这是默认生成的基本 HttpTrigger 我正在 Macbook Pro MoJave 上开发此程序并且安装了以下工具 N
如何根据鼠标位置显示工具提示？ - JavaFX

我有一个stackPane 充满一个圆圈和几条线我想在将鼠标悬停在 StackPane 上时显示工具提示并且工具提示应包含X Y coords鼠标的我知道如何获取鼠标的坐标但我无法找到显示工具提示的方法你们中有人能帮我吗安舒尔
如果包含字符串列表，则过滤 pyspark 数据帧

假设我们有一个 pyspark 数据框其列之一 column a 包含一些字符串值并且还有一个字符串列表 list a 数据框 column a count some string 10 another one 20 third str

如果包含字符串列表，则过滤 pyspark 数据帧

如果包含字符串列表，则过滤 pyspark 数据帧 的相关文章

随机推荐

热门标签

如果包含字符串列表，则过滤 pyspark 数据帧的相关文章