计算 pyspark df 列中子字符串列表的出现次数

2024-05-15

我想计算子字符串列表的出现次数，并根据 pyspark df 中包含长字符串的列创建一个列。

Input:          
       ID    History

       1     USA|UK|IND|DEN|MAL|SWE|AUS
       2     USA|UK|PAK|NOR
       3     NOR|NZE
       4     IND|PAK|NOR

 lst=['USA','IND','DEN']


Output :
       ID    History                      Count

       1     USA|UK|IND|DEN|MAL|SWE|AUS    3
       2     USA|UK|PAK|NOR                1
       3     NOR|NZE                       0
       4     IND|PAK|NOR                   1

# Importing requisite packages and creating a DataFrame
from pyspark.sql.functions import split, col, size, regexp_replace
values = [(1,'USA|UK|IND|DEN|MAL|SWE|AUS'),(2,'USA|UK|PAK|NOR'),(3,'NOR|NZE'),(4,'IND|PAK|NOR')]
df = sqlContext.createDataFrame(values,['ID','History'])
df.show(truncate=False)
+---+--------------------------+
|ID |History                   |
+---+--------------------------+
|1  |USA|UK|IND|DEN|MAL|SWE|AUS|
|2  |USA|UK|PAK|NOR            |
|3  |NOR|NZE                   |
|4  |IND|PAK|NOR               |
+---+--------------------------+

这个想法是根据这三个来分割字符串delimiters: lst=['USA','IND','DEN']然后计算产生的子串的数量。

例如；字符串USA|UK|IND|DEN|MAL|SWE|AUS被分裂像 -,, |UK|, |, |MAL|SWE|AUS。因为创建了 4 个子字符串并且有 3 个分隔符匹配，所以4-1 = 3给出出现在列字符串中的这些字符串的计数。

我不确定 Spark 中是否支持多字符分隔符，因此第一步，我们替换列表中的这 3 个子字符串中的任何一个['USA','IND','DEN']带有标志/虚拟值%。您也可以使用其他东西。以下代码执行此操作replacement http://spark.apache.org/docs/2.4.0/api/python/pyspark.sql.html#pyspark.sql.functions.regexp_replace -

df = df.withColumn('History_X',col('History'))
lst=['USA','IND','DEN']
for i in lst:
    df = df.withColumn('History_X', regexp_replace(col('History_X'), i, '%'))
df.show(truncate=False)
+---+--------------------------+--------------------+
|ID |History                   |History_X           |
+---+--------------------------+--------------------+
|1  |USA|UK|IND|DEN|MAL|SWE|AUS|%|UK|%|%|MAL|SWE|AUS|
|2  |USA|UK|PAK|NOR            |%|UK|PAK|NOR        |
|3  |NOR|NZE                   |NOR|NZE             |
|4  |IND|PAK|NOR               |%|PAK|NOR           |
+---+--------------------------+--------------------+

最后，我们计算创建的子字符串的数量splitting http://spark.apache.org/docs/2.4.0/api/python/pyspark.sql.html#pyspark.sql.functions.split它首先与%作为分隔符，然后计算使用创建的子字符串的数量size http://spark.apache.org/docs/2.4.0/api/python/pyspark.sql.html#pyspark.sql.functions.size函数，最后减去 1。

df = df.withColumn('Count', size(split(col('History_X'), "%")) - 1).drop('History_X')
df.show(truncate=False)
+---+--------------------------+-----+
|ID |History                   |Count|
+---+--------------------------+-----+
|1  |USA|UK|IND|DEN|MAL|SWE|AUS|3    |
|2  |USA|UK|PAK|NOR            |1    |
|3  |NOR|NZE                   |0    |
|4  |IND|PAK|NOR               |1    |
+---+--------------------------+-----+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

计算 pyspark df 列中子字符串列表的出现次数的相关文章

如何将base64字符串直接解码为二进制音频格式

音频文件通过 API 发送给我们该文件是 Base64 编码的 PCM 格式我需要将其转换为 PCM 然后再转换为 WAV 进行处理我能够使用以下代码解码 gt 保存到 pcm gt 从 pcm 读取 gt 保存为 wav decod
JavaScript 相当于 Python 的参数化 string.format() 函数

这是 Python 示例 gt gt gt Coordinates latitude longitude format latitude 37 24N longitude 115 81W Coordinates 37 24N 115 81W
for 循环如何评估其参数

我的问题很简单 Does a for循环评估它每次使用的参数 Such as for i in range 300 python 是否会为此循环的每次迭代创建一个包含 300 个项目的列表如果是的话这是避免这种情况的方法吗 lst ra
Python在postgresql表中查找带有单引号符号的字符串

我需要从 psql 表中查找包含多个单引号的字符串我当前的解决方案是将单引号替换为双单引号如下所示 sql query f SELECT exists SELECT 1 FROM table name WHERE my column m
希伯来语中的稀疏句子标记化错误

尝试对希伯来语使用稀疏句子标记 import spacy nlp spacy load he doc nlp text sents list doc sents I get Warning no model found for he Onl
TF map_fn 或 while_loop 用于不同形状的张量列表

我想处理不同形状的张量序列列表并输出另一个张量列表考虑每个时间戳上具有不同隐藏状态大小的 RNN 就像是输入 tf ones 1 2 2 tf ones 2 2 3 tf ones 3 2 1 输出 tf zeros 1 2 4 t
当我在 Pandas 中使用 df.corr 时，我的一些列丢失了

这是我的代码 import numpy as np import pandas as pd import seaborn as sns import matplotlib pyplot as plt data pd read csv dea
当单词以“|”分隔时如何读取文件（埃因霍温）？

在Python中我有一个文件其中的单词由例如 city state zipcode 我的文件阅读器无法区分单词另外我希望我的文件阅读器从第 2 行而不是第 1 行开始如何让我的文件阅读器分隔单词 import os import
更改 Altair 中的构面标题位置？

如何将方面标题在本例中为年份移动到每个图的上方默认值似乎位于图表的一侧这可以轻易改变吗 import altair as alt from vega datasets import data df data seattle weat
WindowsError：[错误 126] 使用 ctypes 加载操作系统时

python代码无法在Windows 7平台上运行 def libSO lib ctypes cdll LoadLibrary ConsoleApplication2 so lib cfoo2 1 3 当我尝试运行它时得到来自python
Python Fabric - 未找到主机。请指定用于连接的（单个）主机字符串：

如何获取找不到主机请指定用于连接的单个主机字符串面料如何解决 def bootstrap host ec2 54 xxx xxx xxx compute 1 amazonaws com env hosts host env use
python 中的 Johansen 协整检验

我找不到任何有关在处理统计和时间序列分析 pandas 和 statsmodel 的 Python 模块中执行 Johansen 协整检验的功能的参考有谁知道是否有一些代码可以执行时间序列之间的协整测试现在这已在 Python 的 s
与 while 循环一样，如何跳过 for 循环中的步骤？

我尝试像 while 循环一样跳过 for 循环中的几个步骤在 while 循环中步骤根据特定条件进行调整如下面的代码所示 i 0 while i lt 10 if i 3 i 5 else print i i i 1 result
Python多处理错误“ForkAwareLocal”对象没有属性“连接”

下面是我的代码我面临着多处理问题我看到这个问题之前已经被问过我已经尝试过这些解决方案但它似乎不起作用有人可以帮我吗 from multiprocessing import Pool Manager Class X def init
Python 惰性迭代器

我试图了解迭代器表达式如何以及何时被求值以下似乎是一个懒惰的表达 g i for i in range 1000 if i 3 i 2 然而这个在构造上失败了 g line strip for line in open xxx r if
将文本注释到轴并对齐为圆

我正在尝试在轴上绘制文本并将该文本与圆对齐更准确地说有一些具有不同坐标 x y 的点位于该圆内并使用以下命令创建 ax scatter x y s 100 我想用圆圈连接并标记每个点 Cnameb 文本的坐标由 xp yp 定义因此
Python 类型安全吗？

根据维基百科 https en wikipedia org wiki Type system Type safety and memory safety 如果一种语言不允许违反类型系统规则的操作或转换计算机科学家就认为该语言是类型安全的
Python]将两个文本文件合并为一个（逐行）[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我是蟒蛇新手我想做的是将文件 a 和文件 b 逐行合并到一个文件中例如 text file a a n b n c text fi
无法在 python 3.8 上将带有 webapp 的 python 部署到 azure

我正在尝试使用部署一个测试项目Flask使用以下方法将框架迁移到 Azure 云中Azure CLI https learn microsoft com en us azure app service containers quicksta
是否可以将 pd.Series 分配给无序 pd.DataFrame 中的列而不映射到索引（即不重新排序值）？

在 Pandas 中创建或分配新列时我发现了一些意外的行为当我对 pd DataFrame 进行过滤或排序从而混合索引然后从 pd Series 创建新列时 Pandas 会重新排序该系列以映射到 DataFrame 索引例如 d

随机推荐

VBA根据单元格的值是否为零显示/隐藏行

我有一个 Excel 工作表我想根据另一个单元格中的值隐藏或取消隐藏某些行简而言之整个事情应该取决于单元格中的值C2 D2 E2 If C2 is blank我想rows 31 to 40被隐藏如果是的话不为空他们需要是visib
Git：显示分支之间的差异，忽略合并的提交

我的存储库历史记录看起来像这样 x y z branch a b c d e master 我想获得 branch 完整历史记录的单个差异即像 git diff 输出我不想要像 git log p 产生的一大堆差异而不包括任何从 m
使用 HtmlUnit 定位弹出窗口

我正在构建一个登录网站并抓取一些数据的程序登录表单是一个弹出窗口所以我需要访问这个www betexplorer com网站在页面的右上角有一个登录链接写着登录我单击该链接然后出现登录弹出表单我能够找到顶部的登录链接但找不
WPF：使用 StringFormat={}{0:F2} 进行文本框绑定。不显示零

我使用以下 XAML 将对象绑定到 TextBox
Xcode 在代码签名身份中看不到我的开发人员证书

我续订了 IOS 开发人员证书从钥匙串中删除了旧证书然后单击了我的证书钥匙串中的一切看起来都很正常我有分发开发人员 WWDC 证书每个配置文件看起来都有效并带有绿色标记在组织器中的团队和配置文件部分下但在代码签名身份下的
在 Spring 上下文中查找方法级自定义注释

我想知道的是所有的类方法Spring http en wikipedia org wiki Spring Framework注释为 Versioned的bean 我创建了自定义注释 Target ElementType METHOD E
shell_exec 的输出被截断为 100 个字符

当在 shell 中运行以下命令时 curl F file filename http 192 168 0 1 产生以下输出 Accuracy 0 0 1 classification Accuracy 0 0 1 classificati
是否有相当于 Clang/LLVM 的 .spec 文件，在哪里可以找到参考？

The gcc驱动程序可以配置为使用特定的链接器特定的选项和其他细节例如覆盖系统头 specs files 当前截至撰写本文时 GCC 版本 4 9 0 的手册此处描述了规范文件 https gcc gnu org onlinedoc
将应用程序登录凭据发送给 AppStore 审核者

我刚刚将我的应用程序上传到应用程序商店该应用程序需要用户名密码才能登录但在上传过程中从未提示我输入任何凭据有谁知道我如何向审阅者发送我的凭据而不必等待他们审阅并请求凭据您编辑应用程序元数据标题描述关键字等的页面最底部字段
Ruby on Rails REST 设计问题 - 在账户之间转账

我有一个 Account 类想要实现转账屏幕以允许用户在 2 个账户之间转账我将如何实现这种 RESTful 方式我有标准帐户和休息操作那很好但我该如何实现转移呢通常我只会向帐户控制器和相应的视图添加一个名为 transfer
将 JScrollPane 添加到 JFrame

我有一个关于向 Java 框架添加组件的问题我有一个带有两个按钮的 JPanel 和一个添加了 JTable 的 JScrollPane 我想将这两个添加到 JFrame 中我可以将 JPanel 添加到 JFrame 或将 JScro
如何分析组合的 python 和 c 代码

我有一个由多个 python 脚本组成的应用程序其中一些脚本正在调用 C 代码该应用程序现在的运行速度比以前慢得多因此我想对其进行分析以查看问题所在是否有工具软件包或只是一种分析此类应用程序的方法有一个工具可以将 python
Laravel 意外错误“类用户包含 3 个抽象方法...”

在 Laravel 上编写我的身份验证应用程序时我遇到了一个以前从未见过的错误我已经集思广益了近一个小时来解决这个问题的原因但仍然找不到解决方案 Error User 类包含 3 个抽象方法因此必须声明为抽象方法或实现其余方法 Il
线性同余生成器 - 如何选择种子和统计检验

我需要做一个线性同余生成器它将成功通过所选的统计测试我的问题是如何正确选择发电机的数字以及我应该选择哪些统计检验我想均匀性的卡方频率测试每代收集10 000个号码的方法将 0 1 细分为10个相等的细分柯尔莫哥洛夫斯米尔
Coldfusion CreateDate 问题

我遇到了一些麻烦CreateDate 函数它只是出错我不知道为什么我正在运行此查询以获取新闻报道中的所有日期以便我可以每月创建一个新闻档案
如何在c的case语句中使用省略号？

CASE expr no commas ELLIPSIS expr no commas 我在c的语法规则中看到了这样的规则但是当我尝试重现它时 int test float i switch i case 1 3 printf hi 它失
ASP.NET MailMessage.BodyEncoding 和 MailMessage.SubjectEncoding 默认值

很简单的问题但我在 MSDN 上找不到答案查找 ASP NET 将用于的默认值 MailMessage BodyEncoding and MailMessage SubjectEncoding 如果你不在代码中设置它们 Thanks F
iOS 使用 NSColor 与 UIColor？

有什么区别UIColor and NSColor 什么时候会使用每一种我碰到NSColor在试图弄清楚的同时UIColor用于 iOS 中的属性字符串我理解使用UIColor对于 UIKit 等但我不认为NSColor对于这种事情确实
清理 html 字符串中的所有脚本

HTML5 剪贴板很棒但我正在寻找一种使其安全的方法用户正在将文本 html 粘贴到我的网页中这允许他们粘贴图像表格等我正在寻找一种方法在将粘贴的内容添加到页面之前删除所有脚本我需要删除
计算 pyspark df 列中子字符串列表的出现次数

我想计算子字符串列表的出现次数并根据 pyspark df 中包含长字符串的列创建一个列 Input ID History 1 USA UK IND DEN MAL SWE AUS 2 USA UK PAK NOR 3 NOR NZE 4

计算 pyspark df 列中子字符串列表的出现次数

计算 pyspark df 列中子字符串列表的出现次数 的相关文章

随机推荐

热门标签

计算 pyspark df 列中子字符串列表的出现次数的相关文章