PySpark：搜索文本和子集数据框中的子字符串

2023-12-24

我是全新的pyspark并想翻译我现有的pandas / python代码到PySpark.

我想子集我的dataframe这样只有包含我要查找的特定关键字的行'original_problem'字段被返回。

下面是我在 PySpark 中尝试的 Python 代码：

def pilot_discrep(input_file):

    df = input_file 

    searchfor = ['cat', 'dog', 'frog', 'fleece']

    df = df[df['original_problem'].str.contains('|'.join(searchfor))]

    return df

当我尝试运行上述命令时，出现以下错误：

AnalysisException：u“无法从原始问题中提取值#207：需要结构类型但得到字符串；”

在 pyspark 中，尝试以下操作：

df = df[df['original_problem'].rlike('|'.join(searchfor))]

或者等价地：

import pyspark.sql.functions as F
df.where(F.col('original_problem').rlike('|'.join(searchfor)))

或者，你可以去udf:

import pyspark.sql.functions as F

searchfor = ['cat', 'dog', 'frog', 'fleece']
check_udf = F.udf(lambda x: x if x in searchfor else 'Not_present')

df = df.withColumn('check_presence', check_udf(F.col('original_problem')))
df = df.filter(df.check_presence != 'Not_present').drop('check_presence')

但 DataFrame 方法是首选，因为它们会更快。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

string

Search

PySpark

Substring

subset

PySpark：搜索文本和子集数据框中的子字符串的相关文章

C语言中的“宽字符串”是什么？

我在书中看到这样一句话 wscanf L lf variable 其中第一个参数的类型为wchar t 这不同于scanf lf variable 其中第一个参数的类型为char 那么比起来有什么区别呢我以前从未听说过宽字符串我听说过
C# 从带引号的字符串中删除分隔符

我正在编写一个程序必须从文本文件中带引号的字符串中删除分隔符例如 Hello my name is world 必须 Hello my name is world 起初这听起来很简单我认为是这样但是您需要检测引号何时开始何时结束
Knuth-Morris-Pratt 算法

解决方案是Knuth Morris Pratt 算法 https en wikipedia org wiki Knuth E2 80 93Morris E2 80 93Pratt algorithm 干草堆 AAAAAAAAA 针 AAA
如何使用 with open 在 pySpark 中打开存储在 HDFS 中的文件

如何打开存储在 HDFS 中的文件这里输入文件来自 HDFS 如果我按如下方式提供文件我将无法打开它将显示为找不到文件 from pyspark import SparkConf SparkContext conf SparkConf
使用 HashMap 映射 String 和 int

我有一个显示国家地区名称的列表视图我已将名称作为字符串数组存储在 strings xml 中称为国家地区名称在填充 ListView 时我使用从 strings xml 读取的 ArrayAdapter String count
从字符串中删除重音符号

Android 中有没有什么方法据我所知没有 java text Normalizer 可以从字符串中删除任何重音例如变成 eau 如果可能的话我想避免解析字符串来检查每个字符 java text NormalizerAndroi
Spark、pyspark中从TF-IDF到LDA聚类

我正在尝试对存储在格式键 listofwords 中的推文进行聚类我的第一步是使用 dataframe 提取单词列表的 TF IDF 值 dbURL hdfs pathtodir file sc textFile dbURL Define
SQL 查询结果为字符串（或变量）

是否可以将SQL查询结果输出到一个字符串或变量中我的php和mysql不好假设我有数据库 agents 其中包含列 agent id agent fname agent lname agent dept 使用此查询 sql SELECT
假装 .NET 字符串是值类型

在 NET 中字符串是不可变的并且是引用类型变量这通常会让新的 NET 开发人员感到惊讶因为他们的行为可能会将它们误认为是值类型对象然而除了使用实践StringBuilder对于长连接尤其是在循环中在实践中是否有任何理由需
为什么 JavaScript 中是 [1,2] + [3,4] = "1,23,4" ？

我想将一个数组的元素添加到另一个数组中所以我尝试了以下方法 1 2 3 4 它的回应是 1 23 4 到底是怎么回事 The 操作员没有为数组定义发生的事情是 JavaScript将数组转换为字符串并将它们连接起来 Update 由于这
PySpark - RDD 到 JSON

我有一个 Hive 查询返回以下格式的数据 ip category score 1 2 3 4 X 5 10 10 10 10 A 2 1 2 3 4 Y 2 12 12 12 12 G 10 1 2 3 4 Z 9 10 10 10 10
将字符串转换为字符并按降序排序（ascii）

我正在创建一个程序该程序将使用户输入整数一个接一个存储在数组中并按降序显示整数该程序还要求用户输入一个字符串使用以下命令将其转换为字符string toCharArray 我已经正确地按降序显示整数问题是我不知道如何按降序显示字
如何在 JScript 中解码 Base64 字符串

我必须在 JScript 中解码 Base64 字符串并且我已经尝试使用此代码来执行目的操作 var xmlDom new ActiveXObject Microsoft XMLDOM var el xmlDom createElemen
如何判断一个字符串是否包含特定子串

给定一个字符串A 如何确定该字符串是否包含子字符串 video x flv A indexOf video x flv gt 0
如何在Python中不使用库函数将字符串转换为整数？

我正在尝试转换 a 546 to a 546 不使用任何库函数我能想到的最纯粹 gt gt gt a 546 gt gt gt result 0 gt gt gt for digit in a result 10 for d in 01
捕获按键以过滤元素

我正在创建一个
PHP中特殊字符的转换

我已经尝试了很多功能但我根本无法弄清楚这一点无论如何正确的方法在称为描述的表单字段中我可以期待各种字符在将它们提交到数据库之前需要将它们格式化为 HTML 实体现在我的代码 formdesc htmlentities PO
根据 R 中的字符串模式选择行

假设我有以下数据 df lt data frame name c TO for Turnover for people HC people Hello world beenie man apple pears TO is number c
Python，将字典存储在数据库中

在数据库中存储和检索 python 字典的最佳方法是什么如果您对使用传统 SQL 数据库例如 MySQL 不是特别感兴趣您可以研究非结构化文档数据库其中文档自然映射到 python 字典例如MongoDB http www mon
正则表达式 - 避免表达式中出现字符串

我正在尝试创建一个应该匹配以下情况的正则表达式如果单词完全匹配 first second third 那么匹配应该失败但如果它周围有任何字符那么应该匹配该字符串我还需要避免字符串中的某些字符集如果这些字符是字符串的一部分则匹配结

随机推荐

HSQLDB 可以处理几百万行吗？

我正在开发一个需要数据库的单用户应用程序大多数表都具有合理数量的数据但也有一些表可能会增长到数百万行我的任何查询都不会返回大型结果集有人知道 HSQLDB 是否可以处理这么大量的行吗 From HSQLDB 官方页面 http ww
内存层次结构 - 为什么寄存器昂贵？

我明白那个 Faster访问时间 gt More昂贵的 Slower访问时间 gt Less昂贵的我还了解到寄存器是层次结构的顶部并且具有最快的访问时间我很难研究的是why这么贵吗据我所知寄存器实际上是直接内置于 ALU 中的电路
给定年份和月份的月份函数的最后一天

多次单步执行代码后我无法找到具体导致此错误的原因我希望有人以前见过这个错误这就是我的think与问题相关 Load packages library lubridate MONTH lt 1 YEAR lt 2018 Last day
如何使用 ie11 在 Threejs 中加载 gltf 场景

我使用 Three js 及其 gltfloader js 编写了一个简单的 html 来加载 gltf 模型它在 Mozilla 上完美运行但即使没有错误它也不会显示在 ie11 上我尝试过使用 es6 promise polly
使用 python lxml xpath 迭代表中的所有行

这是我想要从中提取数据的html页面的源代码网页该表格位于页面底部 table class clCommonGrid cellspacing 0 thead tr td Kommande matcher td tr tr th th t
游戏开发方面 SharpDX 与 SlimDX 比较？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
使用 cypress 从数据库中检索值

谁能帮我解决以下场景我必须执行一个select语句并使用 Cypress 将查询结果存储在变量中下面是我尝试过的代码我想存储查询结果 select id from invoices where INumber invoiceNumbe
如何在 OpenGL 中可视化深度纹理？

我正在研究阴影贴图算法我想调试它在第一次传递时生成的深度图但是深度纹理似乎无法正确渲染到视口有没有简单的方法可以将深度纹理显示为灰度图像最好不使用着色器您可能需要更改深度纹理参数以将其显示为灰度级别 glTexParameter
使用 scipy.optimize 动态选择要最小化 python 中函数的参数

我有一个函数它接受变量列表作为参数我想使用 scipy optimize minimize 最小化这个函数问题在于它是在运行时决定应该对参数列表中的哪个变量进行最小化的所有其他变量将获得固定值让我们举个例子来说明一下 a 1 c
require 的行为（静态 + 动态）[ RAKU ]

我的问题与以下行为有关require当与所需命名空间的静态或动态解析一起使用时我将尝试表达我对事物的理解 1 将 require 与文字一起使用 require MODULE 在这种情况下编译器会检查 MODULE 是否已被声明为符号
在运行时保存并重新加载 app.config(applicationSettings)

我已将应用程序的配置存储在 app config 中通过 Visual Studio 我在项目属性对话框的设置选项卡上创建了一些应用程序密钥然后我在应用程序级别而不是用户级别设置了该密钥 Visual Studio 自动生成以下 x
在操作方法中填充模型后对话框未更新

我正在使用 primefaces 对话框我有一个项目列表每当我选择一个项目时我希望对话框显示该项目名称然而这并没有发生该对话框根本不显示任何名称而不是显示项目名称我在下面发布了我的代码
NSubstitute ILogger .NET Core

我正在尝试围绕异常处理编写单元测试以便可以验证我的记录器是否正确记录了异常我使用 NSubstitute 作为模拟框架Microsoft Extensions Logging ILogger我必须遵循我的测试 Fact public v
链接：警告 LNK4098：defaultlib 'MSVCRT' 与其他库的使用冲突；使用 /NODEFAULTLIB:库

当我尝试构建与 libeay32 lib 链接的源代码时我已经从 OpenSSL 源本地构建了这个我遇到了上述警告 LINK 警告 LNK4098 defaultlib MSVCRT 与其他库的使用冲突使用 NODEFAULTLIB
GIT-SVN克隆命令执行没有错误，但本地master分支丢失

我正在尝试使用 GIT SVN 但在启动时遇到问题我可以克隆 svn 存储库或使用 git svn init 然后使用 git svn fetch 不会出现任何错误但在命令停止处理后 git 存储库为空并且没有本地主分支我的 sv
某些客户端的 HTTP 标头的字符被随机替换

正在进行网络流量和日志分析但有很多从客户端传递的格式错误的标头这些字符被转调或替换为 x 有谁知道它们来自哪里或为什么这是某种安全尝试还是更邪恶的行为例子 xroxy connection Keep Alive cneoction
有人在 Solaris 10x86 上安装了 Rails 3

我想要一种在未连接到互联网的 Solaris 10 x86 服务器上安装 Rails 3 的简单方法我可以下载文件并刻录到 DVD 或记忆棒并以这种方式安装有些软件包是最好的因为并不真正期待从源代码编译有没有人做过这个或看过任何有关
实体框架代码优先迁移和 Firebird

我正在尝试在 Firebird 2 5 数据库上启用迁移我正在使用 VS2015 ADO 驱动程序和实体提供程序已安装并正常工作我对数据库进行了逆向工程进行了必要的更改以使其正常工作我可以在包管理器控制台上执行启用迁移并添加迁移
将 vCard 数据直接添加到系统地址簿

我正在设计一个QR码阅读器它需要检测并导入vCard格式 vcf 的联系人卡片有没有办法直接将名片数据添加到系统地址簿中或者我需要自己解析vCard并单独添加每个字段如果您在 iOS 5 或更高版本上运行以下代码应该可以解决问题
PySpark：搜索文本和子集数据框中的子字符串

我是全新的pyspark并想翻译我现有的pandas python代码到PySpark 我想子集我的dataframe这样只有包含我要查找的特定关键字的行 original problem 字段被返回下面是我在 PySpark 中尝试的

PySpark：搜索文本和子集数据框中的子字符串

PySpark：搜索文本和子集数据框中的子字符串 的相关文章

随机推荐

热门标签

PySpark：搜索文本和子集数据框中的子字符串的相关文章