Pyspark 删除数据帧列中的多个字符

2024-04-25

看看 pyspark，我明白了translate and regexp_replace帮助我了解数据框列中存在的单个字符。

我想知道是否有一种方法可以在regexp_replace or translate这样它就会解析它们并用其他东西替换它们。

用例：删除 A 列中的所有 $、# 和逗号 (,)

您可以使用pyspark.sql.functions.translate() http://spark.apache.org/docs/2.1.0/api/python/pyspark.sql.html#pyspark.sql.functions.translate进行多次替换。传入要替换的字母字符串和另一个表示替换值的相同长度的字符串。

例如，假设您有以下 DataFrame：

import pyspark.sql.functions as f
df = sqlCtx.createDataFrame([("$100,00",),("#foobar",),("foo, bar, #, and $",)], ["A"])
df.show()
#+------------------+
#|                 A|
#+------------------+
#|           $100,00|
#|           #foobar|
#|foo, bar, #, and $|
#+------------------+

并想更换('$', '#', ',') with ('X', 'Y', 'Z')。只需使用translate like:

df.select("A", f.translate(f.col("A"), "$#,", "XYZ").alias("replaced")).show()
#+------------------+------------------+
#|                 A|          replaced|
#+------------------+------------------+
#|           $100,00|           X100Z00|
#|           #foobar|           Yfoobar|
#|foo, bar, #, and $|fooZ barZ YZ and X|
#+------------------+------------------+

如果您想删除所有实例('$', '#', ',')，你可以这样做pyspark.sql.functions.regexp_replace() http://spark.apache.org/docs/2.1.0/api/python/pyspark.sql.html#pyspark.sql.functions.regexp_replace.

df.select("A", f.regexp_replace(f.col("A"), "[\$#,]", "").alias("replaced")).show()
#+------------------+-------------+
#|                 A|     replaced|
#+------------------+-------------+
#|           $100,00|        10000|
#|           #foobar|       foobar|
#|foo, bar, #, and $|foo bar  and |
#+------------------+-------------+

图案"[\$#,]"表示匹配括号内的任何字符。这$必须转义，因为它在正则表达式中具有特殊含义。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

PySpark

translate

regexpreplace

Pyspark 删除数据帧列中的多个字符的相关文章

pyspark：类型错误：IntegerType 无法接受类型为的对象

在 Spark 集群上使用 pyspark 进行编程数据很大并且是碎片因此无法加载到内存中或轻松检查数据的完整性基本上看起来像 af b Current 20events 1 996 af b Kategorie Musiek 1 4
delta Lake - 在 pyspark 中插入 sql 失败，并显示 java.lang.NoSuchMethodError: org.apache.spark.sql.catalyst.expressions.Alias

Dataproc 集群是使用映像创建的2 0 x带有 Delta io 包io delta delta core 2 12 0 7 0 Spark版本是3 1 1 Spark shell 启动于 pyspark conf spark sql
Spark任务仅在一个执行器上运行

大家好首先我知道这个线程的存在 Spark 中的任务仅在一个执行器上运行 https stackoverflow com questions 53425983 task is running on only one executor in
PySpark 中按降序排序

我正在使用 PySpark Python 2 7 9 Spark 1 3 1 并有一个数据框 GroupObject 我需要按降序过滤和排序试图通过这段代码来实现它 group by dataframe count filter coun
Spark：相当于数据帧中的 zipwithindex

假设我有以下数据框 dummy data a 1 b 25 c 3 d 8 e 1 df sc parallelize dummy data toDF letter number 我想创建以下数据框 a 0 b 2 c 1 d 3 e 0
Sparksql 多条件过滤（使用where子句选择）

您好我有以下问题 numeric registerTempTable numeric 我想要过滤的所有值都是文字空字符串而不是 N A 或空值我尝试了这三个选项 numeric filtered numeric filter nume
如果我们在更大的表中使用广播会发生什么？

我想知道如果我们广播较大的表并将其加入到较小的表中会发生什么另外如果我们有两个同样大的表在这种情况下使用广播连接会发生什么有几件事需要考虑火花上限 Spark支持最大8GB的广播表如果你的广播对象超过这个数量它就会失败驱动程
如何使用 pyspark 从 s3 存储桶读取 csv 文件

我正在使用 Apache Spark 3 1 0 和 Python 3 9 6 我正在尝试从 AWS S3 存储桶读取 csv 文件如下所示 spark SparkSession builder getOrCreate file s3 b
在 PySpark 中展平动态嵌套结构（结构内的结构）

我正在努力展平结构内有结构的 JSON 模式问题是内部结构名称是动态的因此我无法使用轻松访问它们概念该架构类似于 root A string nullable true Plugins struct nullable true R
如何在 AWS Glue 中使用 Spark 包？

我想使用 DatastaxSpark Cassandra 连接器 https mvnrepository com artifact com datastax spark spark cassandra connector 2 12 2 5
PySpark 将“map”类型的列转换为数据框中的多列

Input 我有一个专栏Parameters类型的map形式 from pyspark sql import SQLContext sqlContext SQLContext sc d Parameters foo 1 bar 2 baz
使用 selectExpr 选择其中包含特殊字符的 Spark 数据框列

我所处的场景是我的列名称Munic pio字母上有重音 My selectExpr命令因此失败有办法解决吗基本上我有类似以下的表达式 selectExpr CAST Munic pio as string as Munic pio 我真
Spark Mongo 连接器，MongoShardedPartitioner 不起作用

出于测试目的我配置了一个 4 节点集群每个节点都有一个 Spark Worker 和一个 MongoDB Shard 这些是详细信息四台 Debian 9 服务器名为 Visa0 Visa 1 Visa 2 Visa 4 个节点上的
将数据作为 RDD 保存回 Cassandra

我试图从 Kafka 读取消息处理数据然后将数据添加到 cassandra 中就像它是 RDD 一样我的麻烦是将数据保存回 cassandra 中 from future import print function from pys
PySpark 用数组替换 Null

通过 ID 连接后我的数据框如下所示 ID Features Vector 1 50 Array 1 1 2 3 2 50 Null 我最终得到向量列中某些 ID 的空值我想用 300 维的零数组替换这些 Null 值与非空向量条
如何从 PySpark 中某个表中找到的多个表中获取所有数据？

我正在使用 pyspark SQL 我有一个包含三列的表 MAIN TABLE DATABASE NAME TABLE NAME SOURCE TYPE 我想从 DATABASE NAME 和 TABLE NAME 列中的主表下找到的实际数
从 pandas udf 记录

我正在尝试从 python 转换中调用的 pandas udf 进行日志记录因为在执行器上调用的代码不会显示在驱动程序的日志中我一直在寻找一些选项但到目前为止最接近的选项是这个one https stackoverflow com q
在 kubernetes 上安装 PySpark 软件包时出现 Spark-Submit：ivy-cache 文件未找到错误

我一整天都在与它斗争我能够安装并使用带有 Spark shell 或连接的 Jupiter 笔记本的包 graphframes 但我想使用 Spark Submit 将其移动到基于 kubernetes 的 Spark 环境我的火花版
pyspark：将多个数据帧字段传递给 udf

我是 Spark 和 Python 的新手任何帮助表示赞赏我有一个 UDF 并使用 US zipcd 纬度和经度创建了一个 Spark 数据框 UDF import math def distance origin destinatio
Spark：出现心跳错误后丢失数据

我有一个在 Spark 集群上运行的 Python 程序有四个工作线程它处理一个包含大约 1500 万条记录的巨大 Oracle 表检查结果后发现大约有600万条记录没有插入我的写入功能如下 df write format jdbc

随机推荐

Web 事件提供程序“EventLogProvider”引发以下异常 [已关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我无法让新的 ASP NET 4 0
在 Tensorboard 中获取简单的绘图

我正在尝试在张量板上画一个简单的图就像他们在主页上一样如下所示 To understand how this is working I ve wrote the following import tensorflow as tf imp
具有异构数据类型的 3 个字段的多列索引

我有一个包含 3 个字段的 postgres 表 a postgis几何 b 数组 varchar c 整数我有一个涉及所有这些的查询我想添加一个多列索引来加快速度但我不能因为这 3 个字段由于其性质而不能位于同一索引下这种情况下
创建当前日期的查询匹配[重复]

这个问题在这里已经有答案了可能的重复在 JPA 查询中使用 CURRENT DATE 的示例 https stackoverflow com questions 1637323 example of using current date
ASP.Net Identity 2.0：用户是System.Web.Security.RolePrincipal，为什么？

我正在尝试在现有应用程序中实现 Asp Net Identity 2 0 OWIN 但在角色方面我遇到了各种麻烦我从项目模板创建了一个示例项目并且据我所知我已将其中的所有内容复制到我的应用程序中我修改了连接信息以便身份验证表来自
.Net 与 Java 垃圾收集器

有谁知道 Java 和 Net 垃圾收集器之间的主要区别网上搜索并没有透露太多信息这是一个测试中出现的问题区别在于 CLR Net GC 和 JVM GC 之间而不是语言本身两者都可能发生变化并且其行为规范宽松允许在不影响程序
ASP.NET MVC 路由中的通配符

我正在使用 asp net mvc 与 vs2008 和 IIS7 我想要完成的是所有以 summer 开头的请求都路由到同一个控制器到目前为止我已经构建了大量的路线但它们都是针对一条路径的带有偏离参数的路径但这条路线必须路由 w
将输入类型数限制为角度 2 中的小数点后 2 位

我在一个html页面上有很多输入框我想限制用户输入小数点后两位后的任何数字目前尝试应用 html 5 input Step 0 00 但不起作用任何打字稿解决方案也可以请参阅以下指令的演示Plnkr https plnkr co e
JPQL 和联接表

我对 SQL 和 JPQL 的理解不是很好我一直在尝试创建以下 sql 语句的 JPQL 查询 select group from user user group group where user group user id user i
Elixir 中的递归和匿名函数

我正在尝试定义一个匿名函数来执行点积我可以将其编码为私有函数没有任何问题但我正在努力解决匿名函数语法我知道我可以以不同的方式实现这一点但我试图了解如何使用模式匹配和递归来定义匿名函数这是我当前的实现 dot fn i input
最大覆盖不相交间隔

假设您有 k 无法尝试所有可能的子集 2 k 不可行贪婪方法按 a i 区间覆盖算法排序按 b i 最大不相交区间数算法排序不起作用不知道是否有动态程序解决方案考虑到输入的大小我认为解决方案应该是 O k log k 或 O
JavaScript 中的奇怪字符导致其无法加载

我的网站在本地主机上运行良好我的 JavaScript 正在加载并运行良好但是当我部署站点时脚本不起作用当我右键单击页面并说查看源代码然后查看链接的脚本文件时文件开头有一些奇怪的字符函数在本地主机上我的脚本文件像这样开始
如何在powerpoint vba中制作进度条？

如何使用 PowerPoint VBA 制作进度条它应该作为幻灯片上的动画来完成这是您要找的吗 http www pptfaq com FAQ00597 htm http www pptfaq com FAQ00597 htm
`npm i` 命令有什么作用？

什么是i在 npm CLI 中执行命令我看到它是这样使用的 npm i package The iflag 是一个别名install so npm i package 是相同的 npm install package 从文档中 npm i
如何创建可以跨多个页面或在框架/iframe 内访问的全局 JSP 变量？

简而言之如何在 JSP 中创建全局变量以便可以跨其他 JSP 页面和或内部框架 iframe 访问它我尝试了但出现错误无法在单独的 jsp 页面中解析该变量是否有可能在多个页面中访问 JSP 变量而无需求助于查询字符串会话变
git tag -l 不会删除已删除的标签

这是场景我将我的存储库克隆到一个定期更新的目录 git pull 现在我又创建了一个目录并签出了相同的存储库我必须创建一些标签但我错误地创建了名称错误的标签所以我从第一个目录中删除了标签 git tag d old git push
错误：SPAN_EXCLUSIVE_EXCLUSIVE 跨度的长度不能为零

我的 Android 应用程序出现问题我有一个按钮和一个关联的事件但是当我第一次单击时出现错误跨度不能有零长度但是当我第二次单击时事件 onclick 运行良好看看我的java代码 public class MainActivi
如何调试 Apache mod_rewrite

我对 mod rewrite 有两个主要问题当我的规则无效时不会报告任何有意义的错误 To reliably test each modification I have to erase Google Chrome s cache Th
新的 Basecamp api 告诉我该地址没有 Basecamp 帐户

我是 Basecamp api 的新手在尝试最简单的示例时 curl u user pass H User Agent MyApp email protected cdn cgi l email protection https base
Pyspark 删除数据帧列中的多个字符

看看 pyspark 我明白了translate and regexp replace帮助我了解数据框列中存在的单个字符我想知道是否有一种方法可以在regexp replace or translate这样它就会解析它们并用其他东西替换它

Pyspark 删除数据帧列中的多个字符

Pyspark 删除数据帧列中的多个字符 的相关文章

随机推荐

热门标签

Pyspark 删除数据帧列中的多个字符的相关文章