从 pyspark 中的数据帧列中删除最后一个管道分隔值

2024-04-05

我正在使用 Spark 2.1 并且有一个数据框列包含类似的值AB|12|XY|4。我想通过删除最后一个元素来创建一个新列，所以它应该显示为AB|12|XY.

我尝试拆分，rsplit 不起作用，因此需要一些建议才能获得所需的输出。

使用 Spark SQLsplit功能 https://spark.apache.org/docs/2.1.0/api/python/pyspark.sql.html#pyspark.sql.functions.split如下：

>>> from pyspark.sql.functions import split
>>> json_data = ['{"c1":"AB|12|XY|4"}','{"c1":"11|22|33|44|remove"}']
>>> df        = spark.read.json(sc.parallelize(json_data))
>>> df.show()
+------------------+                   
|                c1|                  
+------------------+                  
|        AB|12|XY|4|                  
|11|22|33|44|remove|                  
+------------------+                  

>>> df2 = df.withColumn("c2", split(df.c1, '\|\w+$')[0])  # split takes a regex pattern
>>> df2.show()
+------------------+-----------+
|                c1|         c2|
+------------------+-----------+
|        AB|12|XY|4|   AB|12|XY|
|11|22|33|44|remove|11|22|33|44|
+------------------+-----------+

如果您需要做一些无法使用内置函数实现的更复杂的事情，您可以定义自己的用户定义函数（UDF）：

>>> from pyspark.sql.functions import udf
>>> from pyspark.sql.types import *
>>> def my_func(str):
...   return str.rsplit('|',1)[0]
...
>>> my_udf    = udf(my_func, StringType())
>>> json_data = ['{"c1":"AB|12|XY|4"}','{"c1":"11|22|33|44|remove"}']
>>> df        = spark.read.json(sc.parallelize(json_data))

>>> df2 = df.withColumn("c2", my_udf(df.c1))
>>> df2.show()
+------------------+-----------+ 
|                c1|         c2|
+------------------+-----------+
|        AB|12|XY|4|   AB|12|XY|
|11|22|33|44|remove|11|22|33|44|
+------------------+-----------+

内置SQL函数优先 http://www.cs.sfu.ca/CourseCentral/732/ggbaker/content/spark-sql.html#udf (also here http://www.cs.sfu.ca/CourseCentral/732/ggbaker/content/spark-sql.html#python-jvm）因为您的数据不会在 JVM 进程和 Python 进程之间来回传递，而这正是使用 UDF 时发生的情况。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

DataFrame

split

PySpark

从 pyspark 中的数据帧列中删除最后一个管道分隔值的相关文章

Spark SQL中如何按列降序排序？

I tried df orderBy col1 show 10 但它是按升序排列的 df sort col1 show 10 也按升序排序我查看了 stackoverflow 发现的答案都已过时或称为 RDD https stackove
在S3中捕获Kubernetes Spark驱动程序和执行程序日志并在历史服务器中查看

我正在 Kubernetes 上使用 Spark submit cli 运行 Spark 3 0 0 和 Hadoop 2 7 如下所示 spark submit master k8s https api k8s my domain com
如何在Python中检查UDF函数中pyspark数据帧列的单元格值为none或NaN以实现前向填充？

我基本上是在尝试进行前向填充插补下面是代码 df spark createDataFrame 1 1 None 1 2 5 1 3 None 1 4 None 1 5 10 1 6 None session timestamp id PR
嵌套 json 中的结构化流式传输不同模式

您好我有一个场景传入的消息是一个 Json 其标题为表名数据部分包含表列数据现在我想将其写入镶木地板到单独的文件夹 emp and dept 我可以通过根据表名聚合行来在常规流式传输中实现此目的但在结构化流媒体中我无法分割它我怎
按年月分组并在 Python 中查找前 N 个最小值列

基于来自的输出数据帧这个链接 https stackoverflow com questions 69931611 resample by month and find certain number of columns which hav
如何使用 python apply/lambda/shift 函数根据 2 列的值获取该特定列的前一行值？

我有 2 列 FN1 和 FN2 基于这些我必须再创建一列最终 FN1 FN2 Final False False 1 True True 1 False False 1 True False 2 True True 2 False Fa
Spark Workers 上缺少 SLF4J 记录器

我正在尝试通过以下方式运行工作spark submit 此作业导致的错误是 Exception in thread main java lang NoClassDefFoundError org slf4j Logger at java l
Spark on Hive SQL 查询错误 NoSuchFieldError: HIVE_STATS_JDBC_TIMEOUT

针对 Hive 2 1 0 提交 Spark 1 6 0 SQL 应用程序时出现错误 Exception in thread main java lang NoSuchFieldError HIVE STATS JDBC TIMEOUT a
单词和组元组之间的映射以获得单词的频率

我有一个如下所示的数据框 Utterance Frequency Directions to Starbucks 1045 Show me directions to Starbucks 754 Give me directions to
Spark如何选择节点来运行执行器？（spark on YARN）

Spark如何选择节点来运行执行器 spark on YARN 我们使用 Spark on Yarn 模式集群有 120 个节点昨天一个 Spark 作业创建了 200 个执行程序而节点 1 上有 11 个执行程序 Node2上有1
如何使用 eval dataframe 方法在自定义函数中返回 numpy 数组或列表？

我正在使用 python 3 X 我正在尝试使用eval https pandas pydata org pandas docs stable generated pandas eval html pandas eval数据框方法包括这样
Pandas read_sql 读取时更改大量 ID

我将 Oracle 数据库转移到 SQL Server 一切似乎都很顺利各种 ID 列都是很大的数字因此我不得不使用 Decimal 因为它们对于 BigInt 来说太大了我现在尝试使用 pandas read sql 使用 pyod
如何使用 pandas.to_excel() 创建 Excel **表格**？

Need the achieve this programmatically from a dataframe https learn microsoft com en us power bi service admin troublesh
在包含缺失值的 Pandas 数据框列上使用 apply 和 lambda 函数

这是这个问题的后续如何根据 pandas 数据框中其他列中的子字符串创建新列 https stackoverflow com questions 70086559 how to create new column based on sub
将 data.frame 的列中的值替换为另一个 data.frame 中的值

我的情况是我有一个数据框其中有一列填充了整数 1 到 6 我想用更具描述性的标签替换这些整数这些标签在另一个充当键的数据框中提供 V1 V2 1 1 LABEL1 2 2 LABEL2 3 3 LABEL3 4 4 LABEL4
Scala Sparkcollect_list() 与 array()

有什么区别collect list and array 在 Spark 中使用 scala 我看到到处都有使用情况但我不清楚用例来确定差异尽管两者array https spark apache org docs latest api
将类型安全配置conf文件传递给DataProcSparkOperator

我正在使用 Google dataproc 提交 Spark 作业并使用 google Cloud Composer 来安排它们不幸的是我面临着困难我依靠 conf文件类型安全配置文件将参数传递给我的 Spark 作业我正在将
如何从本地模式下运行的 pyspark 中的 S3 读取数据？

我正在使用 PyCharm 2018 1 使用 Python 3 4 并通过 virtualenv 中的 pip 安装 Spark 2 3 本地主机上没有安装hadoop 因此没有安装Spark 因此没有SPARK HOME HADOOP
Spark 与 Webhdfs/httpfs

我想通过 httpfs 或 Webhdfs 将文件从 HDFS 读入 Spark 类似的东西 sc textFile webhdfs myhost 14000 webhdfs v1 path to file txt 或者理想情况下 sc
无法在 AWS Glue PySpark 开发终端节点中正确运行脚本

我已经配置了一个 AWS Glue 开发终端节点并且可以在 pyspark REPL shell 中成功连接到它像这样https docs aws amazon com glue latest dg dev endpoint tutor

从 pyspark 中的数据帧列中删除最后一个管道分隔值

从 pyspark 中的数据帧列中删除最后一个管道分隔值 的相关文章

随机推荐

热门标签

从 pyspark 中的数据帧列中删除最后一个管道分隔值的相关文章