通过正则表达式捕获组拆分 Spark 数据帧列中的字符串

2024-01-02

给定下面的数据框，我想将数字列拆分为数组中原始数字的每个元素包含 3 个字符的数组

给定数据框：

+---+------------------+
| id|           numbers|
+---+------------------+
|742|         000000000|
|744|            000000|
|746|003000000000000000|
+---+------------------+

预期数据框：

+---+----------------------------------+
| id|           numbers                |
+---+----------------------------------+
|742| [000, 000, 000]                  |
|744| [000, 000]                       |
|746| [003, 000, 000, 000, 000, 000]   |
+---+----------------------------------+

我在使用时尝试了不同的正则表达式split下面给出的函数与我认为应该在第一次尝试时就可以工作的正则表达式：

import pyspark.sql.functions as f

df = spark.createDataFrame(
    [
        [742, '000000000'], 
        [744, '000000'], 
        [746, '003000000000000000'], 
    ],
    ["id", "numbers"]
)

df = df.withColumn("numbers", f.split("numbers", "[0-9]{3}"))

df.show()

然而结果是

+---+--------------+
| id|       numbers|
+---+--------------+
|742|      [, , , ]|
|744|        [, , ]|
|746|[, , , , , , ]|
+---+--------------+

我想了解我做错了什么。是否有可能设置全局标志来获取所有匹配项，或者我是否完全错过了正则表达式中的某些内容？

下面介绍了如何在不使用udf:

df = df.withColumn(
    "numbers",
    f.split(f.regexp_replace("numbers", "([0-9]{3})(?!$)", r"$1,"), ",")
)

df.show(truncate=False)
#+---+------------------------------+
#|id |numbers                       |
#+---+------------------------------+
#|742|[000, 000, 000]               |
#|744|[000, 000]                    |
#|746|[003, 000, 000, 000, 000, 000]|
#+---+------------------------------+

首次使用pyspark.sql.functions.regexp_replace http://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.functions.regexp_replace将 3 位数字的序列替换为后跟逗号的序列。然后用逗号分割结果字符串。

替换模式"$1,"表示第一个捕获组，后跟一个逗号。

在匹配模式中，我们还包括字符串结尾的负前瞻，(?!$), 以避免在字符串末尾添加逗号。

参考：REGEXP_REPLACE 捕获组 https://stackoverflow.com/questions/28592180/regexp-replace-capturing-groups/28594182

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python3x

apachespark

PySpark

apachesparksql

通过正则表达式捕获组拆分 Spark 数据帧列中的字符串的相关文章

ModuleNotFoundError：没有名为“bs4”的模块

当我尝试像这样导入 BeautifulSoup 时 from bs4 import BeautifulSoup 当我运行我的代码时我收到此错误消息 ModuleNotFoundError No module named bs4 如果有人知
哪个版本的 Miniconda 具有适用于 Windows 64 位的 Python 3.6？

我正在开发一个需要这些深度学习库的项目 keras 和 tensorflow 不幸的是这些不适用于 Python 3 7 有人可以告诉我一个带有 Python 3 6 的 Miniconda 版本适用于 Windows 64 位吗我
Spark.sql.shuffle.partitions 的最佳值应该是多少，或者在使用 Spark SQL 时如何增加分区？

我实际上正在使用 Spark SQLhiveContext sql 它使用 group by 查询我遇到了 OOM 问题所以考虑增加价值spark sql shuffle partitions从默认的 200 到 1000 但这没有帮助
Scala 案例类忽略 Spark shell 中的导入

我希望这个问题有一个明显的答案我刚刚升级到 Spark v2 0 并且遇到了一个奇怪的问题火花外壳 Scala 2 11 版本如果我输入以下最小的 Scala import java sql Timestamp case class C
Spyder 未检测到导入的 python 文件中的更改

我正在使用 Spyder 3 2 4 Python 3 6 Spyder 不会检测导入的 python 文件中的更改例如测试2 py def func return 5 测试1 py import test2 a test2 func
如何将包含多个字段的大型 csv 加载到 Spark

新年快乐我知道以前曾提出回答过此类类似的问题但是我的问题有所不同我有大尺寸的 csv 有 100 个字段和 100MB 我想将其加载到 Spark 1 6 进行分析 csv 的标题看起来像附件sample http www roc
芹菜中未处理的异常冻结了工人

我通过 redis 后端在 docker 中运行 celery 我有芹菜搅拌容器芹菜工人容器 Redis容器 celery 工作容器生成 6 个工作进程如果 celery 任务遇到异常工作人员所有工作人员将停止使用作业我尝试稍
使用 Python 计算 Spark 中成对 (K,V) RDD 中每个 KEY 的平均值

我想与 Python 共享这个特定的 Apache Spark 解决方案因为它的文档非常贫乏我想通过 KEY 计算 K V 对存储在 Pairwise RDD 中的平均值示例数据如下所示 gt gt gt rdd1 take 10
使用 pybtex 将 bibtex 转换为格式化的 HTML 参考书目，例如哈佛风格

我正在使用 Django 并将 bibtex 存储在我的模型中并且希望能够以格式化 HTML 字符串的形式向我的视图传递引用使其看起来像哈佛引用样式使用中描述的方法Pybtex 无法识别 bibtex 条目 https stackov
如何在不从 DataFrame 转换并访问它的情况下向数据集添加列？

我知道使用以下方法将新列添加到 Spark 数据集的方法 withColumn and a UDF 它返回一个 DataFrame 我还知道我们可以将生成的 DataFrame 转换为 DataSet 我的问题是如果我们仍然遵循传统的
在spark-kafka中使用schema将ConsumerRecord值转换为Dataframe

我正在使用 Spark 2 0 2 和 Kafka 0 11 0 并且我正在尝试在火花流中使用来自卡夫卡的消息以下是代码 val topics notes val kafkaParams Map String Object bootst
父子进程之间的通信

我正在尝试创建一个具有一个或多个子进程的 Python 3 程序父进程生成子进程然后继续处理自己的业务有时我想向特定的子进程发送一条消息由其捕获该消息并采取行动此外子进程在等待消息时需要处于非锁定状态它将运行自己的循环来维护服
火花内存不足

我有一个文件夹里面有 150 G 的 txt 文件大约 700 个文件平均每个 200 MB 我使用 scala 来处理文件并最终计算一些汇总统计数据我认为有两种可能的方法可以做到这一点手动循环所有文件对每个文件进行计算并最终合
当变量取特定值时如何使 PyCharm 中断？

我有一本大字典其中一些元素偶尔会出现非法值我想弄清楚非法值从何而来 PyCharm 应该不断监视我的字典的值一旦它们中的任何一个取了非法值它就应该中断并让我检查程序的状态我知道我可以通过为我的字典创建一个 getter sette
如何使用 Pandas、Numpy 加速 Python 中的嵌套 for 循环逻辑？

我想检查一下表的字段是否TestProject包含了Client端传入的参数嵌套for循环很丑陋有什么高效简单的方法来实现吗非常感谢您的任何建议 def test parameter a list parameter b list g
更新到 Django 1.8 - AttributeError: django.test.TestCase 没有属性 'cls_atomics'

我将 Django 1 7 项目更新为 Django 1 8 现在运行测试时出现错误它们是 Django 的子类 django test TestCase Traceback most recent call last File env
pygame.error：文件不是 Windows BMP 文件（问题的延续）

我最近开始使用 Mac 进行编码因此我必须从以前的计算机 Windows 中移走所有文件长话短说在发生此错误之前一切都很好 pygame error File is not a Windows BMP file 我检查了 Stack
str.translate 与 str.replace - 何时使用哪一个？

何时以及为什么使用前者而不是后者反之亦然目前尚不完全清楚为什么有些人使用前者以及为什么有些人使用后者它们有不同的目的 translate只能用任意字符串替换单个字符但一次调用可以执行多次替换它的参数是一个特殊的表它将单个字符映射
InvalidRequestException（为什么：empid 如果包含 Equal，则不能被多个关系限制）

这是关于我从 Apache Spark 查询 Cassandra 时遇到的问题 Spark 的正常查询工作正常没有任何问题但是当我使用关键条件进行查询时出现以下错误最初我尝试查询复合键列族它也给出了与下面相同的问题由以下原因引
数量重新分配逻辑 - 具有外部数据集的 MapGroups

我正在研究一种复杂的逻辑需要将数量从一个数据集重新分配到另一个数据集在例子中我们有Owner and Invoice 我们需要从数量中减去Invoice准确地Owner匹配在给定汽车的给定邮政编码处减去的数量需要重新分配回同一辆车出

随机推荐

stable_clock 与 system_clock 之间的区别？

我试图通过查看数据的时间戳来查看我的数据是否是 120 秒旧的因此我有以下代码 uint64 t now duration cast
php注释的java正则表达式

你好我正在编写一个java程序以从包含php源代码的字符串中删除所有注释任何人都可以给我php注释的正则表达式吗请看看这个链接 http ostermiller org findcomment html http ostermil
将 HTML 转换为 PDF 时添加页码

我正在使用 PDF 生成器 http www nrecosite com pdf generator net aspx http www nrecosite com pdf generator net aspx 我也想添加页码以下是我的代
如何防止 JavaScript 中向下滚动？

好吧我可能是一个懒惰的人去搜索但有点烦人的是我所能找到的只是当我搜索如何防止向下滚动时如何设置向下滚动事件在我的 javascript 代码中我设置了向下箭头键的事件当我按下向下箭头时从浏览器来看浏览器不仅执行我设置的
如何在 typescript cordova 项目中使用 cordova 插件？

我有一个 cordova angular typescript 项目在其中我尝试使用 Cordova 的 juspay ec sdk plugin 我已经尝试过以下解决方案Angular 4 Typescript 应用程序中的 Cordo
为什么此 IndexedDB put 命令失败？错误：DataError：DOM IDBDatabase 异常 0

创建对象存储时我已成功将以下内容添加到该对象存储中 name John Doe age 21 我使用了以下选项 keyPath id autoIncrement true 我能够找到该记录它显示了id 1 但是当我运行下面的命令时它
线程同步：如何保证写入的可见性

已经有很多关于软件和硬件内存模型内存栅栏存储加载重新排序等的信息然而所有这些似乎都集中在保证共享内存读写的相对顺序上对于这样的系统来说将线程的写入完全延迟很长时间是否合法例如考虑一个线程对内存中的数据结构进行一些更新然后
Java 检查 zip 文件的目录

我有下面的代码用于检查 SD 卡上是否存在文件夹如果文件夹存在我想添加另一个 if 语句以检查实际文件夹中是否存在 zip 文件如果确实存在我可以做什么来检查文件夹中的邮政编码扩展名该文件夹中应该有很多 zip 文件但我只想
在 django 视图中设置语言

背景当支付服务在后台返回支付结果时会调用该视图之后我需要以正确的语言发送电子邮件以确认付款等我可以从支付服务器的请求中获取语言代码并希望将其与 Django 的 i18n 系统一起使用来确定以哪种语言发送电子邮件所以我需要从视图
如何使用 WebBrowser 控件以编程方式更改打印机设置？

我终于想通了如何打印转换后的 XML https stackoverflow com questions 707518 printing transformed xml不提示用户或显示 IE 窗口但现在我需要指定份数以及可能的其他打印机设
有没有办法在 vscode / Visual Studio Code Flutter 中自动填充所需的类/小部件属性？

构造类小部件时通常有一些属性是必需的有些属性是可选的在类构造函数中使用 required 装饰器如果 VS Code 自动填写这些属性所需的键例如 child onTap 而不是仅仅告诉错误参数 requiredParamet
无法用另一个对象数组更新一个对象数组

我有两个不同的对象数组 storedArray存储在我的文件系统中并且inputArray根据用户的输入进行更新storedArray 每个数组的最小长度为 1 最大数量没有上限而且它们的长度不一定必须相同所以我想要的是循环每个数组并且
在初始化之前通过调用 enableLocalDatastore 来启用 Parse 上的本地数据存储会引发异常

在 Parse 文档中它明确指出 Parse enableLocalDatastore 应该在之前调用 Parse setApplicationId clientKey https parse com docs ios guide loc
用于多平台大型软件开发的编程语言？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
黑客排名谜题。随机图需要多少条边才能连通

这是 Interviewstreet 谜题我们有一个包含 N 个城市的国家每天我们选择两个城市之间没有道路并在它们之间修建一条道路我们以相同的概率选择每对不相邻的城市令 X 为我们获得连接国家地区之前的天数 X 的期望值是多少
如何使用 jQuery 在不在 DOM 中的元素上设置数据属性？

如何使用 jQuery 在尚不在 DOM 中的元素上设置数据属性代码 var panelHeading div div class panel heading href username PanelContent panelHeading
Spring Data JPA - 将列名称和值作为参数传递

我只是想知道如何将列名称及其值传递给 Spring Data JPA 中的 Query 注释基本上列名称将是静态的我们过去常常将每一列作为实体类中的元素但在这里我想要一些不同的东西这里的列名称将是动态的我将这个值作为参数传递给存储
java.lang.reflect.inaccessibleobjectexception无法使jdk.internal.loader.classloaders

我有一个例外java lang reflect InaccessibleObjectException 无法使 jdk internal loader ClassLoaders AppClassLoader jdk internal loa
Google Sheets - 将组中的列数据转置为行

我正在尝试将数据从 A 列转置为单行原始数据中每个名称有 3 行但每天可能有 1 个或多个作业每一天都需要单独处理但这可能最好通过在每天开始时手动添加来处理这是每两周一次的时间表因此行数不可预测 The 1st image is
通过正则表达式捕获组拆分 Spark 数据帧列中的字符串

给定下面的数据框我想将数字列拆分为数组中原始数字的每个元素包含 3 个字符的数组给定数据框 id numbers 742 000000000 744 000000 746 003000000000000000 预期数据框 id numb

通过正则表达式捕获组拆分 Spark 数据帧列中的字符串

通过正则表达式捕获组拆分 Spark 数据帧列中的字符串 的相关文章

随机推荐

热门标签

通过正则表达式捕获组拆分 Spark 数据帧列中的字符串的相关文章