给定下面的数据框,我想将数字列拆分为数组中原始数字的每个元素包含 3 个字符的数组
给定数据框:
+---+------------------+
| id| numbers|
+---+------------------+
|742| 000000000|
|744| 000000|
|746|003000000000000000|
+---+------------------+
预期数据框:
+---+----------------------------------+
| id| numbers |
+---+----------------------------------+
|742| [000, 000, 000] |
|744| [000, 000] |
|746| [003, 000, 000, 000, 000, 000] |
+---+----------------------------------+
我在使用时尝试了不同的正则表达式split
下面给出的函数与我认为应该在第一次尝试时就可以工作的正则表达式:
import pyspark.sql.functions as f
df = spark.createDataFrame(
[
[742, '000000000'],
[744, '000000'],
[746, '003000000000000000'],
],
["id", "numbers"]
)
df = df.withColumn("numbers", f.split("numbers", "[0-9]{3}"))
df.show()
然而结果是
+---+--------------+
| id| numbers|
+---+--------------+
|742| [, , , ]|
|744| [, , ]|
|746|[, , , , , , ]|
+---+--------------+
我想了解我做错了什么。是否有可能设置全局标志来获取所有匹配项,或者我是否完全错过了正则表达式中的某些内容?