这是一个简单的问题(我认为),但我不确定回答它的最佳方法。
我需要根据 Spark Dataframe 中包含字符串的列中是否存在“子字符串”进行过滤。
目前我正在执行以下操作(使用过滤.contains
):
data = [[1, "ABC"], [2, "DEF"], [3, "DEF"], [4, "JFKLMN"], [5, "JFKOPQ"], [6, "MNO"]]
df = pd.DataFrame(data, columns=["Item", "String"])
sdf = spark.createDataFrame(df)
但我想概括这一点,以便我可以过滤到一个或多个字符串,如下所示:
filtered_sdf = sdf.filter(
spark_fns.col("String").contains("JFK") | spark_fns.col("String").contains("ABC")
)
or
filtered_sdf = sdf.filter(
spark_fns.col("String").contains("ABC")
)
where ideally, the .contains()
部分是包含 1+ 个子字符串的预设参数。
有谁知道最好的方法是什么?或者其他方法?
我尝试过使用.isin(substring_list)
但它不起作用,因为我们正在搜索子字符串的存在。