我有一个数据框,其行通过各种合并相互连接。
到目前为止,我已经将 DF 转换为下面的格式,我在其中执行了 groupBy“Merge_To”并将它们收集到一个数组中,然后将其连接回我的原始 DF。看起来像这样:
df1
+---+--------+---------+
|Ref|Merge_To| Merges|
+---+--------+---------+
| 1| \N|[3, 2, 3]|
| 2| 1|[5, 4, 6]|
| 5| 2| [8, 7]|
| 10| \N| [9, 9]|
| 12| \N| [13]|
| 14| \N| [15]|
| 16| 18| [17]|
| 17| 16| [19]|
| 18| \N| [16]|
| 19| 17| [20]|
+---+--------+---------+
对于参考文献 1、2、5 和 18、16、17、19、20,它们通过一条链合并在一起。这不是通过我之前完成的 groupBy 捕获的。
最终我希望我的 DF 看起来像这样,它解释了合并链:
+---+--------+------------------------+
|Ref|Merge_To| Merges|
+---+--------+------------------------+
| 1| \N|[3, 2, 3, 5, 4, 6, 8, 7]|
| 10| \N| [9, 9]|
| 12| \N| [13]|
| 14| \N| [15]|
| 18| \N| [16, 17, 19, 20]|
+---+--------+------------------------+
当“Merge_To”不是 \N 时,我尝试将 df1 连接到自身过滤
val arrayCombineUDF = udf((a:Seq[String], b:Seq[String]) => a ++ b )
val df1Filter = df1.filter($"Merge_To" !== "\\N").
select("Merge_To", "Merges").withColumnRenamed("Merge_To", "Chain_Ref").
withColumnRenamed("Merges", "Chain_Merges")
val df2 = df1.join(df1Filter, $"Ref" === $"Chain_Ref", "left").
withColumn("Merges", when($"Chain_Merges".isNotNull, arrayCombineUDF($"Merges", $"Chain_Merges")).
otherwise($"Merges")).
select("Ref", "Merge_To", "Merges")
df2
+---+--------+----------+------------------+
|Ref|Merge_To|Merge_From| Merges|
+---+--------+----------+------------------+
| 1| \N| 3|[3, 2, 3, 5, 4, 6]|
| 2| 1| \N| [5, 4, 6, 8, 7]|
| 5| 2| \N| [8, 7]|
| 10| \N| 9| [9, 9]|
| 12| \N| 13| [13]|
| 14| \N| \N| [15]|
| 16| 18| \N| [17, 19]|
| 17| 16| \N| [19, 20]|
| 18| \N| \N| [16, 17]|
| 19| 17| \N| [20]|
+---+--------+----------+------------------+
这种给出了我正在寻找的结果,但只真正说明了合并链的一层。
我还尝试将与上面相同的连接过程放入 while 循环中,试图让它重复连接。
我还尝试将 UDF 与 If 语句一起使用,希望我可以将每一行整理为合并类型,并使用它组合作为链的行。
注意:我知道数组并不不同,但我不介意,并且可以在最后对其进行排序。
EDIT这是原来的DF
+---+--------+----------+
|Ref|Merge_To|Merge_From|
+---+--------+----------+
| 1| \N| 3|
| 2| 1| \N|
| 3| 1| \N|
| 4| 2| \N|
| 5| 2| \N|
| 6| 2| \N|
| 7| 5| \N|
| 8| 5| \N|
| 9| 10| \N|
| 10| \N| 9|
| 11| \N| \N|
| 12| \N| 13|
| 13| \N| \N|
| 14| \N| \N|
| 15| 14| \N|
| 16| 18| \N|
| 17| 16| \N|
| 18| \N| \N|
| 19| 17| \N|
| 20| 19| \N|
+---+--------+----------+