如何在spark 1.4的SparkR中绑定两列dataframe
蒂亚,阿伦
没有办法做到这一点。这是一个关于scala中的spark(1.3)的问题。能够做到这一点的唯一方法是使用某种 row.numbering,因为这样您就可以加入 row.number。为什么?因为您只能连接表或基于其他已存在的列添加列
data1 <- createDataFrame(sqlContext, data.frame(a=c(1,2,3)))
data2 <- createDataFrame(sqlContext, data.frame(b=c(2,3,4)))
Then
withColumn(data1,"b",data1$a + 1)
是允许的,但是
withColumn(data1,"b",data2$b)
不是。从 Spark 将 DataFrame 切成块来存储它的那一刻起,只有当您有 row.numbers 时,它才知道如何绑定它们(它不知道行排序)。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)