在以下示例中:
small.ints = to.dfs(1:1000)
mapreduce(
input = small.ints,
map = function(k, v) cbind(v, v^2))
MapReduce函数的数据输入是一个名为small.ints的对象,它引用HDFS中的块。
现在我有一个 CSV 文件已经存储在 HDFS 中
"hdfs://172.16.1.58:8020/tmp/test_short.csv"
如何获取它的对象?
据我所知(这可能是错误的),如果我想要 CSV 文件中的数据作为 mapreduce 的输入,我必须首先在 R 中生成一个表,其中包含 CSV 文件中的所有值。我确实有这样的方法:
data=from.dfs("hdfs://172.16.1.58:8020/tmp/test_short.csv",make.input.format(format="csv",sep=","))
mydata=data$val
使用这种方法获取mydata,然后执行object=to.dfs(mydata)似乎可以,但问题是test_short.csv文件很大,大约是TB大小,内存无法容纳from的输出.dfs!!
实际上,我想知道如果我直接使用“hdfs://172.16.1.58:8020/tmp/test_short.csv”作为mapreduce输入,并且内部map函数执行from.dfs()的事情,我是否能够获取数据块?
请给我一些建议,无论如何!