如何有效地将大型本地数据帧转换为 SparkR 数据帧?在我的本地开发机器上,当我尝试将其转换为 SparkR 数据帧时,大约 650MB 的本地数据帧很快就会超过可用内存,并且我有一台具有 40GB RAM 的开发机器。
library(reshape2)
years <- sample(1:10, 100, replace = T)
storms <- sample(1:10, 100, replace = T)
wind_speeds <- matrix(ncol = 316387, nrow = 100,
data = sample(0:250, 31638700, replace = T))
df <- data.frame(year=years, storm=storms, ws = wind_speeds)
df <- melt(df, id.vars = c('year', 'storm'))
Sys.setenv(SPARK_HOME = "/home/your/path/spark-2.0.0-bin-hadoop2.7")
library(SparkR, lib.loc = c(file.path(Sys.getenv("SPARK_HOME"), "R", "lib")))
sparkR.session(master = "local[*]", sparkConfig = list(spark.driver.memory = "10g"))
spark_df <- as.DataFrame(df) #This quickly exceeds available memory
我仍然对这个问题的答案非常感兴趣,但想发布我的工作。
我的最终目标是将 5,000 个大型二进制文件转换为 parquet 格式,以便数据可以查询。我本来打算串行迭代它并使用 Spark write.parquet 函数,然后遇到了生成此问题的问题。无论出于何种原因,Spark 都无法在内存不足(我的开发盒上为 40 GB)的情况下将 650MB 本地数据帧转换为 SparkR 分布式数据帧。
我为解决方法所做的事情:
使用 SparkR 将 5,000 个二进制文件并行转换为 CSV,使用 Spark.lapply 调用我的转换函数
使用 Apache Drill 将 CSV 文件转换为 parquet 格式
未压缩为 CSV 文件的数据约为 3.5TB,最终以 parquet 格式存储为约 350 GB
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)