如何最好地处理将大型本地数据帧转换为 SparkR 数据帧？

2024-01-02

如何有效地将大型本地数据帧转换为 SparkR 数据帧？在我的本地开发机器上，当我尝试将其转换为 SparkR 数据帧时，大约 650MB 的本地数据帧很快就会超过可用内存，并且我有一台具有 40GB RAM 的开发机器。

library(reshape2)

years <- sample(1:10, 100, replace = T)
storms <- sample(1:10, 100, replace = T)
wind_speeds <- matrix(ncol = 316387, nrow = 100, 
                     data = sample(0:250, 31638700, replace = T))

df <- data.frame(year=years, storm=storms, ws = wind_speeds)
df <- melt(df, id.vars = c('year', 'storm'))

Sys.setenv(SPARK_HOME = "/home/your/path/spark-2.0.0-bin-hadoop2.7")
library(SparkR, lib.loc = c(file.path(Sys.getenv("SPARK_HOME"), "R", "lib")))
sparkR.session(master = "local[*]", sparkConfig = list(spark.driver.memory = "10g"))

spark_df <- as.DataFrame(df) #This quickly exceeds available memory

我仍然对这个问题的答案非常感兴趣，但想发布我的工作。

我的最终目标是将 5,000 个大型二进制文件转换为 parquet 格式，以便数据可以查询。我本来打算串行迭代它并使用 Spark write.parquet 函数，然后遇到了生成此问题的问题。无论出于何种原因，Spark 都无法在内存不足（我的开发盒上为 40 GB）的情况下将 650MB 本地数据帧转换为 SparkR 分布式数据帧。

我为解决方法所做的事情：

使用 SparkR 将 5,000 个二进制文件并行转换为 CSV，使用 Spark.lapply 调用我的转换函数
使用 Apache Drill 将 CSV 文件转换为 parquet 格式
未压缩为 CSV 文件的数据约为 3.5TB，最终以 parquet 格式存储为约 350 GB

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

sparkr

如何最好地处理将大型本地数据帧转换为 SparkR 数据帧？的相关文章

如何在 R 中的 for 循环内将值存储在向量中

我正在开始使用 R 但我对以下问题感到非常沮丧我试图将 for 循环内完成的某些计算的值存储到我之前定义的向量中问题是如何进行索引因为for循环迭代代码的次数取决于用户的输入所以变量i不一定要从1开始它可以从80开始 for举个例
`dplyr::_join` 函数的命名向量“by”参数[重复]

这个问题在这里已经有答案了我正在写一个函数dplyr join两个数据框by不同的列第一个数据帧的列名称动态指定为函数参数我相信我需要使用rlang准引用元编程但未能找到可行的解决方案我很感激任何建议 library dplyr
如何按定义的顺序将图像合并到一个文件中

我有大约 100 张图像 png 我不想手动执行此操作而是希望将它们按照定义的顺序基于文件名并排放置在一个 pdf 中每行 12 个图像有人有什么建议吗我按照下面托马斯告诉我的方法尝试了它把它们贴在旁边有一个黑边我怎样才能去
R Shinydashboard 自定义 CSS 到 valueBox

我一直在尝试将 valueBox 的颜色更改为自定义颜色超出 validColors 中可用的颜色但一直无法这样做我知道有一种方法可以使用标签来包含自定义 CSS 但是我无法将它们放在正确的位置 ui lt dashboardPage
在网格中制作一个矩形图例，并标记行和列

我有一个 ggplot 我将因子映射到填充和 alpha 如下所示 set seed 47 the data lt data frame value rpois 6 lambda 20 cat1 rep c A B each 3 cat2
在包加载之前如何知道 R 中特定函数属于哪个包？

例如我知道许多流行的功能例如tbl df 我通常不记得它属于哪个包即data table or dplyr 所以我必须始终记住并加载一个包但我做不到 tbl df除非我加载了正确的包在 R 控制台本身加载或安装包之前有没有办法知
R在Windows平台Rstudio上打印data.frames中的UTF-8代码

当数据框中存在UTF 8字符时将无法正常显示例如以下内容是正确的 gt U6731 1 朱但是当我将其放入数据框中并打印出来时它是 gt data frame x U6731 x 1
在ggplot中设置y轴中断

我在代码中设置中断时遇到困难我尝试添加breaks seq 0 100 by 20 但似乎无法让它正常工作本质上我希望 Y 轴从 0 到 100 每 20 个刻度一次 YearlyCI lt read table header T te
增加雷达图中长轴标签的空间

我想创建一个雷达图ggirahExtra ggRadar 问题是我的标签很长并且被剪掉了我想我可以通过添加在标签和绘图之间创建更多空间margin margin 0 0 2 0 cm to element text in axis tex
当设置 coord_fixed 时，ggplot/shiny 中的鼠标悬停坐标是错误的

我正在使用问题中的答案当您将鼠标悬停在闪亮的 ggplot 上时出现工具提示 https stackoverflow com questions 27965931 tooltip when you mouseover a ggplot o
case_when 与部分字符串匹配和 contains()

我正在使用一个数据集其中有许多名为 status1 status2 等的列在这些列中它表示某人是否豁免完整注册等不幸的是豁免投入并不一致这是一个示例 library dplyr problem lt tibble perso
平滑连续 2D 点

UPDATE 感谢 user20650和李哲源Zheyuan Li 这是我想出的解决方案 Example data set df 3600 observations points Create a vector of the cumula
如何在Rstudio中快速给几个单词加上引号？

如何将 MI ID FL 转换为 MI ID FL 而无需键入每个双引号 Hmisc 包有一个函数 Cs 它将评估逗号分隔的文本是否带有引号 Cs MI ID FL becomes MI ID FL
如何将旋转的 NetCDF 转换回正常的纬度/经度网格？

我有一个带有旋转坐标的 NetCDF 文件我需要将其转换为正常的纬度经度坐标经度为 180到180 纬度为 90到90 library ncdf4 nc open dat nf 对于尺寸它显示 1 5 variables exclu
如何像在facet_grid中一样在facet_wrap中定位条带标签

我想在使用时删除多余的条带标签facet wrap 并用两个变量进行分面并且都是自由尺度的例如这个facet wrap下图的版本 library ggplot2 dt lt txhousing txhousing year in 20
在 RGL 中将立方体绘制到 3D 散点图中

我正在尝试向 3D 散点图添加较小的立方体网格具有指定边长我希望立方体位于原点我该怎么做呢我已经玩过cube3d 但我似乎无法将立方体正确定位也无法使其成为网格因此我可以看到它包含的数据点这是我所拥有的 library rg
ggplot2：带有 geom_line 的 x 轴因子不起作用

我想要一个线图其中value绘制为函数expt每级一行var 这是我的数据 lines lt expt var value 1 none p 0 183065327746799 2 none p 0 254234138384241 3 n
斯皮尔曼相关性和联系

我正在一小组配对排名上计算斯皮尔曼的 rho 斯皮尔曼因处理领带不当而闻名例如取2组8个排名即使两组中有6个是平局相关性仍然很高 gt cor test c 1 2 3 4 5 6 7 8 c 0 0 0 0 0 0 7 8 met
如何在R中实现countifs函数（excel）

我有一个包含 100000 行数据的数据集我尝试做一些countifExcel 中的操作但速度慢得惊人所以我想知道R中是否可以完成这种操作基本上我想根据多个条件进行计数例如我可以指望职业和性别 row sex occupati
闪亮井板宽度

library shiny library shinydashboard ui lt dashboardPage dashboardHeader dashboardSidebar dashboardBody wellPanel tags d

随机推荐

如何从 Access 数据库显示/检索或获取图像到 PictureBox？

Private Sub UpdatePicture Dim str As String str Provider Microsoft ACE OLEDB 12 0 Data Source UsersDB accdb cn New OleDb
VBA XML 选择命名空间问题

所以我确信这是可以解决的但只是我通常不需要在 VBA XML 代码中处理 XML 命名空间所以我们有一个文件它实际上是一个 SVG 文件名为Flag of the United Kingdom svg这是文件内容
为什么 MySQL 在 JOIN 加 ORDER 时不使用主键？

这是给你的一个简洁的显然是 MySQL Setting things up DROP DATABASE IF EXISTS index test gutza CREATE DATABASE index test gutza USE ind
使用 Flask Jinja2 和 WTForms 隐藏表单组

我试图根据表单另一部分中复选框的状态显示或隐藏表单字段我认为我可以使用 jQuery show 或 hide 相对轻松地完成此操作但到目前为止我运气不佳有什么想法吗表格类 class MyForm Form checked Bool
谁能为开发人员推荐一个好的备份“系统”？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我在办公室里被称为后备人员作为一名开发人员我经常在项目之间来回跳转因此当我返回每个项目时我并不总是准确地记得每个项目中存在哪些
Scraper 在处理超过 ~390KB 的文件时失败

Facebook 的 URL 抓取工具有大小限制吗我们的网站上有几本书可供下载那些 HMTL 文件大小低于特定大小 390KB 的文件会被抓取并正确读取但 4 个较大的文件则不会这些较大的项目会收到 200 响应代码并打开规范 UR
带参数的方法的异步等待问题

我对异步等待概念有点陌生在存储库中有以下方法 public TEntity Get int id return Context Set
错误：在 res 内使用字体文件夹时，任务 ':app:processDebugResources' 执行失败

我已将 SDK 更新为 Android O 开发人员预览版并使用单个 TextView 开始了一个简单的演示当我包括在内font inside res它开始向我显示的文件夹 Error Execution failed for task
具有解析功能的 Angularjs ng-controller

我遇到了 ng controller 和解决功能的问题我有一个控制器需要在运行之前解决一些依赖关系当我通过 ng route 定义它时它工作正常控制器代码如下所示 angular module myApp controller
取消列出列表，同时保留索引

我有一个列表其中可以有空条目包含一个元素的条目和包含多个元素的条目 l1 list integer 0 11L integer 0 integer 0 11L 11L c 6L 36L 16L 16L integer 0 integer
崩溃后仍会获取名为互斥量的升压进程间

我正在使用一个boost interpocess scoped lock用一个named mutex and a timeout 我正在Linux操作系统中运行在我的一次测试中我发生了崩溃从那时起每次我尝试再次运行该应用程序时它都
在一个 MongoDB 聚合查询中进行排序和分组

Using sort and group在一个行为奇怪的聚合查询中测试数据 db createCollection test db test insert ts 100 category 1 db test insert ts 80 ca
QBPrivateChatManager 获取 null

我将 QBPrivateChatManager 设置为 null 我正在使用以下代码 QBChatService chatService QBChatService getIntance privateChatManager chatSer
在 Hibernate 中使用 Oracle XMLType 列

我需要将 Oracle XMLType 列映射到 Hibernate 实体类有一个有效的我认为众所周知的解决方案涉及实施UserType 但是我无法使用它因为需要导入 Oracle xml 解析器这反过来会导致许多问题我可以将
如何使用 regex（正则表达式）验证 12 小时时间

我想在 PHP Javascript 和 HTML 中验证 12 小时时间格式例如 01 05 PM 我试过这个 1 9 1 0 2 0 5 0 5 s A P M 但我不知道为什么它不起作用 Try 1 0 2 0 1 9 0 5 0
我可以从 Stripe 托管发票页面将客户重定向回我的商店吗？

我正在生成InvoiceStripe 中的对象然后将客户重定向到hosted invoice url https stripe com docs api invoices object invoice object hosted invo
“针对接口编程，而不是实现”是什么意思？

人们在阅读设计模式时偶然发现了这句话但我不明白有人可以帮我解释一下吗接口只是合同或签名他们不知道关于实施的任何事情针对接口进行编码意味着客户端代码始终保存由工厂提供的接口对象工厂返回的任何实例都是 Interface 类型
删除xml节点-Xelement

我有一个 xml 文件只需从中删除特定节点节点名称将作为用户的输入给出如何删除用户请求的特定节点
解析 RSACryptoServiceProvider.ImportParameters 中的错误并消除零字节前缀？

我遇到了一些问题使用 Security Cryptography RSAParameters 创建的 RSA 密钥在大多数情况下都可以工作RSAC加密服务提供者 http msdn microsoft com en us library
如何最好地处理将大型本地数据帧转换为 SparkR 数据帧？

如何有效地将大型本地数据帧转换为 SparkR 数据帧在我的本地开发机器上当我尝试将其转换为 SparkR 数据帧时大约 650MB 的本地数据帧很快就会超过可用内存并且我有一台具有 40GB RAM 的开发机器 library r

如何最好地处理将大型本地数据帧转换为 SparkR 数据帧？

如何最好地处理将大型本地数据帧转换为 SparkR 数据帧？ 的相关文章

随机推荐

热门标签

如何最好地处理将大型本地数据帧转换为 SparkR 数据帧？的相关文章