mclapply 与大对象 - “序列化太大，无法存储在原始向量中”

2024-02-07

我一直遇到一个问题multicore包裹和大物体。基本思想是我使用 Bioconductor 函数（readBamGappedAlignments) 读取大对象。我有一个文件名的字符向量，并且我一直在使用mclapply循环遍历文件并将它们读入列表中。该函数看起来像这样：

objects <- mclapply(files, function(x) {
  on.exit(message(sprintf("Completed: %s", x)))
  message(sprintf("Started: '%s'", x))
  readBamGappedAlignments(x)
}, mc.cores=10)

但是，我不断收到以下错误：Error: serialization is too large to store in a raw vector。但是，似乎我可以单独读取相同的文件而不会出现此错误。我发现有人提到这个问题here https://stat.ethz.ch/pipermail/r-sig-hpc/2010-August/000708.html，无分辨率。

任何并行解决方案建议将不胜感激 - 这必须并行完成。我可以期待下雪，但我有一个非常强大的服务器，有 15 个处理器，每个处理器 8 个内核，还有 256GB 内存，我可以在上面执行此操作。我宁愿在这台机器上跨核心执行此操作，而不是使用我们的集群之一。

据传，R 中的整数限制很快就会得到解决。根据我的经验，该限制可以阻止单元格数低于 20 亿（大约最大整数）的数据集，以及诸如此类的低级函数sendMaster in the multicore包依赖于传递原始向量。我有大约 100 万个进程，代表大约 4 亿行数据和 data.table 格式的 8 亿个单元格，当 mclapply 发送回结果时，它遇到了这个限制。

分而治之的策略并不难，而且很有效。我意识到这是一种 hack，人们应该能够依赖 mclapply。

不要创建一个大列表，而是创建一个列表列表。每个子列表都小于损坏的版本，然后将它们逐个拆分地输入到 mclapply 中。打电话给这个file_map。结果是列表的列表，因此您可以使用特殊的双连接do.call功能。因此，每次 mclapply 完成时，序列化原始向量的大小都是可管理的大小。

只需循环较小的部分即可：

collector = vector("list", length(file_map)) # more complex than normal for speed 

for(index in 1:length(file_map)) {
reduced_set <- mclapply(file_map[[index]], function(x) {
      on.exit(message(sprintf("Completed: %s", x)))
      message(sprintf("Started: '%s'", x))
      readBamGappedAlignments(x)
    }, mc.cores=10)
collector[[index]]= reduced_set

}

output = do.call("c",do.call('c', collector)) # double concatenate of the list of lists

或者，将输出保存到数据库中，例如 SQLite。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

multicore

mclapply 与大对象 - “序列化太大，无法存储在原始向量中” 的相关文章

带有nearPoints()的动态ggplot图层闪亮

我熟悉闪亮的基础知识但在这里遇到了一些困难我希望能够在单击某个点以突出显示该点时添加 ggplot 图层我知道 ggvis 可以做到这一点并且画廊中有一个很好的例子但我希望能够使用nearPoints 捕获点击作为 ui 输入我
Plotly 绘图不会在 RMarkdown 文档的 for 循环内渲染

我正在尝试动态构建一个需要运行循环的报告并为每次迭代打印一些消息表格和绘图我可以让一切正常运转except为了情节示例 rmd r echo FALSE results asis fig keep all message FALSE
使用 R 读取和转换二进制原始数据

我有一个file https drive google com file d 0BxMpk0nhnJy6SFhxd2xuMzJYYlk edit usp sharing其中包含原始二进制数据和 ascii 它包含一个时间戳和一个代表速度的
R：如何根据规范更改数据框中的列名称

我有一个数据框它的开头如下 SM H1455 SM V1456 SM K1457 SM X1461 SM K1462 ENSG00000000419 8 290 270 314 364 240 ENSG00000000457 8 252
当测试集中不存在响应变量时，h2o 预测有时会失败

当在不存在响应变量的测试集上进行预测时如果在训练中对因子变量使用一种热编码则 h2o 会以各种不同的方式失败无论是在训练 GLM 时隐式指定还是在其他方法中显式指定时 R 3 4 0 和 h2o 3 12 0 1 中存在此错误我们还
建模前减少因子水平数量

我有一个 2600 个级别的因子我想在建模之前将其减少到 10 我想我可以通过这样的操作来做到这一点如果一个因素列出的次数少于 x 次则应将其放入名为其他的存储桶中这是一些示例数据 df lt data frame colour
抑制 R 中的错误消息

我正在 R 中运行模拟研究有时我的模拟研究会产生错误消息当我在函数中实现模拟研究时当出现此错误消息时模拟停止我知道抑制错误是不好的做法但此时对我来说除了抑制错误然后继续下一个模拟直到达到我喜欢运行的模拟总数为止没有其他选择
在 Shiny 应用程序中过滤数据时，长度为 1 的字符向量除了第一个元素之外的所有元素都将被忽略错误

我有以下闪亮的应用程序 library shiny library rhandsontable library shinydashboard library ggplot2 library dplyr setwd C Users Marc
在ggplotly散点图中添加自定义数据标签

我想显示Species对于每个数据点当光标位于该点上方而不是 x 和 y 值时我用iris数据集另外我希望能够单击数据点以使标签持久存在并且当我在图中选择新位置时标签不会消失如果可能的话最基本的是标签持久性问题是一个优点这
对于多项式，获取其所有极值并通过突出显示所有单调部分来绘制它

有人问我这个有趣的问题我认为值得将其发布在这里因为 Stack Overflow 上还没有任何相关线程假设我有长度为的多项式系数n vector pc 其中次数多项式n 1对于变量x可以以其原始形式表示 pc 1 pc 2 x pc
将 read.csv 与符号链接文件一起使用

我正在尝试做什么我的源文件非常大我想避免将其复制到其他文件夹中我决定创建一个指向大文件的符号链接并想使用read csv读取文件文件夹结构项目1 数据源文件 csv 项目2 数据别名到源文件 csv 什么地方出了错读取源文件
在 R 中将时间间隔数据扩展为天数

假设我有如下所示的数据 interval id indiv id role start date end date 1 1 A 2006 05 01 2006 06 16 2 1 B 2006 06 16 2006 10 16 3 1 A
以编程方式触发 R 传单中的标记鼠标单击事件以获得闪亮效果

我的问题与此相同在 R 传单中触发标记鼠标单击事件以获得闪亮效果 https stackoverflow com questions 56962857 trigger marker mouse click event in r leafl
使用滑动窗口动画 ggplot 时间序列图

我正在寻找在不失去分辨率的情况下对长时间序列图进行动画处理的方法我希望视图能够平移数据显示从开始到结束的滑动子集假设我有以下内容 library ggplot2 library dplyr library gganimate df
如何在 R 中只为直方图的一个标签着色？

我有一个像这样的数据框 CellLines ZEB1 600MPE 2 8186 AU565 2 783 BT20 2 7817 BT474 2 6433 BT483 2 4994 BT549 3 035 CAMA1 2 718 DU447
R：根据元素长度从向量中删除元素

如何根据字符串的字符数或长度从字符串向量中删除元素 df lt c asdf fweafewwf af aewfawefwef awefWEfawefawef gt df 1 asdf fweafewwf af aewfawefwef aw
ggplot 图例标签内的希腊字母、符号和换行符

我在尝试着有换行符自动或强制对齐文本左对齐或左右对齐有希腊字母和百分号在 gglot 图例标签内我尝试了几种方法但我似乎无法将我读到的所有技巧结合起来我可以通过插入来换行 n进入标签但这似乎不适用于希腊字母不适用于图例
将不同的 grViz 组合成一个图

我想结合不同的DiagrammeR绘制成一个图形生成的图如下例所示 library DiagrammeR pDia lt grViz digraph boxes and circles a graph statement graph ov
在函数中使用 quit/q 会导致 RStudio 出现致命错误

更多的是好奇但当你使用时q or quit在 R studio 内的函数内部它会导致致命错误如下所示但 rgui 中的相同函数会导致 R 像往常一样停止并且仅使用q 在 RStudio 中按预期关闭 R 为什么q在函数中导致 RS
R闪亮主面板显示样式和字体

我正在学习闪亮的应用程序并且有一些关于调整布局的基本问题特别是样式和字体希望得到指点或明确的答案谢谢考虑一个基本的输入输出应用程序用户在 sidebarPanel 中输入数据然后在 mainPanel 中反应性地输出结果如何

随机推荐

为任意音频文件生成缩略图

我想在最大尺寸为 180 180 像素的图像中表示音频文件我想生成这个图像以便它以某种方式给出音频文件的表示将其想象为 SoundCloud 的波形幅度图我想知道你们中是否有人有这方面的东西我一直在搜索一些主要是音频可视化
F#：可为 Null 支持

在 F 中使用 Nullable 的正确方法是什么目前我正在使用这个但它看起来非常混乱 let test left Nullable
apache htaccess 使用别名重写

我们正在更改我们的域名这旨在适用于独立应用程序在 Apache 虚拟主机文件中 DocumentRoot 是 var www website html 而不是此块中的 var www example html Alias apps de
为什么我可以在没有参数的情况下初始化 UIView，但它的文档没有空的初始化程序？

let view UIView 为什么当唯一记录的时候编译没有错误UIView初始化器是init frame CGRect 具体来说我正在尝试编写一个继承自的新类UIView 但是这段代码会抛出一个错误 class SquadHorizo
谷歌反向地理编码 - 如何捕捉到最近的完整邮政编码

我正在使用 Google 的反向地理编码功能和地图 api v3 来检索纬度经度的邮政地址当在地图上拖动标记时这仅是英国应用程序系统的一部分需要完整或接近完整的邮政编码才能正确处理然而反向地理编码器通常只返回邮政编码的一部分例如
如何使用 NAnt 修改源代码？

我想在构建解决方案之前使用 NAnt 修改 h 文件中的字符串 h 文件中有一个宏 define SERVER ADDRESS www customserver net 我想在部署软件之前修改该字符串以便通过在命令行中传递地址来为自定义地
删除除 2 列外所有列均为 NA 的行[重复]

这个问题在这里已经有答案了我有一个data table 我想删除那些除某些 2 列之外的所有列均为 NA 的行例如我有一个 data table 像 gt ww2 Sepal Length Sepal Width Petal Leng
合并多个 javascript 文件

我读过将多个 javascript 文件合并到一个文件中可以提高性能这是真的吗如果是这样是否有一种简单且无错误的方法来合并它们或者也许有一个自动执行此操作的在线工具非常感谢 See 多个 javascript css 文件最佳
Windows 上的 Qt5 部署

我一直在研究如何将我的桌面应用程序从 Qt5 Creator 部署到一组 dll 和一个 exe 记录的过程似乎极其复杂 http qt project org doc qt 5 0 qtdoc deployment windows htm
在 i18next 中转义特殊字符

所以我有这个变量它将包含类似的内容然后我有这个 var vocab mm responses positive lngs LANG target User tag amount r multiplier icon iconFile 这
我如何设置 jQuery 日期选择器的年份范围：1900 到当前年份，或 1900 到 9999

大家好我用过Jquery Date picker这对我来说已经足够好了但我有一个小问题即我想设置Start year from 1900 and End year to Current Year or 9999 在脚本中我找到了这个y
使用 WTForms 和 Flask 预填充编辑表单

我可以使用 WTForms 和 Flask 向数据库添加新条目并且也可以进行编辑问题是我需要以编辑表单显示数据库中已存在的信息我有以下代码编辑帖子表单的类 class editPostForm Form postTitle Text
尝试使用 Python 通过 API 访问数据时出错

尝试使用 API 访问有关服务器存储的详细信息时出现错误我想提取备份状态state在 JSON 中 storage access private backup rule backups backup license 0 part of p
未定义方法 stringify！使用meta_search和active_admin gems时出错

我正在使用 active admin gem 并且由于它需要 meta search gem 所以我想在管理页面之外提供搜索功能当我向 Model search 方法提供字符串时出现未定义的方法错误根据meta search文档这就
如何在 Docker 中处理持久存储（例如数据库）

人们如何处理 Docker 容器的持久存储我目前正在使用这种方法构建图像例如对于 PostgreSQL 然后使用以下命令启动容器 docker run volumes from c0dbc34fd631 d app name post
.NET 中的“美国东部标准时间”与“东部标准时间”

在列出所有Id的属性TimeZoneInfos 返回者TimeZoneInfo GetSystemTimeZones 出现两个版本的 EST 美国东部标准时间和东部标准时间有什么不同我还看到美国山地标准时间和山地标准时间但我很确定这是
JDBC 程序中的 java.lang.ClassNotFoundException [重复]

这个问题在这里已经有答案了我正在 java SE 7 中制作一个简单的 JDBC 程序但在编译程序后它给出了 java lang ClassNotFoundException org postgreasql Driver 错误我按照
Delphi快速加大整数？

function AddNumStrings Str1 Str2 string string var i integer carryStr string worker integer workerStr s string begin Res
如何使用同一个工人让芹菜重试？

我刚刚开始在 Django 项目中使用 celery 并且有点陷入这个特定问题基本上我需要将长期运行的任务分发给不同的工作人员该任务实际上分为几个步骤每个步骤都需要相当长的时间才能完成因此如果某个步骤失败我希望 celery
mclapply 与大对象 - “序列化太大，无法存储在原始向量中”

我一直遇到一个问题multicore包裹和大物体基本思想是我使用 Bioconductor 函数 readBamGappedAlignments 读取大对象我有一个文件名的字符向量并且我一直在使用mclapply循环遍历文件并将它们读

mclapply 与大对象 - “序列化太大，无法存储在原始向量中”

mclapply 与大对象 - “序列化太大，无法存储在原始向量中” 的相关文章

随机推荐

热门标签