如何使用 foreach 克服内存限制

2024-04-11

我正在尝试处理保存在磁盘上的 > 10000 个 xts 对象，当加载到 R 中时，每个对象的大小约为 0.2 GB。我想使用 foreach 并行处理这些对象。我的代码适用于类似 100 个 xts 对象的情况，我将这些对象预加载到内存中、导出等。但是在超过 100 个 xts 对象之后，我的机器就达到了内存限制。

我正在尝试做的示例：

require(TTR)
require(doMPI)
require(foreach)

test.data <- runif(n=250*10*60*24)

xts.1 <- xts(test.data, order.by=as.Date(1:length(test.data)))
xts.1 <- cbind(xts.1, xts.1, xts.1, xts.1, xts.1, xts.1)

colnames(xts.1) <- c("Open", "High", "Low", "Close", "Volume", "Adjusted")

print(object.size(xts.1), units="Gb")

xts.2 <- xts.1
xts.3 <- xts.1
xts.4 <- xts.1

save(xts.1, file="xts.1.rda")
save(xts.2, file="xts.2.rda")
save(xts.3, file="xts.3.rda")
save(xts.4, file="xts.4.rda")

names <- c("xts.1", "xts.2", "xts.3", "xts.4")

rm(xts.1)
rm(xts.2)
rm(xts.3)
rm(xts.4)

cl <- startMPIcluster(count=2) # Use 2 cores
registerDoMPI(cl)

result <- foreach(name=names, 
                  .combine=cbind, 
                  .multicombine=TRUE, 
                  .inorder=FALSE, 
                  .packages=c("TTR")) %dopar% {
    # TODO: Move following line out of worker. One (or 5, 10,
    # 20, ... but not all) object at a time should be loaded 
    # by master and exported to worker "just in time"
    load(file=paste0(name, ".rda"))

    return(last(SMA(get(name)[, 1], 10)))
}

closeCluster(cl)

print(result)

所以我想知道如何能够在发送/需要之前从磁盘“及时”加载每个（或几个，例如 5、10、20、100，...但不是一次全部）xts 对象出口给工人。我无法在工作人员中加载对象（基于名称和存储在磁盘上的文件夹），因为工作人员可以位于远程计算机上，而无需访问存储在磁盘上的对象的文件夹。所以我需要能够在主进程中“及时”读取/加载它们......

我使用 doMPI 和 doRedis 作为并行后端。 doMPI 看起来内存效率更高，但比 doRedis 慢（在 100 个对象上）。

所以我想了解什么是解决这个问题的正确“策略”/“模式”。

除了使用 doMPI 或 doRedis 之外，您还需要编写一个返回适当迭代器的函数。我的迭代器包中的小插图“编写自定义迭代器”中有许多示例应该会有所帮助，但这里是对此类函数的快速尝试：

ixts <- function(xtsnames) {
  it <- iter(xtsnames)

  nextEl <- function() {
    xtsname <- nextElem(it)  # throws "StopIteration"
    load(file=paste0(xtsname, ".rda"))
    get(xtsname)
  }

  obj <- list(nextElem=nextEl)
  class(obj) <- c('ixts', 'abstractiter', 'iter')
  obj
}

这非常简单，因为它基本上是“names”变量上迭代器的包装器。插图中的几个示例都使用了这种技术。

您可以将“ixts”与 foreach 一起使用，如下所示：

result <- foreach(xts=ixts(names),
                  .combine=cbind, 
                  .multicombine=TRUE, 
                  .inorder=FALSE, 
                  .packages=c("TTR")) %dopar% {
    last(SMA(xts[, 1], 10))
}

尽管此迭代器适用于任何 foreach 后端，但并非所有后端都会调用它及时。 doMPI 和 doRedis 会，但 doParallel 和 doMC 会预先从迭代器获取所有值，因为 clusterApplyLB 和 mclapply 要求值全部位于列表中。 doMPI 和 doRedis 被设计为与迭代器一起使用，以提高内存效率。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用 foreach 克服内存限制的相关文章

R - 基于列名称的子集

我的数据框有超过 120 列变量我想根据列名称创建子集例如我想创建一个子集其中列名称包含字符串心情这可能吗我一般用 SubData lt myData grep whatIWant colnames myData 我很清楚
在 R 上安装 TDA 包时出错：目标“diag.o”的配方失败

使用 Ubuntu 16 04 和 R 3 4 1 安装 R 包 TDA 时收到错误消息它似乎与制作 CGAL diag cpp 和或 diag o 最后的完整错误打印输出有关我仔细看了这个在 R 上安装 TDA 包时出错 htt
无法编译包“maps”

当我安装 maps 包时安装中出现警告 ld warning ignoring file Library Developer CommandLineTools SDKs MacOSX10 14 sdk usr lib libSystem
条件和分组 mutate dplyr

假设我有以下每个抽屉库存增加的数据 gt socks year drawer nbr sock total 1990 1 2 1991 1 2 1990 2 3 1991 2 4 1990 3 2 1991 3 1 我想要一个二进制变量来标
在 RGL 中将立方体绘制到 3D 散点图中

我正在尝试向 3D 散点图添加较小的立方体网格具有指定边长我希望立方体位于原点我该怎么做呢我已经玩过cube3d 但我似乎无法将立方体正确定位也无法使其成为网格因此我可以看到它包含的数据点这是我所拥有的 library rg
使用data.table进行聚合

经过 SO 用户的多次建议后我终于尝试将我的代码转换为使用data table library data table DT lt data table plate paste0 plate rep 1 2 each 5 id rep c
如何使用plotmath更新ggplot图例标签

我正在尝试更新ggplot要使用的图例标签plotmath但是当我这样做时它将之前组合的图例分成两部分通过一个例子可能更容易理解 test data and the default plot gives the correct col
如何在R中实现countifs函数（excel）

我有一个包含 100000 行数据的数据集我尝试做一些countifExcel 中的操作但速度慢得惊人所以我想知道R中是否可以完成这种操作基本上我想根据多个条件进行计数例如我可以指望职业和性别 row sex occupati
闪亮井板宽度

library shiny library shinydashboard ui lt dashboardPage dashboardHeader dashboardSidebar dashboardBody wellPanel tags d
识别包含字符串的行的最快方法[重复]

这个问题在这里已经有答案了我有一个字符串数据框尺寸为 30 列 x 500 万行我想识别包含任何预定义字符串列表的行有没有比下面我的 apply any 方法更快的方法这是一个可重现的示例请注意此示例中的字符串是随机数但在我
如何在Django中显示内存中的图片？

我知道如何将图片显示为内存中的页面如下所示 import cStringIO mStream cStringIO StringIO picBin return HttpResponse mStream getvalue image jpg
使用非标准评估公式

我正在创建一个使用的包非标准评价 http adv r had co nz Computing on the language html跟踪列的含义该包在函数之间传递数据框这些函数执行同一组列的各种操作非标准评估对此非常有用 my s
上传到 Shiny 服务器后在 R 中解压文件

我正在尝试在我们的本地服务器上使用 Shiny 来构建一个应用程序允许用户上传包含 ESRI shapefile 和关联文件的 zip 文件 Shiny 服务器的 fileInput 可以获取数据并且当它这样做时它会将其存储在临时目录
使用操作按钮在闪亮的 R 中添加包含现有数据框的新行

我正在构建一个闪亮的表单它将从 textInput 字段获取数据并将这些输入与文本文件将通过文件输入上传组合起来并在主面板中显示输出有一个操作按钮用于第一次更新数据从文本输入中获取数据并与处理后的文本文件合并我添加了另一个操
使用行内 r 代码作为 R markdown 标头的一部分

我希望使用行 R 代码作为 r markdown 文件中标头的一部分然而当我编织文件时标题上使用的字体是不同的如何确保字体相同下面是一个简单的例子 r 1 1 Header 您可以将内容括在反引号中以表示内联 r 代码如下所示
tidyverse - 将命名向量转换为 data.frame/tibble 的首选方法

使用tidyverse我经常面临将命名向量转换为向量的挑战data frame tibble列是向量的名称执行此操作的首选 tidyverse 方式是什么编辑这与 this https github com hadley dplyr
聚合函数在数据框中创建不需要的向量

我在函数中创建数据帧时遇到了一个奇怪的问题但是在 data frame 之外使用相同的方法效果很好这是基本函数我用它来计算数据集的平均值标准差和标准误差 aggregateX lt function formula dataset
导入 .sav 时出现警告/错误

我工作中有两个版本的 SPSS SPSS 11 在 Windows XP 上运行 SPSS 20 在 Linux 上运行 SPSS 的两个副本都工作正常使用任一版本的 SPSS 创建的文件在其他版本的 SPSS 上打开时不会出现任何问题
Linux 中的 R 有哪些可用的 IDE？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 Linux 中的 R 有哪些好的 IDE 我尝试过 Rcmdr 和 Eclipse 但似乎都不具有与 Windows 中的 Tinn R
ggplot2 的 fortify 函数出错

我在 ggplot2 中使用 fortify 方法时收到此错误 Error in function classes fdef mtable unable to find an inherited method for function pr

随机推荐

javascript项目将自身拼接出列表

如果我有一个对象数组是否有任何方法可以让该项目将自身从包含它的数组中拼接出来例如如果一个坏人死了他会将自己从活跃的敌人阵列中剔除出来我可能听起来很疯狂但这种能力会极大地简化我的代码所以我希望有一些很酷的东西您将这样做的方式如
Word JS api 访问被拒绝（ContentControl.select、Body.getHtml）

我正在尝试通过js选择内容控制select 功能 docs https dev office com reference add ins word contentcontrol selectselectionmode selectionmo
Codeigniter 错误“无法使用提供的设置连接到数据库服务器”

当我尝试在我的域上上传此项目时我遇到错误无法使用提供的设置连接到您的数据库服务器我已经检查了我的配置文件 and 数据库 php文件且所有信息均正确将 db debug 设置为 false 解决了我的问题我用的是雪豹编辑 db
Javascript - 调用 ASP.NET WebService - 服务器方法“methodName”失败

我已经尝试解决这个问题有一段时间了但尚未成功我有一个基本的 ASP NET WebService 我试图从 javascript 调用它 using System using System Web using System Web Se
如何使用OpenCV通过solvePnP估计距离？

我尝试估计相机和用于校准的棋盘之间的距离但棋盘上点的 Z 值 993 1021 毫米有很大不同棋盘与相机平行因此我预计相机中心和棋盘平面上任何点之间的 Z 值应该相同我做错了什么 Code import numpy import
我想使用 javascript 在下拉菜单中填写五年，这些年份将在当前年份之后

我想使用 javascript 在下拉菜单中填写五年这些年份将在当前年份之后例如如果当前年份是 2012 年则下拉值为 2012 2013 2014 2015 2016 HTML
Node.js - 日志记录/使用摩根和温斯顿

we use morgan为了注销快速转换 var morgan require morgan morgan combined a format string morgan remote addr method url uuid a cus
torch-1.1.0-cp37-cp37m-win_amd64.whl 在此平台上不受支持的滚轮

我在开发 RNN 时需要使用 pyTorch 每当我尝试安装它时我都会收到一条错误消息指出 torch 1 1 0 cp37 cp37m win amd32 whl 在此平台上不受支持 pip3安装https download pyto
在android上滚动ListView后自动隐藏键盘

我是 Android 新手请帮助我在滚动列表视图后自动隐藏这是我的代码但无法获得正确的解决方案 xml文件
如何暂时禁用 django - postgresql 中的数据库完整性约束

我正在编写一个 Django 命令来为现有表播种我需要在播种之前截断表但该表上有外键约束因此我得到django db utils IntegrityError截断表格时如何在 Django 中暂时关闭外键检查 I saw SET
SQLite3::SQLException的问题：SQL逻辑错误或缺少数据库

SQLite3 SQLException SQL 逻辑错误或缺少数据库从浏览器对表进行插入更新和删除操作时出错这意味着创建更新和销毁操作失败但显示操作正常在控制台中进行相同的操作是可以的我google了一下这个问题发现大多
如何使用 dart 中的函数初始化类的字段？

有没有办法用函数初始化类的字段需要多个步骤示例而不是 class User final String uid final String fireBaseDisplayName String shortenedName User thi
macOS 上 NSPopover 中的表情符号列表（如消息应用程序）

我想展示一个NSPopover在我的 Mac 应用程序中它列出了表情符号就像 Apple 的消息应用程序一样到目前为止我能弄清楚的是我可以使用以下命令在我的应用程序中显示字符调色板 NSApp orderFrontCharacter
如何在 Magento 中添加自定义字段到订单？

我想在 Magento 的一页结帐中添加一个新的自定义字段我已经使用安装程序创建了一个模块 installer this installer gt startSetup setup new Mage Eav Model Entity Se
作为参数的函数的类型推断

我想编写一个函数它接受几个元组作为参数并用元素选择它们并传递给另一个函数其中 i 作为另一个参数给出我已经尝试过这样的事情 let function tup1 A A tup2 B B i otherFunction i tup1
我应该将 weblogic-application.xml 放在 Maven 2 项目中的什么位置？

我该放在哪里weblogic application xml http download oracle com docs cd E15051 01 wls docs103 programming app xml html wp1064995
Sequelize v6 从目录下的文件加载模型

在 Sequelize v5 或更早版本中有一种方法可以使用以下命令从文件加载模型sequelize import功能 import Sequelize from sequelize let sequelize new Sequelize
Doobie - 将任意效果提升到 ConnectionIO 中

我正在尝试在使用 Doobie 将用户插入数据库的同一事务中发送电子邮件我知道我可以举起IO into ConnectionIO通过使用Async ConnectionIO liftIO catsIO where catsIO IO St
选择Python后立即选择选项菜单

我想知道是否有任何方法可以查看用户在显示的列表中选择的内容比方说 Apple Orange Grapes 在他们选择其中之一之后就像当用户单击选项框并单击 Apple 时 Tkinter 将返回一些内容然后如果他将选择切换为橙色那
如何使用 foreach 克服内存限制

我正在尝试处理保存在磁盘上的 gt 10000 个 xts 对象当加载到 R 中时每个对象的大小约为 0 2 GB 我想使用 foreach 并行处理这些对象我的代码适用于类似 100 个 xts 对象的情况我将这些对象预加载到内存

如何使用 foreach 克服内存限制

如何使用 foreach 克服内存限制 的相关文章

随机推荐

热门标签

如何使用 foreach 克服内存限制的相关文章