一段 R 代码会影响 foreach 输出中的随机数吗？

2024-05-18

我使用运行模拟foreach and doParallel并与随机数（名为random在代码中）。

简而言之：我模拟一个足球联赛，随机生成所有比赛的获胜者以及相应的结果。在dt_base没有比赛进行，在dt_ex1 and dt_ex24场比赛的结果已经已知。所有未知的结果都应该被模拟。

In the 联赛模拟代码在这篇文章的底部，我设置了 1000 个模拟，分为 100 个块（forloop 用于将数据发送到 PostgreSQL 并减少我使用的完整代码中的 RAM 使用量）。我希望所有的随机数都不同（甚至不坚持可重现的结果）。

1.当运行给定的代码时，应该达到所有不同随机数的目标。

> # ====== Distinct Random Numbers ======
> length(unique(out$random))                              # expectation: 22000
[1] 22000
> length(unique(out$random[out$part == "base"]))          # expectation: 10000
[1] 10000
> length(unique(out$random[out$part == "dt_ex1"]))        # expectation: 6000
[1] 6000
> length(unique(out$random[out$part == "dt_ex2"]))        # expectation: 6000
[1] 6000

2. 现在请取消注释分配最终分数的代码段 *[tmp_sim] = 3（应该是第 60,61,67,68 行!!!在他们身上）并再次运行它。

> # ====== Distinct Random Numbers ======
> length(unique(out$random))                              # expectation: 22000
[1] 10360
> length(unique(out$random[out$part == "base"]))          # expectation: 10000
[1] 10000
> length(unique(out$random[out$part == "dt_ex1"]))        # expectation: 6000
[1] 180
> length(unique(out$random[out$part == "dt_ex2"]))        # expectation: 6000
[1] 180

那就是事情变得混乱并且对我来说没有意义的时候。random inside iter对于dt_ex1 and dt_ex2当向这些数据框中添加几个数字时。

您是否也经历过同样的效果？知道发生了什么事吗？

我尝试了 R 版本 3.5.3 和 3.6.3。也尝试过doRNG包裹。总是同样的问题。

联赛模拟代码

# League Simulation
rm(list = ls())
set.seed(666)
cat("\014")
library(sqldf)
library(plyr)
library(dplyr)

# ====== User Functions ======
comb4 = function(x, ...) { #function for combining foreach output
  Map(rbind, x, ...)
}

# ====== Data Preparation ======
dt_base = data.frame(id = 1:10,
                  part = rep("base",10),
                  random = NA)

dt_ex1 = data.frame(id = 1:10,
                         part = rep("dt_ex1",10),
                         HG = c(1,3,6,NA,NA,2,NA,NA,NA,NA),  # Home Goals
                         AG = c(1,3,6,NA,NA,2,NA,NA,NA,NA),  # Away Goals
                         random = NA)

dt_ex2 = data.frame(id = 1:10,
                            part = rep("dt_ex2",10),
                         HG = c(1,3,6,NA,NA,2,NA,NA,NA,NA),  # Home Goals
                         AG = c(1,3,6,NA,NA,2,NA,NA,NA,NA),  # Away Goals
                         random = NA)

# ====== Set Parallel Computing ======
library(foreach)
library(doParallel)

cl = makeCluster(3, outfile = "")
registerDoParallel(cl)

# ====== SIMULATION ======
nsim = 1000                # number of simulations
iterChunk = 100            # split nsim into this many chunks
out = data.frame()    # prepare output DF
for(iter in 1:ceiling(nsim/iterChunk)){
  strt = Sys.time()
  
  out_iter = 
    foreach(i = 1:iterChunk, .combine = comb4, .multicombine = TRUE, .maxcombine = 100000, .inorder = FALSE, .verbose = FALSE,
            .packages = c("plyr", "dplyr", "sqldf")) %dopar% {
              
              ## PART 1
              # simulation number
              id_sim = iterChunk * (iter - 1) + i
              
              # First random numbers set
              dt_base[,"random"] = runif(nrow(dt_base))
              
              
              ## PART 2
              tmp_sim = is.na(dt_ex1$HG) # no results yet
              dt_ex1$random[tmp_sim] = runif(sum(tmp_sim))
              # dt_ex1$HG[tmp_sim] = 3   # !!!
              # dt_ex1$AG[tmp_sim] = 3   # !!!
              
              
              ## PART 3
              tmp_sim = is.na(dt_ex2$HG) # no results yet
              dt_ex2$random[tmp_sim] = runif(sum(tmp_sim))
              # dt_ex2$HG[tmp_sim] = 3   # !!!
              # dt_ex2$AG[tmp_sim] = 3   # !!!
              
              
              # ---- Save Results
              zapasy = rbind.data.frame(dt_base[,c("id","part","random")],
                                        dt_ex1[,c("id","part","random")]
                                        ,dt_ex2[,c("id","part","random")]
              )
              zapasy$id_sim = id_sim
              zapasy$iter = iter
              zapasy$i = i
              
              out_i = list(zapasy = zapasy)
              
              print(Sys.time())
              return(out_i)
            }#i;sim_forcycle
  
  out = rbind.data.frame(out,subset(out_iter$zapasy, !is.na(random)))
  
  fnsh = Sys.time()
  cat(" [",iter,"] ",fnsh - strt, sep = "")
  
}#iter


# ====== Distinct Random Numbers ======
length(unique(out$random))                              # expectation: 22000
length(unique(out$random[out$part == "base"]))          # expectation: 10000
length(unique(out$random[out$part == "dt_ex1"]))        # expectation: 6000
length(unique(out$random[out$part == "dt_ex2"]))        # expectation: 6000


# ====== Stop Parallel Computing ======
stopCluster(cl)

R 使用的随机生成器（包括set.seed and runif) 是全局的并且适用于整个应用程序。

看来您的问题正在发生，因为生成器的访问在并行进程之间共享，但这些进程之间不同步（即，它不是“线程安全”），因此每个进程都有自己的生成器状态视图（因此因此，由于这种不同步的访问，不同的进程可以绘制完全相同的随机数）。相反，您应该为每个并行进程（在本例中为每个模拟）提供其自己的随机生成器，该生成器不在进程之间共享，并且每个进程的种子 https://peteroupc.github.io/random.html#Seeding_Multiple_Processes（或模拟）相应地。

多线程是其中之一许多问题需要考虑 https://peteroupc.github.io/random.html#Ensuring_Reproducibility当您关心可重复的“随机”数字时。

事实证明，根本问题更多是由数据框在进程之间共享，而不是 R 的全局 RNG。看到这个问题使用 R 进行多线程计算：如何获得所有不同的随机数？ https://stackoverflow.com/questions/62758637/multithread-computation-with-r-how-to-get-all-different-random-numbers .

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

一段 R 代码会影响 foreach 输出中的随机数吗？的相关文章

如何更改 r 中的树状图标签

我在 R 中有一个树形图它基于使用 hclust 的分层聚类我正在对不同颜色的标签进行着色但是当我尝试使用以下命令更改树图的标签集群所基于的数据帧的行时dendrogram dendrogram gt set labels dat
如何使用 ggplot2 对曲线下的区域进行着色

我一直在尝试使用 ggplot2 生成类似于此 R 图形的绘图 xv lt seq 0 4 0 01 yv lt dnorm xv 2 0 5 plot xv yv type l polygon c xv xv lt 1 5 1 5 c y
data.table 的包装函数

我有一个已经使用 data frame 上下文编写的项目为了缩短计算时间我尝试利用 data table 的速度我的方法是构造包装函数读取帧将它们转换为表进行计算然后转换回帧这是一个简单的例子 FastAgg lt func
根据 R 中的字符串模式选择行

假设我有以下数据 df lt data frame name c TO for Turnover for people HC people Hello world beenie man apple pears TO is number c
更新两组单选按钮 - 闪亮

我问了这个问题反应式更新两组单选按钮闪亮 https stackoverflow com questions 35040579 update two sets of radiobuttons reactively shiny 昨天但也
R - 通过合并和超过 2 个后缀进行减少（或者：如何合并多个数据帧并跟踪列）

我正在尝试基于 2 列合并 4 个数据帧但要跟踪列源自哪个数据帧我在跟踪列时遇到问题参见 dput dfs 帖子末尾 df example df1 Name Color Freq banana yellow 3 apple red 1
使用神经网络包进行多项分类

这个问题应该很简单但文档没有帮助我正在使用 R 我必须使用neuralnet多项式分类问题的包所有示例均针对二项式或线性输出我可以使用二项式输出进行一些一对一的实现但我相信我应该能够通过使用 3 个单元作为输出层来做到这一点其中
跨类别和列自动化卡方

我有一个调查数据框其中包含几个问题列编码为 1 同意 0 不同意受访者行根据年龄年轻中年老年地区东中西等指标进行分类大约有30个类别总共 3个年龄 3个地区 2个性别 11个职业等在每个指标中类别不重叠且
RMySQL fetch - 找不到继承的方法

使用 RMySQL 我想将数据从数据库加载到 R 中的数据帧中为此我使用以下代码 R连接数据库 con lt dbConnect MySQL user root password password dbname prediction h
当我的模型为空时，如何避免视图内的 foreach 循环中出现 NullReferenceException？

当我通过控制器传入 null 值时我的视图中收到以下代码的 NullReferenceException 未由用户代码处理错误在某些情况下我想传入 null 值但我不希望发生这种情况时引发错误我应该将我的代码更改为什么最初我的
按组复制数据框

我有以下数据框 df structure list Group c 1 1 1 1 2 2 2 2 2 2 3 3 3 index c 1 2 3 4 1 2 3 4 5 6 1 2 3 row names c NA 13L class c
如何将数据从长格式重塑为宽格式

我在重新排列以下数据框时遇到问题 set seed 45 dat1 lt data frame name rep c firstName secondName each 4 numbers rep 1 4 2 value rnorm 8 d
Shiny ：针对所有错误显示一条消息

我在 R 的 Shiny 中有一个应用程序我想处理消息以便用户看不到发生了什么错误我知道通过 tags style type text css shiny output error visibility hidden shiny ou
R 中具有 p 值的相关矩阵

假设我想要传导相关矩阵 library dplyr data iris iris gt select if is numeric gt cor y iris Petal Width method spearman gt round 2 现在
在zooreg时间序列中查找非唯一索引条目时遇到问题

我有几年的数据正在尝试将其转化为动物园对象 Dropbox 上的 csv https www dropbox com sh vg8w8pt16e0v3xs AABKtWqDkPu9JVKpwBXO36VOa dl 0 一旦数据被强制转换为动
使用 R 将日期格式的字符串列表/向量转换为 posix 日期类

我有一个日期格式的字符串列表我想将其转换为可以使用 R 操作的 posix 日期列表我该怎么做这就是我所拥有的但我最终得到了一个列表 a lt c 2009 01 01 00 00 00 2009 01 01 00 00 00 z
R中具有特定条件的多列变异

我有这个数据 M1 M2 M3 UCL 1 2 3 1 5 我想在这种情况下创建新列如果M1大于UCL MM1将为 UP 否则为 NULL 如果M2大于UCL MM2将为 UP 否则为 NULL 如果M3大于UCL MM3将为 UP 否则
如何将 Shiny 中生成的反应图传递到 Rmarkdown 以生成动态报告

简而言之我希望能够通过单击按钮从我的闪亮应用程序生成动态 Rmarkdown 报告文件 pdf 或 html 为此我想我将使用 Shiny 的参数化报告但不知何故我无法将单个谜题转移到所需的目标使用此代码我们可以在 R Shin
Matlab 中是否有相当于 R 的 dput() 的函数？

Matlab 中是否有相当于 R 的 dput 的函数 dput 将 R 对象的 ASCII 文本表示形式写入文件或连接 UPDATE 1 添加了递归和对单元格的支持 UPDATE 2 添加了对结构的支持 UPDATE 3 增加了对逻辑整
SparkR 和 Sparklyr 之间导入 parquet 文件所需的时间差异

我正在使用 databricks 导入镶木地板文件SparkR and sparklyr data1 SparkR read df dbfs data202007 source parquet header TRUE inferSchema

随机推荐

C++ 中使用较少参数调用构造函数

我有类 Foo 和给定的构造函数 class Foo public Foo int w char x int y int z int main Foo abc 10 a 我可以像这样使用该构造函数吗当构造函数签名不匹配时那么如何给出默认
如果 Window.SizeToContent = WidthAndHeight，则 Loaded 事件的 EventToCommand 无法按预期工作

我发现EventToCommand对于 Loaded event 来说如果Window SizeToContent属性设置为WidthAndHeight Loaded 事件似乎被正确触发但是EventToCommand Command属
使用接口或函数对象进行回调？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案在面向对象中通常使用接口来实现回调粗略示例 class Message class IMsgProcessor public virtual
TensorFlow：在训练时更改变量

如果我将输入管道从 feed dict 更改为 tf data dataset 如何在每次迭代后的训练期间更改网络内参数的值澄清一下旧代码看起来像这样 Define Training Step model is some class t
在 TIFF 中创建带有缩略图的子 IFD (libtiff)

我知道thumbnail c包含一些创建缩略图并将其放置在子IDF中的代码但是该代码中发生了很多事情生成缩略图应用对比度曲线等并且我很难重现写缩略图谷歌也没有提供任何帮助我的问题是在我打开输出文件并获得 TIFF 后我的缩略
与 Google 提供商的 HybridAuth 进行身份验证时会随机返回“invalid_request”

我们使用 Google OAuth2 对内部应用程序的用户进行身份验证使用 HybridAuth 2 4 0 一切进展顺利直到大约一周前我们开始看到越来越多的随机 invalid request 响应https accounts go
当 Google 任务标记为“已完成”时如何触发 Google 脚本

Google Apps 脚本允许由各种事件触发脚本看here https developers google com apps script guides triggers 当用户将任务标记为已完成在 Google 任务中时我想更新
C++ getter 和 setter 最佳风格

Java 代码约定简单明了采用这种风格 public int GetMyAge return myAge void SetMyAge int myAge this gt myAge myAge private int myAge 我知道这
使用 FileInputStream 时如何确定理想的缓冲区大小？

我有一个从文件创建 MessageDigest 哈希的方法我需要对很多文件 gt 100 000 执行此操作用于读取文件的缓冲区应该设置多大才能最大限度地提高性能大多数人都熟悉基本代码为了以防万一我将在这里重复一遍 Messag
在 Node.js 中解析 Json（带有数组和对象）并将数据导出到 Excel 文件中

我是 Node js 新手我的要求是我需要解析 JSON 并将数据导出到 Excel 文件中其中包含 JSON 中的所有字段我的 JSON 如下 id 1255 title The Brain and Nervous System
当 UITextField 已满或空时显示警报 Swift

下面的代码中如果 userNameTF 或 passwordTF 已满或为空则会显示警报 IBAction func LoginBtn sender AnyObject let userName userNameTF text let
具有恒定长度的 System.arraycopy

我正在玩 JMH http openjdk java net projects code tools jmh http openjdk java net projects code tools jmh 我偶然发现了一个奇怪的结果我正在对制
跨数据库的用户定义类型

我有一个数据库其中包含我在多个数据库中使用的常用函数这些函数之一采用表作为参数该参数是用户定义的类型我想知道是否有办法从另一个数据库调用这个函数我尝试在其他数据库中定义类型如下所示 DECLARE bits as Common
docker 容器无法启动，因为现有的 pid 文件

当我启动 docker 容器时它会失败因为现有的 pid 文件 root newhope sergio docker logs sharp shockley httpd pid 1 already running httpd pid 1
使用 rollup.js 创建 React 库时出现错误 null（读取“useState”）

我正在使用 rollup js 创建一个反应库但是当我运行时npm run build我收到一个错误仿佛useState尝试从中检索钩子null Uncaught TypeError Cannot read properties of
JavaScript 错误处理的最佳实践是什么？

我希望开始让我的 JavaScript 更加防错并且我找到了大量有关使用的文档try catch finally and throw 但我没有从专家那里找到大量关于何时何地抛出错误的建议每段代码都应该包含在 try catch 中吗还
ViewModel 中的 TextBox CaretIndex 属性

是否可以通过视图中定义的 Binding 获取设置 wpf 视图模型中 TextBox 控件的 CaretIndex 属性的值 Thanks 这里的问题是如何获得CaretIndex of the TextBox通过视图模型进行控制如果
chrome扩展中的js代码可以检测到它是作为内容脚本执行的吗？

我有一个谷歌浏览器扩展它在内容脚本和后台进程弹出窗口之间共享一些代码这段代码是否有一些简单直接的方法来检查它是否作为内容脚本执行消息传递行为不同我可以在清单中包含额外的标记 javascript 或者调用内容脚本中不可用的某些
在java中使用BUBBLE SORT对二维字符串数组进行排序

类似的问题已经被问过但从来没有关于二维字符串数组因此在尝试了很长时间之后我找不到我想要的我正在尝试使用 BubbleSort 对 java 中的 2D 字符串数组进行排序作为输入我收到一个二维字符串数组一个表以及您应该排序的
一段 R 代码会影响 foreach 输出中的随机数吗？

我使用运行模拟foreach and doParallel并与随机数名为random在代码中简而言之我模拟一个足球联赛随机生成所有比赛的获胜者以及相应的结果在dt base没有比赛进行在dt ex1 and dt ex24场比赛

一段 R 代码会影响 foreach 输出中的随机数吗？

联赛模拟代码

一段 R 代码会影响 foreach 输出中的随机数吗？ 的相关文章

随机推荐

热门标签

一段 R 代码会影响 foreach 输出中的随机数吗？的相关文章