dplyr：mutate 内的整数采样

2024-02-22

我正在尝试在中生成一列tbl_df这是一个 0 或 1 的随机整数。这是我正在使用的代码：

library(dplyr)
set.seed(0)

#Dummy data.frame to test
df <- tbl_df(data.frame(x = rep(1:3, each = 4)))

#Generate the random integer column
df_test = df %>% 
  mutate(pop=sample(0:1, 1, replace=TRUE))

但这似乎并没有按照我预期的方式工作。我生成的字段似乎全为零。这是因为里面的陈述mutate是并行评估的，因此最终使用相同的种子进行第一次随机抽取？

df_test 
Source: local data frame [12 x 2]

   x pop
1  1   0
2  1   0
3  1   0
4  1   0
5  2   0
6  2   0
7  2   0
8  2   0
9  3   0
10 3   0
11 3   0
12 3   0

过去几个小时我都为这件事伤透了脑筋。知道我的脚本有什么缺陷吗？

按照代码的编写方式，您将单个值（随机抽取的结果）分配给整个向量（这称为“向量回收”）。

在这种情况下，最好的解决方案是 Steven Beaupré 的答案，创建一个与 data.frame 长度相同的随机向量：

df %>% 
  mutate(pop = sample(0:1, n(), replace = TRUE))

一般来说，如果您想逐行应用函数dplyr- 正如您所想的那样 - 您可以使用rowwise()，尽管在本例中这不是必需的。

这是一个例子rowwise():

df2 <- data.frame(a = c(1,3,6), b = c(2,4,5))

df2 %>%
  mutate(m = max(a,b))

  a b m
1 1 2 6
2 3 4 6
3 6 5 6

df2 %>%
  rowwise() %>%
  mutate(m = max(a,b))

  a b m
1 1 2 2
2 3 4 4
3 6 5 6

Since rowwise按每行对数据进行分组的操作可能比没有任何分组的情况慢。因此，最好尽可能使用向量化函数，而不是逐行操作。

基准测试：

该方法与rowwise()大约慢 30 倍：

library(microbenchmark)
df <- tbl_df(data.frame(x = rep(1:1000, each = 4)))
bench <- microbenchmark(
  vectorized = df2 <- df %>% mutate(pop = sample(0:1, n(), replace = TRUE)),
  rowwise = df2 <- df %>% rowwise() %>% mutate(pop = sample(0:1, 1, replace = TRUE)),
  times = 1000
  )

options(microbenchmark.unit="relative")
print(bench)
autoplot(bench)

Unit: relative
       expr      min       lq     mean   median       uq     max neval
 vectorized  1.00000  1.00000  1.00000  1.00000  1.00000  1.0000  1000
    rowwise 42.53169 42.29486 36.94876 33.70456 34.92621 71.7682  1000

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

dplyr

dplyr：mutate 内的整数采样的相关文章

在ggplotly散点图中添加自定义数据标签

我想显示Species对于每个数据点当光标位于该点上方而不是 x 和 y 值时我用iris数据集另外我希望能够单击数据点以使标签持久存在并且当我在图中选择新位置时标签不会消失如果可能的话最基本的是标签持久性问题是一个优点这
将 read.csv 与符号链接文件一起使用

我正在尝试做什么我的源文件非常大我想避免将其复制到其他文件夹中我决定创建一个指向大文件的符号链接并想使用read csv读取文件文件夹结构项目1 数据源文件 csv 项目2 数据别名到源文件 csv 什么地方出了错读取源文件
以编程方式触发 R 传单中的标记鼠标单击事件以获得闪亮效果

我的问题与此相同在 R 传单中触发标记鼠标单击事件以获得闪亮效果 https stackoverflow com questions 56962857 trigger marker mouse click event in r leafl
在 mutate 和 across 之后使用 ~separate

目的是将所有物种 setosa 行转换为一行 setosa 这是一个最小的示例实际上有更多列和更多组我有这个数据框 head iris 2 gt select 1 2 5 gt group by Species Sepal Length
使用滑动窗口动画 ggplot 时间序列图

我正在寻找在不失去分辨率的情况下对长时间序列图进行动画处理的方法我希望视图能够平移数据显示从开始到结束的滑动子集假设我有以下内容 library ggplot2 library dplyr library gganimate df
R：为什么 boxplot(x,log="y") 与 boxplot(log(x)) 不同？

delme lt exp rnorm 1000 1 5 0 3 boxplot delme log y boxplot log10 delme 为什么这两个图中的胡须不同谢谢阿古斯我想说的是在您的第一个图中您只是将 y 轴更改为对
从向量中删除元素在 R 中出现的时间量

我想从一个向量中删除元素在另一个向量中出现的时间就像我要减去它们一样鉴于我想要删除的元素向量中的每个元素也存在于我想要从中删除的主向量中 a lt c A B B C C C b lt c A B C C a a in b return
rpart是自动剪枝吗？

Is rpart自动修剪生成的决策树rpart比具有自动修剪功能的 Oracle Data Mining 生成的级别要多得多否但拟合函数的默认值可能会提前停止分割对于早期的某些定义 See rpart control对于您可
在 Shiny 中叠加两个 ggplot

我有一个非常大的数据集我正在使用 ggplot 在 Shiny 上绘制它我有一个与 x 轴上的值相关联的滑块我想用它对选定的数据子集重新着色并让其余数据保持原样最简单的选择是重新创建整个绘图但由于它是一个大型数据集因此这是一个
R：如何找到向量的模式[重复]

这个问题在这里已经有答案了下面是我的data frame我想知道每个内存类别 1 到 8 的模式是什么 gt dput d structure list MEMORY1 c 5 5 7 1 5 6 4 5 4 5 5 4 1 5 5 2
R闪亮主面板显示样式和字体

我正在学习闪亮的应用程序并且有一些关于调整布局的基本问题特别是样式和字体希望得到指点或明确的答案谢谢考虑一个基本的输入输出应用程序用户在 sidebarPanel 中输入数据然后在 mainPanel 中反应性地输出结果如何
将所有分号替换为空格 pt2

我尝试对 2000 多行关键字的列表运行文本分析但它们的列出方式如下战略管理风格组织所以当我使用 tm 删除标点符号时它就变成了组织的战略管理风格我认为这在某种程度上破坏了我常用术语的分析我尝试过使用 vector lt
为每个因素级别添加日期时间序列

我有一个带有因子列的数据框 s lt data frame id 901 910 s id lt as factor s id 我有一个日期时间序列 library lubridate start lt now as difftime 2
在 R 中导入 csv 文件时如何保留前导零？

当我写一个 csv来自 R 的文件其中我的组名称以前导零值开头前导零被保留但是当我导入 csv前导零被删除组名称被转换为整数当我导入一个组时如何保留组名称中的前导零 csvR 中的文件 Example df lt data fr
如何在基数 R 中进行分组

我想使用以下 SQL 查询来表达base R 没有任何特定的包 select month day count as count avg dep delay as avg delay from flights group by month d
R 错误：无法更改锁定绑定的值

我试图估计无限数字流的平均值和标准差当我运行代码时出现错误消息无法更改锁定绑定的值我做了一些研究发现这个错误与我使用全局变量有关但我无法弄清楚任何帮助将非常感激在此先感谢您的帮助 define global variable
R参考类问题

我正在尝试在 R 中创建一个简单的参考类这是我的代码 R 初学者 MyClass lt setRefClass MyClass fields list a numeric b numeric methods list initialize
如何从数据框中删除少于 5 个观察值的个体 [重复]

这个问题在这里已经有答案了为了澄清这个问题我将简要描述数据中的每一行data frame是一个观察值列代表与该观察值相关的变量包括观察到什么个体观察时间观察地点等我想排除过滤观察值少于 5 个的个体换句话说如果 in
在 Lavaan 生长曲线模型中提取个体轨迹

我已经使用 R 的 Lavaan 包中的 Growth 函数成功地对一项研究的纵向数据进行了建模我找不到任何关于如何提取每个参与者的预测轨迹的记录我只能找到整个组的预测轨迹在摘要输出的拦截部分下给出使用 lavPredict m
R data.table fwrite 到 fread 空间分隔符并清空

我在使用 fread 以作为分隔符和散布的空白值时遇到问题例如这个 dt lt data table 1 5 1 5 1 5 make a simple table dt 3 V2 NA add a blank in the midd

随机推荐

FirestoreRecyclerAdapter 不更新视图

我正在使用 FirestoreRecyclerAdapter 并遇到了问题 Query query db collection SOME COLLECTION whereEqualTo key key orderBy dueDate 如果我
让嵌入式闪存自动播放

我真的很困惑这怎么行不通但视频由于某种原因无法自动启动我做错了什么吗嵌入的代码用于 Flash 播放
从 Chrome 扩展获取唯一的 ClientID？

我正在开发 chrome 扩展我需要能够将每个客户识别为独特的客户我无法将 guid 存储在 cookie 中因为 cookie 可以被删除我需要从系统本身读取一些独特的东西现在我知道 JS 无法访问客户端资源本地资源但是
NextJS - ReactDOMServer 尚不支持 Suspense

我目前正在尝试将加载器组件合并到使用 NextJS 构建的网站中我想使用 Suspense 显示加载屏幕可能是在刷新页面或更改路线后我的代码是这样的 import Head from next head import Loader f
为什么具有终结器的对象即使没有根也不会被收集？

我遇到了可终结对象的问题该对象未被收集GC if Dispose 没有被明确调用我知道我应该打电话Dispose 显式地如果一个对象实现IDisposable 但我一直认为依赖框架是安全的当一个对象变得未被引用时它可以被收集但经过
Android OpenGL ES 2：如何在主活动中使用 OpenGL 活动作为片段

我对 Android 和 OpenGL ES 还很陌生我必须在 OpenGL 中创建一个 GUI 并且我想将其用作Fragment在主要活动中为了学习如何做到这一点我尝试了 2 个教程这个片段教程 http www techotop
按值对 HashMap 进行排序[重复]

这个问题在这里已经有答案了我需要整理我的HashMap根据其中存储的值这HashMap包含手机中存储的联系人姓名另外我需要在对值进行排序后立即对键进行自动排序或者您可以说键和值绑定在一起因此值的任何更改都应该反映在键中 Hash
在 python 多处理工作池中使用初始化

我正在研究工作人员的 multiprocessing Pool 试图用某种状态初始化工作人员该池可以接受可调用的初始化但不会传递对已初始化工作线程的引用我见过的几个例子利用它调用全局变量这看起来真的很讨厌有没有什么好方法使用 mu
elisp 中的复数/虚数？

elisp 支持虚数吗我正在尝试通过运行 lisp 交互模式缓冲区来学习在线数学课程 Emacs elisp 有高等数学模块库吗 Emacs 包括calc 一个支持复数的综合计算器 The manual is here C hig
C 或 C++ 中的日历日期算术（给给定日期添加 N 天）

我已经得到了一个日期我将其作为输入例如日月年 12 03 87 现在我需要找出之后的日期n days 我已经为此编写了代码但效率不高您能告诉我任何运行速度更快且复杂性更小的好的逻辑吗 include
Typescript：为什么 Visual Studio Code 不报告与命令行 tsc 相同的错误？

如果我故意在代码中输入错误我会收到错误这是正确的代码 declare const State TwineState 如果我删除最后一个字符然后在命令行中键入 tsc 则会出现以下错误 tsc prod spec ts 7 22 err
如何处理 React Native 应用程序在 tvOS 和 Android TV 之间的扩展问题？

Apple TV 的原生分辨率似乎为 1920x1080 如预期但 Android TV Fire TV 的原生分辨率似乎为 961 5022957581195x540 8450413639423 根据Dimensions get win
如何在不修改java.security文件的情况下在Java 8中启用SSLv3？

在 JDK 8 中默认情况下禁用 SSLv3 并启用 TLSv1 2 当我谷歌时我发现很多帖子都通过注释掉以下行来启用 SSLv3java securitylib 文件夹中的文件我想通过设置系统属性来启用 SSLv3 而不需要修改 j
如何获取枚举条目的名称？

我想迭代 TypeScript 枚举对象并获取每个枚举符号名称例如枚举 myEnum 条目 1 条目 2 for var entry in myEnum use entry s name here e g entry1 尽管已经给出了答
类型错误：无法读取未定义的属性“prepareStyles”

My Component好像 import React PropTypes from react import TransactionListRow from TransactionListRow import Table TableBod
Laravel 用户有权访问某些页面吗？

我创建了一个 slug 页面如下所示 Create pages table for dynamic pages id slug title page template 0 about about us about blade 1 cont
使用 jQuery 调整父元素的高度以匹配其可见子元素的高度

我有一个在容器中运行的幻灯片需要容器的高度与可见幻灯片的高度相匹配不幸的是这些图像是绝对定位的我对此无能为力为了解决这个问题我使用了一些 jQuery 魔法来处理相同的功能由于某种原因我的代码无法正常工作每当 contai
有没有JavaScript静态分析工具？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案当我做了一些愚蠢的事情例如变量名拼写错误时我习惯于让编译器抱怨但 JavaScript 习惯于让
为什么我不能直接将 document.getElementById 分配给不同的函数？

所以我试图定义一个类似于 document getElementById 的函数 g 以下工作正常 var g function id return document getElementById id 但为什么这个更直接的代码不起作用呢
dplyr：mutate 内的整数采样

我正在尝试在中生成一列tbl df这是一个 0 或 1 的随机整数这是我正在使用的代码 library dplyr set seed 0 Dummy data frame to test df lt tbl df data frame x

dplyr：mutate 内的整数采样

dplyr：mutate 内的整数采样 的相关文章

随机推荐

热门标签

dplyr：mutate 内的整数采样的相关文章