从数据帧中分层随机抽样

2024-04-21

我有一个格式为的数据框：

head(subset)
# ants  0 1 1 0 1 
# age   1 2 2 1 3
# lc    1 1 0 1 0

我需要根据年龄和 lc 创建带有随机样本的新数据框。例如，我想要来自age:1和lc:1的30个样本，来自age:1和lc:0的30个样本等。

我确实研究了随机抽样方法，例如；

newdata <- function(subset, age, 30)

但这不是我想要的代码。

我建议使用stratified从我的“splitstackshape”包中，或者sample_n来自“dplyr”包：

## Sample data
set.seed(1)
n <- 1e4
d <- data.table(age = sample(1:5, n, T), 
                lc = rbinom(n, 1 , .5),
                ants = rbinom(n, 1, .7))
# table(d$age, d$lc)

For stratified，您基本上指定数据集、分层列以及表示您想要从每个组中获得的大小的整数或表示您想要返回的分数的小数（例如，0.1 表示每个组中的 10%）。

library(splitstackshape)
set.seed(1)
out <- stratified(d, c("age", "lc"), 30)
head(out)
#    age lc ants
# 1:   1  0    1
# 2:   1  0    0
# 3:   1  0    1
# 4:   1  0    1
# 5:   1  0    0
# 6:   1  0    1

table(out$age, out$lc)
#    
#      0  1
#   1 30 30
#   2 30 30
#   3 30 30
#   4 30 30
#   5 30 30

For sample_n您首先创建一个分组表（使用group_by)，然后指定您想要的观测值数量。如果您想要比例采样，则应该使用sample_frac.

library(dplyr)
set.seed(1)
out2 <- d %>%
  group_by(age, lc) %>%
  sample_n(30)

# table(out2$age, out2$lc)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

Random

sampling

从数据帧中分层随机抽样的相关文章

无法使用 Shinyjs() 禁用闪亮的应用程序单选按钮

我正在尝试禁用闪亮的应用程序单选按钮趋势 input Product A input month All 使用Shinyjs包但没有成功我的 ui 页面定义为 ui lt fluidPage shinyjs useShinyjs pa
ggplot2 使用 geom_line 手动指定颜色

我正在尝试绘制下面的图表并想手动指定颜色我需要按基因型绘制因为有多个基因型属于同一个 Bgrnd All 并且我希望它们在绘制的线条中单独出现但是我想按 Bgrnd All 对线条进行着色特别是按照我在 scale fill m
R：用不同的颜色将一个 ECDF 绘制在另一个 ECDF 之上

我有几个累积经验密度函数我想将它们绘制在彼此之上以说明两条曲线的差异正如所指出的在上一个问题中 https i stack imgur com V7fIq png 绘制 ECDF 的函数很简单plot Ecdf 当我阅读精美的手册页时
如何将表格与森林图对齐（ggplot2）

我是 R 新手创建了一个森林区间图并在图旁边包含了一个表格其中包含我的置信区间和风险比我的问题是 RR 和 CI 与绘图上的水平网格线不完全对齐我尝试使用此处所示的拼凑解决方案但这似乎对我不起作用 grid arrange 更
R data.table 计算行数，直到达到值

我想在 data table 中返回一个新列该列显示在达到低于当前值 Temp 的值之前有多少行 library data table set seed 123 DT lt data table Temp runif 10 0 20 这就
在闪亮的应用程序中选择文件夹或文件夹目录

我在使用闪亮时遇到问题我想选择保存我要在应用程序中使用的所有文件的文件夹方法是 1 将工作目录设置为该文件夹路径或 2 将此文件夹内的所有 csv 数据上传到我的应用程序以进行进一步处理 1 我找到了shinyFiles包但它非常非
具有可变宽度的重叠条形图/直方图

I have chr totgenes FST gt 0 4 FST gt 0 4 exFST gt 0 4 exFST gt 0 4 inFST gt 0 4 inFST gt 0 4 chrtotlen 1 1457 49 3 3630
按组保留行，直到列中值第一次出现为止。不允许存在值的组

我有一个像这样的数据框 gt df id type 1 1 a 2 1 a 3 1 b 4 1 a 5 1 b 6 2 a 7 2 a 8 2 b 9 3 a 10 3 a 我想保留每个组 id 的所有行直到类型列中第一次出现值 b 为止
R：函数中使用的 ggplot2 未反映字体大小变量的变化

我经常需要将多个不同大小的相同 ggplot2 图表输出到 png 文件通过使用输出高度和宽度以像素为单位的变量可以轻松生成每个 png 文件的大小对于 ggplot2 部分我使用字体大小和某些其他元素的变量并设置一个简单的循
编写代码以：启动 R 会话、运行 R 脚本、终止会话、重复

我正在寻找一种简单的设置后就忘记它的方式无论是作为终端中的单个参数字符串还是简单的 Java 程序来自动执行以下操作 1 启动R会话 2 告诉 R 源 R 文件包含冗长的并行模拟代码 3 完成后终止R会话 4 开始一个新的R会话 5
hashlib 和 urandom 哪个更随机？

我正在和一个朋友一起开发一个项目我们需要生成随机哈希在我们有时间讨论之前我们都提出了不同的方法并且因为他们使用不同的模块我想问你们大家什么会更好如果有这样的事情的话 hashlib sha1 str random random
哪些参数被传递给回溯中的函数？

在 R 中如果执行因错误而停止我可以评估traceback 查看哪个函数发生了错误哪个函数是从哪个函数调用的等等它会给出类似这样的信息 8 ar yw default x aic aic order max order max n
R - 绘图标签文本的文本格式 - 删除线

如何使绘图标签中的标签文本的一部分带有删除线例如要使 y 轴标签读取为标签中的 strikethrough 文本 ggplot mpg aes x displ y hwy geom point ylab strikethrough t
如何使用 R 从 github 存储库文件夹中获取列表文件

我想知道是否存在一个函数或链接或任何可以像这样工作的方法list files R 中的函数但位于存储在 github 存储库上的文件夹上示例 github 存储库文件夹 https github com KZPS Spotkania t
从另一个项目调用项目脚本

我正在构建一个 RStudio 项目项目 2 我想在其中访问另一个已构建的 RStudio 项目项目 1 中包含的某些脚本项目 1 包含各种脚本其中一些脚本通过source 来电有什么办法可以实现这一点吗我最初认为在项目 1 中
根据 R 中另一个数据帧中给出的条件，用 NA 替换数据帧中的多个值

使用 R 我想根据另一个数据框中包含的条件将数据框中的数值替换为 NA An example data frame with numeric values I want to change to NA based on values giv
R 中的命名空间和泛型函数

这个问题有点后续这个问题 https stackoverflow com questions 55361133 how to make your ranking values show integer without decimals in
使用正整数参数优化

我需要解决一个需要比较具有相同列数的两个矩阵的问题其中之一被操纵直到获得最佳匹配我对两个矩阵之间的差异进行评分的方式非常复杂我仍然需要最终确定它目前我真正感兴趣的是找到一种仅适用于正整数的搜索优化算法我创建了一个简单的示例其
随机数生成器每次仅返回一个数字

Python 是否有一个随机数生成器每次只返回一个随机整数next 函数被调用数字不应该重复并且生成器应返回区间内的随机整数 1 1 000 000 这是独一无二的我需要生成超过一百万个不同的数字这听起来好像非常消耗内存以防所有数
第一个字母改为大写

是否有其他版本可以使每个字符串的第一个字母大写并且对于 flac perl 也使用 FALSE name lt hallo gsub alpha U 1 name perl TRUE 你可以尝试这样的事情 name lt hallo pa

随机推荐

Flash 点击时不打开链接

我用 Flash 创建了这个横幅我需要单击它来打开一个网页我使用了这个 Actionscript 3 0 代码 link btn addEventListener MouseEvent CLICK openurl function op
为什么无法使用 CentOS、plesk 9.2.1 和 tomcat 5.5 安装 solr 1.3.0？

好吧我只是通过他的托管提供商为我的客户设置了一个专用服务器他们在那里安装了 plesk 版本 9 2 1 并且该专用服务器的一个警告是如果我在控制面板之外即使用 SSH 执行任何任务他们不保证支持该软件组件这很好因为我宁愿使用
ScrollPane删除节点时跳转到顶部

我有一个ScrollPane含有一个TilePane显示图像每当我删除其中一张图像时ScrollPane跳回到顶部这在尝试删除多个图像时非常烦人有没有办法控制滚动行为我在 Windows 7 上运行此代码 import javafx
为什么net.DialTimeout一半的时候会超时？

这是我的测试代码我设置了6s超时但是程序只执行了3s 为什么 package main import net import time import fmt func main fmt Println time Now conn err
Android - 使用 Android 支持库时无法在 SearchWidget 中找到 TextView

我使用以下代码片段在 SearchView 小部件中查找 TextView int autoCompleteTextViewID getResources getIdentifier android id search src text n
查明字符串列表项是否以另一个列表中的另一个项目开头

我想循环遍历一个字符串列表并找出该列表中的项目是否以另一个列表中的项目之一开头所以我有类似的东西 List
在 Mac OS Lion 上使用 tmux 提示之前出现奇怪的空格

它刚刚发生在我的 Lion 系统上我正在使用 zsh 和 tmux 在 zsh shell 中正常 tmux 屏幕中的双倍空间我是否缺少 zsh 或 tmux 中的某些配置使用 u 选项启动 tmux 以实现 unicode 功能看
Gitlab CI 运行程序未构建或显示任何输出

昨天我从 Gitlab 7 x 升级到 8 0 4 几乎一切都很顺利我之前使用 CI 没有问题升级后必须迁移或重新开始我选择重新开始因为我只有一个项目我多次添加了一个新的 shell 运行程序尝试了 gitlab ci mult
方法控制器不存在。

所以我又使用了这个格式在我的routes php中我有 Route controller datatables HomeController PaymentsData gt payments data getIndex gt datata
使用 jQuery 查找文本字符串？

假设某个网页有一个字符串例如我想查找我是一个简单的字符串我将如何使用 JQuery 来解决这个问题 jQuery 有 contains 方法这是给您的一个片段上面的选择器选择包含目标字符串的任何元素 Foundin 将是一个包含任
ASP.NET MVC Razor 渲染额外空白

在 Asp net MVC 中 Razor 在文本块之间插入额外的空格我想以这种方式呈现一个列表 1 2 3 但得到 1 2 3 for int i 1 i lt 3 i
替换字符串中的多个字符 (XSLT)

我需要能够替换某些字符以便我可以将它们用作 CSS 类我有诸如类名称类名之类的字符串这些字符串不是有效的 CSS 类据我所知如何使用替换功能来替换多个字符 E g translate className would repla
如何在谷歌同意屏幕中添加徽标？

我已经在谷歌开发者控制台中创建了项目现在我想在同意屏幕中设置我的徽标我的计算机上有徽标同意屏幕上的徽标字段需要 URL 有什么方法可以在我的计算机上的同意屏幕上设置徽标吗我还尝试在谷歌驱动器上上传图像并将其共享链接放在徽标字段中您
使用 dom4j DOMDocument 提供 validator.validate(DOMSource) 在 java 1.6 中失败（不允许 xsi:noNamespaceSchemaLocation），在 1.5 中有效

使用 dom4j DOMDocument 提供 validator validate DOMSource 在 java 1 6 中失败不允许 xsi noNamespaceSchemaLocation 出现在根元素中在 1 5 中有效
“驱动程序未定义”Python/Selenium

我想在 Python 上使用 Selenium 但有一条警告消息 driver webdriver Chrome D Selenium Chrome chromedriver exe NameError 名称 driver 未定义我已经安
更改 Hibernate 继承中的子类型

我想在 Play Framework 中使用 Hibernate 建模三个类 Entity Inheritance strategy InheritanceType JOINED public class SupplyArea extend
使用 TSQL 解压缩值

如何解压缩存储过程中的 varbinary max 值我想在 TSQL 代码中实现或调用gunzip 算法最好不启用 CLR 调查 sp OACreatehttp msdn microsoft com en us library ms1
React 无法读取未定义的属性映射

我对反应很陌生我正在尝试从 Rails api 引入数据但我收到了错误TypeError Cannot read property map of undefined 如果我使用反应开发工具我可以看到状态如果我在控制台中使用它我可以
MVC 1 和 IIS 7 错误代码 4011

我有一个在 IIS 7 5 上运行的 MVC 1 应用程序一些操作完成后我得到了一个使用 System Web Routing RouteValueDictionary 作为第二个参数的 RedirectToRoute 调用基本上它
从数据帧中分层随机抽样

我有一个格式为的数据框 head subset ants 0 1 1 0 1 age 1 2 2 1 3 lc 1 1 0 1 0 我需要根据年龄和 lc 创建带有随机样本的新数据框例如我想要来自age 1和lc 1的30个样本来自a

从数据帧中分层随机抽样

从数据帧中分层随机抽样 的相关文章

随机推荐

热门标签

从数据帧中分层随机抽样的相关文章