R中的分层抽样或比例抽样

2023-12-03

我生成的数据集如下：

myData <- data.frame(a=1:N,b=round(rnorm(N),2),group=round(rnorm(N,4),0))

数据看起来像这样

enter image description here

我想生成一组分层样本myData给定样本量，即50。所得样本集应遵循原始数据集“组”的比例分配。例如，假设myData有 20 条记录属于第 4 组，那么结果数据集应具有50*20/200=5属于组 4 的记录。如何在 R 中执行此操作。

您可以使用my stratified功能，指定一个

## Sample data. Seed for reproducibility 
set.seed(1)
N <- 50
myData <- data.frame(a=1:N,b=round(rnorm(N),2),group=round(rnorm(N,4),0))

## Taking the sample
out <- stratified(myData, "group", .3)
out
#     a     b group
# 17 17 -0.02     2
# 8   8  0.74     3
# 25 25  0.62     3
# 49 49 -0.11     3
# 4   4  1.60     3
# 26 26 -0.06     4
# 27 27 -0.16     4
# 7   7  0.49     4
# 12 12  0.39     4
# 40 40  0.76     4
# 32 32 -0.10     4
# 9   9  0.58     5
# 42 42 -0.25     5
# 43 43  0.70     5
# 37 37 -0.39     5
# 11 11  1.51     6

将最终组中的计数与我们的预期进行比较。

round(table(myData$group) * .3)
# 
# 2 3 4 5 6 
# 1 4 6 4 1 
table(out$group)
# 
# 2 3 4 5 6 
# 1 4 6 4 1

您还可以轻松地每组抽取固定数量的样本，如下所示：

stratified(myData, "group", 2)
#     a     b group
# 34 34 -0.05     2
# 17 17 -0.02     2
# 49 49 -0.11     3
# 22 22  0.78     3
# 12 12  0.39     4
# 7   7  0.49     4
# 18 18  0.94     5
# 33 33  0.39     5
# 45 45 -0.69     6
# 11 11  1.51     6

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

R中的分层抽样或比例抽样的相关文章

如何使用核心 R 操作/访问“dist”类实例的元素？

R 中的基本公共类称为 dist 并且是对称距离矩阵的相对有效的表示不像一个 matrix 对象但是似乎不支持操纵 dist 使用索引对实例操作员例如以下代码不返回任何内容 NULL 或出现错误 First create an
每行和每列都有条件的随机值（0 和 1）[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案您好我正在尝试在 R 中创建一个 600 行和 18 列的数据框但是每行 18 列中只能随机有 3 个 1 例如 A E F 列
在 ggplot2 中使用 FontAwesome 作为点的替代品

这可能是一个相当基本的事情但我似乎找不到有意义的答案我正在尝试使用 R 中的 fontawesome 包将表情符号用作 ggplot2 图表中的点但我很难弄清楚如何为每个变量分配不同的表情符号这是一些示例数据我们将数据框称为样本
在 RStudio 中自动格式化 R 代码

RStudio 中是否有自动格式化代码的可能性 I found this https stackoverflow com questions 3017877 tool to auto format r code 但未与RStudio连接还
R 代码编程：在堆叠排序表上先向下填充缺失列值，然后向上填充

我有一个包含 3 列的数据框但第三列有一些缺失值需要用以下逻辑填充期望的结果是第三列部分上没有缺失值要填充它我们必须找到第一个周其中为该特定项目第一列填充了部分值并且然后通过向下复制 part 来填充它直到找
基于 R 中多个现有列的计算的新列

R df orginal 中的原始数据框 AB CD EF GH A 0 12 M A 0 13 F A 0 14 F A 1 16 M A 1 17 F A 1 18 M A 1 18 M A 2 0 78 M A 2 0 12 M A
ggplot2：使用 geom_bar 绘制平均值

我有以下数据框 test2 lt data frame groups c rep group1 4 rep group2 4 X2 c rnorm 4 rnorm 4 label c rep 1 2 rep 2 2 rep 1 2 rep
如何引用基于 data.frame 中的变量的列表？

我有一张简单的桌子emp id and job code 我想返回正确的payout基于job code 我已经用嵌套的 ifelse 来解决这个问题但是如果我有更多怎么办job code s library dplyr set seed
在 R 中创建多维 NetCDF

我正在尝试使用 R 包创建多维 NetCDF 文件ncdf http cran r project org web packages ncdf index html 我正在对一组 1500 个点进行气候日常观测每个点的观测数量约为 182
R 代码迭代

我的目标是在 R 中使用生成这个向量iter 0 1 1 1 2 3 3 3 6 6 4 10 我尝试了下面的代码但它没有给我正确的数字 iter lt 4 w vector lt rep 0 iter for i in 1 iter w
RStudio/ R 上的 Tensorflow 设置 |中央操作系统

在过去的 5 天里我试图让 Keras Tensorflow 包在 R 中工作我使用 RStudio 进行安装并使用conda miniconda virtualenv但最后每次都会崩溃安装库不应该是一场噩梦尤其是当我们谈论 R 时
R 中的波形符(~) 运算符

根据 R 文档运算符在公式中用于分隔公式的右侧和左侧右侧是自变量左侧是因变量我了解 lm 包中何时使用然而以下是什么意思呢 x 1 右边是1 什么意思可以是除 1 之外的任何其他数字吗 From lm 拟合线性模型时 y x 1
使用 sf 与多多边形几何体进行分组（使用 R）

我有一个放在一起的自定义形状文件当我一次绘制所有内容时效果很好但我想按某些变量进行分组来绘制特定形状的区域例如 county region sales washoe 1 5 carson city 1 10 clark 2 15 h
RQuantLib 的安装

我尝试从 RStudio 安装 RQuantLib 但它给我带来了问题我将 R 版本更新到 3 3 1 并尝试使用安装包的常用方法 install packages RQuantLib 按照作者网页上的推荐 http dirk eddel
从字符串列表中，识别哪些是人名，哪些不是

我有一个如下所示的向量想确定列表中的哪些元素是人名哪些不是我找到了 humaniformat 包它可以格式化名称但不幸的是它无法确定字符串是否实际上是名称我还发现了一些用于实体提取的包但它们似乎需要实际文本来进行词性标记而不
将 geom_text 与 ggplot2 中的 geom_vline 对齐

I used vjust作为解决方法并详细阐述通过尝试和错误可以接受的距离但这有时非常耗时且变化与字体大小和轴比例有没有更好的方法来自动对齐示例中的文本 library ggplot2 ggplot data mtcars aes
ggplot2：将条形图中的条形从最高到最低重新排序[重复]

这个问题在这里已经有答案了我得到了这个数字以下的回答类似的问题 https stackoverflow com questions 5967593 ordering of bars in ggplot library ggplot2 l
R：使用字符串作为参数来改变 dplyr 中的动词

我正在构建一个闪亮的应用程序它需要允许用户定义新的绘图变量具体来说我想允许用户定义要在 mutate 动词中使用的表达式服务器接收文本形式的表达式我想知道如何让 mutate 在 dplyr 0 7 中执行它我可以使用 muta
R 中逻辑回归建模的子集化

在 R 中的逻辑回归过程中分割和子集数据时我收到以下错误消息我陷入了子集步骤 library caTools split lt sample split df1 SplitRatio 0 5 split training lt su
按行和列重叠合并 2 个数据框

我想加法合并 2 个数据框这样 taxonomy A B C 1 rat 0 1 2 2 dog 1 2 3 3 cat 2 3 0 and taxonomy A D C 1 rat 0 1 9 2 Horse 0 2 6 3 cat 2

随机推荐

如何创建带有线和检查点且列宽不均匀的进度条？

cma steps margin 10px auto position relative max width 500px cma step dot display inline block width 15px border radius
Pandas 仅丢弃第一个重复项

假设我有以下系列 s pandas Series 0 1 2 3 3 3 3 4 5 6 6 6 7 7 我可以使用以下内容保留该系列的第一个重复项对于每个重复值 s s duplicated keep first 我可以使用以下内容保留
让 Flask-Migrate 忽略映射为 Flask-SQLAlchemy 模型的 SQL 视图

我使用 Flask SQLAlchemy 定义模型然后使用 Flask Migrate 自动生成迁移脚本以部署到 PostgreSQL 数据库我在我的应用程序中使用的数据库上定义了许多 SQL 视图如下所示然而 Flask Migr
在 VBA 中将集合的值复制到二维数组

我似乎正在往众所周知的砖墙上撞我有一个运行并填充集合的循环大约有 20000 行和 11 列我需要能够将集合的内容放入变体数组中以便我可以批量复制到工作表我使用集合的原因是为了固有的条目重复数据删除功能请有人提供有关如何实现这一
NodeJS 中的 Puppeteer 报告“错误：节点不可见或不是 HTMLElement”

我正在使用 NodeJS 的 puppeteer 来测试特定网站在大多数情况下它似乎工作正常但在某些地方它报告错误节点不可见或不是 HTMLElement 以下代码选择在两种情况下均不在屏幕上的链接第一个链接工作正常而第二个链接
将 WPF 控件与 WinForms 结合使用

我有一个自定义的 WPF 按钮控件我想将此控件与 WinForm 应用程序一起使用我知道如何使用 ElementHost 将 WPF 用户控件与 WinForm 结合使用但我不知道在 WinForm 应用程序中使用任何单个控件不是用
使用 SSH 身份验证在 Xcode 7 中添加 GitHub 存储库会出现身份验证错误

我正在尝试在 Xcode 7 中设置一个机器人进行集成测试作为设置的一部分我使用以下命令将远程存储库添加到项目中Xcode gt 首选项 gt 帐户 gt 添加存储库但它失败并显示消息认证失败 GitHub 正在使用此 SSH 密钥在
mysql_connect(): 无法建立连接，因为目标机器主动拒绝

当我尝试运行 PHP MySQL 脚本时遇到这个问题当我尝试运行我的 php 文件时这就是我得到的结果 mysql connect No connection could be made because the target machi
R：计算百分位数困难吗？

我正在使用 R 编程语言我有以下数据集 library dplyr set seed 123 gender lt factor sample c Male Female 5000 replace TRUE prob c 0 45 0 55
如何重复可达性测试直至其正常工作

我有一个初始的 tableviewcontroller 正在执行可达性检查这是在没有问题的情况下工作的viewDidLoad however我想知道正确的方法Retry连接直至通过我的实现文件中的相关代码如下我尝试插入 self Vi
将现有 AppEngine DataStore 的 IntegerProperty 更改为 FloatProperty

我构建了一个 appengine 应用程序 python 它需要将整数值 100 中的现有数据存储实体转换为浮点值 100 00 以解决货币转换问题这样做的正确方法是怎样的由于当我只是更改模型中的属性类型时我的查询返回错误旧型号 c
如何在 Chart.js 中为每个区域应用不同的背景颜色

在react chartjs 2中 In 折线图每个网格应该有不同的背景颜色这个库可以实现吗 This is how LineChart should looks 这是我的代码配置 const options responsive tr
FIN 数据包乱序并被覆盖？

在浏览开源代码库时我想到了一个有趣的场景假设在成功建立 TCP 连接后 TCP 客户端必须发送序列号 101 的数据包相反它发送序列号为 201 的 FIN 现在 TCP 服务器认为 FIN 乱序并将其排队并等待一个数据包到达我
TensorFlow 没有属性“with_dependency”

我想使用tf with dependencies函数来保存 RNN 的状态由于某种原因我收到以下错误 Traceback most recent call last File home chase workspace AudioRNN
从 OSX“.app”包运行 Java 会导致“错误 -10810”

这是通过虚拟机在 OSX Mavericks 上以及在 MacBook 上的 Yosemite 上进行测试的我有一个名为 HelloWorld jar 的简单可执行 jar 我正在尝试为此 java 应用程序创建一个 app 包显然我
每当在图表上添加数据时如何移动图表上的 x 轴网格

网格线不会随着线点的变化而移动我应该添加什么代码才能使其看起来像 cpu 性能图表 Series test1 new Series Series test2 new Series private void Form1 Load objec
c# HttpResponseMessage.Content 未将 MemoryStream 正确返回到 HttpClient，但使用 byte[] 进行返回工作

我正在尝试使用HttpClient PostAsync将数据提交给控制器然后返回Bitmap in Memorystream由制作QRCoder to HttpClient via IActionResult 如果控制器返回byte t
使用 mimekit/mailkit 库获取电子邮件的发送状态

我正在使用 jstedfast Mimekit Mailkit 库用于从我的应用程序发送大量电子邮件我想知道如何获取每封电子邮件的发送状态这是我第一次尝试得到这个经过一些 RnD 我发现我们必须在某个地方设置或传递 report t
Java 的 Javascript 解析器 [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南目前不接受答案任何人都可以推荐一个像样的 Java Javascript 解析器吗我相信可以使用Rhino 但是仅仅进行解析似乎有点矫枉过正或者这是唯一合适的
R中的分层抽样或比例抽样

我生成的数据集如下 myData lt data frame a 1 N b round rnorm N 2 group round rnorm N 4 0 数据看起来像这样我想生成一组分层样本myData给定样本量即50 所得样本集应

R中的分层抽样或比例抽样

R中的分层抽样或比例抽样 的相关文章

随机推荐

R中的分层抽样或比例抽样的相关文章