按因素分层抽样

2024-05-03

我有一个 1000 行的数据集，其结构如下：

     device geslacht leeftijd type1 type2
1       mob        0       53     C     3
2       tab        1       64     G     7
3        pc        1       50     G     7
4       tab        0       75     C     3
5       mob        1       54     G     7
6        pc        1       58     H     8
7        pc        1       57     A     1
8        pc        0       68     E     5
9        pc        0       66     G     7
10      mob        0       45     C     3
11      tab        1       77     E     5
12      mob        1       16     A     1

我想制作一个 80 行的样本，由类型 1 = A 的 10 行、类型 1 = B 的 10 行组成，依此类推。有没有人可以帮助他？

这是我将如何使用data.table

library(data.table)
indx <- setDT(df)[, .I[sample(.N, 10, replace = TRUE)], by = type1]$V1
df[indx]
#     device geslacht leeftijd type1 type2
#  1:    mob        0       45     C     3
#  2:    mob        0       53     C     3
#  3:    tab        0       75     C     3
#  4:    mob        0       53     C     3
#  5:    tab        0       75     C     3
#  6:    mob        0       45     C     3
#  7:    tab        0       75     C     3
#  8:    mob        0       53     C     3
#  9:    mob        0       53     C     3
# 10:    mob        0       53     C     3
# 11:    mob        1       54     G     7
#...

或者更简单的版本是

setDT(df)[, .SD[sample(.N, 10, replace = TRUE)], by = type1]

基本上，我们从每组中的行索引中进行采样（有替换 - 因为每组中的行数少于 10 行）type1然后通过该索引对数据进行子集化

类似地与dplyr你可以做

library(dplyr)
df %>% 
  group_by(type1) %>%
  sample_n(10, replace = TRUE)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

DataFrame

sampling

按因素分层抽样的相关文章

如何使用 R 中的函数 sqlSave() 将数据附加到具有 IDENTITY 主键的 SQL Server 表？

我在SQL Server中创建了一个表如下所示 CREATE TABLE testPK ID INT NOT NULL IDENTITY 1 1 PRIMARY KEY NumVal NUMERIC 18 4 现在我想使用 RODBC 函
美人鱼图：调整图表周围的空白

我在用 Rstudio 编译的 Rmd 报告中使用了美人鱼图在 HTML PDF 输出中图表上方和下方有大量空白请参见下面的示例 Header Text r library DiagrammeR mermaid graph TD cl
将所有分号替换为空格 pt2

我尝试对 2000 多行关键字的列表运行文本分析但它们的列出方式如下战略管理风格组织所以当我使用 tm 删除标点符号时它就变成了组织的战略管理风格我认为这在某种程度上破坏了我常用术语的分析我尝试过使用 vector lt
如何从 pandas 数据框中的列中删除字符串值

我正在尝试编写一些代码以逗号分隔数据帧列中的字符串因此它成为一个列表并从该列表中删除某个字符串如果存在删除不需要的字符串后我想再次以逗号加入列表元素我的数据框如下所示 df Column1 Column2 0 a a b c
将 pandas 数据帧拆分为子数据帧列表的最快方法

我有一个大数据框df我有完整的清单indices中的独特元素df index 我现在想创建一个由元素索引的所有子数据帧的列表indices 具体来说 list df df loc x for x in indices 运行这个命令需要很长时
在 R 中导入 csv 文件时如何保留前导零？

当我写一个 csv来自 R 的文件其中我的组名称以前导零值开头前导零被保留但是当我导入 csv前导零被删除组名称被转换为整数当我导入一个组时如何保留组名称中的前导零 csvR 中的文件 Example df lt data fr
如何使用autoconf重新生成配置文件？

我使用 autoconf 重新生成配置文件它有效但是当我执行生成的配置文件时 configure 有一些错误消息例如 configure line 3713 syntax error near unexpected token bla
根据 R 数据框中的名称对列进行平均

我想知道是否有一种有效的方法来获取每组的平均值类似命名的列谁的名字结尾为 1S and 2S ex ex1S ex2S at time 1并取每组的平均值类似命名的列谁的名字结尾为 1C or 2C ex ex1C ex2C at time
根据 row_number() 过滤 data.frame

更新自从提出这个问题以来 dplyr 已经更新现在按照 OP 的要求执行我正在尝试获取第二行到第七行data frame using dplyr 我正在这样做 require dplyr df lt data frame id 1 1
数据框 - 平均列

我在 pandas 中有以下数据框 Column 1 Column 2 Column3 Column 4 2 2 2 4 1 2 2 3 我正在创建一个数据框其中包含第 1 列和第 2 列第 3 列和第 4 列等的平均值 ColumnA
R data.table 1.9.2 关于 setkey 的问题

这似乎是 1 8 10 后引入的一个错误与包含列表的 DT 的 setkey 相关运行下面两个代码来查看问题 library data table dtl lt list dtl 1 lt data table scenario 1 p
rvest 和 NHL 统计数据的 CSS 选择器问题

我想从 hockey reference com 中抓取数据特别是从以下链接中抓取数据 https www hockey reference com leagues NHL 1991 html https www hockey refer
按不规则时间间隔对数据进行分组求和（R语言）

我正在看这里的 stackoverflow 帖子 R 计算一组内的观察次数 https stackoverflow com questions 65366412 r count number of observations within a
如何从 R 数据框中提取关键字

我是 R 中文本挖掘的新手我想从数据框的列中删除停用词即提取关键字并将这些关键字放入新列中我尝试制作一个语料库但它对我没有帮助 df C3是我目前拥有的我想添加栏目df C4 但我无法让它工作 df lt structure l
R 编程常用工具

如果已经以不同的方式问过这个问题我深表歉意但我找不到任何达到我想要的东西我真的是从其他软件包 SPSS 开始接触 R 的当我了解真正可以做什么时我意识到我还需要其他工具这让我想到了我的问题您有哪些用于开发 R 代码的设置我
如何在 R 中绘制一列与其余列的关系图

我有一个数据集其中 1 是时间接下来的 14 个是幅度我想在一张图表上散布所有大小与时间的关系其中每个不同的列都是网格化的分层在另一个之上我想使用原始数据来制作这些图表并单独制作它们但只想执行此过程一次数据集A 唯一的自变
如何自动启动我的 ec2 实例、运行命令然后将其关闭？

我想每周对 redshift postgres 数据库中的数据运行一次机器学习模型我使用以下命令将 R 脚本设置为休息 apiplumbr然后我将其设置为一项任务来管理pm2 我有它所以任务会在ec2实例启动然后继续运行要让 R 脚本
合并数据框而不重复行

我想合并两个数据框但如果有多个匹配项则不想重复行相反我想总结一下那天的观察结果来自合并提取两个数据框中与指定列匹配的行并将其连接在一起如果有多个匹配项则所有可能的匹配项各贡献一行这是一些示例代码 days lt as d
R - 与 SpatialPolygonsDataFrame 对象相交的 SpatialLinesDataFrame 列表的嵌套循环

我有一系列需要完成的步骤SpatialLinesDataFrame 此处的线基于对象与多特征中各个特征的关系SpatialPolygonsDataFrame 多边形对象简而言之每个线列表元素源自单个面要素内部并且可能会也可能不会
从 R 中的方差分析 (glm) 中提取残余偏差

我在 R 中安装了一个 glm 模型并采用了方差分析表我需要提取残余偏差列但它会产生错误以下是代码创建数据 counts lt c 18 17 15 20 10 20 25 13 12 outcome lt gl 3 1 9 t

随机推荐

计算 QR 码对齐图案的位置

我需要知道如何计算 QR 码对齐图案的位置如中定义ISO IEC 18004 2000 附录 E 表 http www arscreatio com repositorio images n 23 SC031 N 1915 18004Te
Chrome DevTools 脚本黑盒不起作用

我正在尝试使用 chrome devtools 的新功能黑盒脚本这篇 Chrome Devtools 文章列出了脚本黑盒功能 https developer chrome com devtools docs blackboxing wh
C++ win32设置光标位置

我知道要使用哪个功能但我无法让它正常工作我用了SetCursorPos 唯一的问题是它将光标设置为屏幕坐标而不是窗口坐标我也尝试过ScreenToClient 但它并没有起作用这是我的代码 pt x 113 pt y 280 Scr
本地通知替代周重复

我有两个通知我想隔周重复一次例如在第一周的星期一设置一个通知并应在第三周的星期一重复第二次通知设置在第二周的星期二并且应在第四周的星期二重复为此我该怎么办获取周数并根据周数做出决定
包含一个树枝文件并从单独的文件传递变量？

我有container twig 包括component twig并传递一个名为 mock 的对象在container twig中 set mock title This is my title include component twi
解释一下 $CI =& get_instance();

查看codeigniter的源代码在它的辅助函数中我不断看到代码 CI get instance 谁能向我解释一下这段代码是如何工作的我知道它正在返回对 CI 超级对象的引用但是在哪里get instance 来自这基本上是一个单例
如何在 wpf 密码框设置一些默认文本？ [复制]

这个问题在这里已经有答案了可能的重复 WPF 中的水印文本框 https stackoverflow com questions 833943 watermark textbox in wpf 我可以知道如何在 WPF 的密码框中放入一些
为什么更新功能在Unity中的UnityARWorldMap场景的UnityARHitTestExample中不起作用？

我正在开发 UnityARWorldMap 以创建统一的持久性因此我将模型放置在现实世界中保存它们然后加载它们当我单击 WorldMapManager cs 中的 Load 时 UnityARhitTestExample 中的更新
python: X 服务器上的致命 IO 错误 11（资源暂时不可用）：0.0

我正在尝试读取一些图像稍后打算对它们执行一些任务同时将图像读入内存我想显示动画 gif 图像为此我必须使用线程现在它给出错误 python Fatal IO error 11 Resource temporarily unava
两个http请求可以合并在一起吗？如果可以的话，nodeJS服务器如何处理呢？

昨天我做了一些关于 NodeJS 的演讲有人问我以下问题我们知道nodeJS是一个单线程服务器多个请求是到达服务器并将所有请求推送到事件循环如果什么两个请求同时到达服务器服务器将如何处理处理这种情况我猜到了一个想法并回复如
Postman如何发送请求？ ajax，同源策略

我发现了这个非常有用的 Chrome 扩展程序名为 Postman 这是一个非常有用的扩展特别是当您正在编写 RESTful 应用程序时我感到困惑的一件事是这个插件扩展如何能够在不同的域上成功发送 POST 请求我尝试像这样使用
如何布局文本以围绕图像流动

你能告诉我是否有一种方法来布局文本围绕图像像这样 text text text text text text text text text text text text text text text text text 我已经收到一位
解释 Vowpal Wabbit 的基本输出

我对大众汽车简单运行的输出有几个问题我已经阅读了互联网和维基网站但仍然不确定一些基本的事情我对波士顿住房数据进行了以下分析 vw d housing vm progress 1 其中 housing vm 文件设置为部分输出是部
如何在C++、Qt、QML、Blackberry 10 Cascades Beta 3 SDK中制作图表/图形（如折线图、条形图、圆形图）等？

我需要知道如何在 Blackberry 10 Cascades Beta 3 SDK QML Qt C 中制作图表图表如果有人可以向我展示一个例子或向我指出一些可以告诉我如何做到这一点的东西我将不胜感激您应该查看 QChart js
实现 `memcpy()`：需要 `unsigned char *`，还是只需要 `char *`？

我正在实施一个版本memcpy 能够与它一起使用volatile 使用安全吗char 或者我需要unsigned char volatile void memcpy v volatile void dest const volatile v
iOS 的 WiFi 连接通知，包括 SSID

新手 IOS 程序员正在寻找一种在 iPhone 连接到 WIFI 网络时收到通知的方法 IE 关于以下转换的通知 3G转WIFI WIFI转3G WIFI 到另一个 WIFI 它应该能够知道我连接到哪个 SSID 在 Android 上花
将两个表视图绑定在一起，以便它们同步滚动

我想将两个表视图绑定在一起以便它们同步滚动我怎么做我无法找到如何访问表格视图的滚动条我做了一个CSS hack来将Tableview与外部滚动条绑定一个滚动条控制两个表格视图我的想法的概述创建两个表视图制作一个垂直滚动条在
@Entity 实体无法解析为类型

学习 Spring MVC 和 Hibernate import javax persistence Column import javax persistence GeneratedValue import javax persisten
使用通配符在 .zshrc 中获取多个文件

我通过 oh my zsh 使用 z shell 我想从 zshrc 文件中获取多个别名文件这样我就可以让事情井井有条我已经为别名文件添加了前缀 alias 这样我就可以通配符加载它们但是打电话给source alias 只加载第一
按因素分层抽样

我有一个 1000 行的数据集其结构如下 device geslacht leeftijd type1 type2 1 mob 0 53 C 3 2 tab 1 64 G 7 3 pc 1 50 G 7 4 tab 0 75 C 3 5

按因素分层抽样

按因素分层抽样 的相关文章

随机推荐

热门标签

按因素分层抽样的相关文章