如何将数据随机分成三个相等大小？

2024-02-24

我有一个包含来自三个不同项目的 9558 行的数据集。我想将这个数据集随机分成三个相等的组，并为每个组分配一个唯一的 ID，以便Project1_Project_2_Project3变成Project1, Project2 and Project3.

我尝试了很多方法，并在谷歌上搜索了与我有类似问题的人的代码。我用过sample_n() and sample_frac()，但不幸的是我自己无法解决这个问题：/

我制作了一个数据集示例，如下所示：

ProjectName <- c("Project1_Project2_Project3")
data <- data.frame(replicate(10,sample(0:1,9558,rep=TRUE)))
data <- data.frame(ProjectName, data)

并且输出应该随机分成三个相等的组nrow=3186然后分配给值

ProjectName Count of rows
Project1     3186
Project2     3186
Project3     3186

IMO 只分配随机项目名称就足够了。

dat$ProjectName <- sample(factor(rep(1:3, length.out=nrow(dat)), 
                          labels=paste0("Project", 1:3)))

Result

head(dat)
#   X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 ProjectName
# 1  1  1  0  1  1  1  1  0  1   0    Project1
# 2  1  1  1  1  1  1  0  0  1   0    Project1
# 3  0  0  1  1  0  0  0  1  1   1    Project1
# 4  1  1  1  0  1  0  1  1  0   1    Project3
# 5  1  0  0  1  1  1  1  0  0   1    Project1
# 6  1  0  0  0  0  1  0  1  1   1    Project3

table(dat$ProjectName)
# Project1 Project2 Project3 
#     3186     3186     3186

Data

set.seed(42)
dat <- data.frame(replicate(10, sample(0:1, 9558, rep=TRUE)))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

Random

groupby

dplyr

divide

如何将数据随机分成三个相等大小？的相关文章

ggplot2 的组合图（不在单个图中），使用 par() 或 layout() 函数？ [复制]

这个问题在这里已经有答案了我一直在考虑使用 par 或 layout 函数来组合 ggplots 可以使用这些功能吗假设我想绘制 ggplot 散点图和 ggplot 直方图我想将这两个地块合并起来而不是在一个地块中是否适用我在
使用 geom_bar 和 stat="identity" 绘制平均值的 hline

我有一个条形图其中确切的条形高度位于数据框中 df lt data frame x LETTERS 1 6 y c 1 6 1 6 1 g rep x c a b each 6 ggplot df aes x x y y fill g g
有没有办法将字母扩展到超过 26 个字符，例如 AA、AB、AC...？

我大部分时间都使用字母来表示我的因素但今天我尝试超过 26 个字符 LETTERS 1 32 期待有自动递归因式分解 AA AB AC 但很失望这只是字母的限制还是有办法使用其他函数来获取我正在寻找的内容 702够吗 LETTERS70
不同的分位数：箱线图与小提琴图

require ggplot2 require cowplot d iris ggplot2 ggplot d aes factor 0 Sepal Length geom violin fill black alpha 0 2 draw
添加不同的标签以在 ggplot R 中的堆积条形图中显示总计？

我的问题有点类似如何添加文本标签以显示ggplot中堆叠比例条的每个条中的总数n https stackoverflow com questions 65201095 how to add text label to show total
为闪亮的应用程序创建桌面图标

当我在基本 R 提示中提供以下代码时我会在浏览器中打开一个闪亮的应用程序 shiny runApp C Myapp 我使用 Windows 7 我试图创建一个桌面图标以避免我的客户每次想要使用该应用程序时都键入上述代码我创建了一个桌面
使用 roxygen2 记录数据集

我正在尝试使用 roxygen2 记录 R 包中的一些数据集仅考虑其中之一 I have mypkg data CpG human GRCh37 RDa 其中包含一个名为的对象CpG human GRCh37 和一个名为 mypkg R
哪种 LaTeX 包与 knit 一起使用以获得更多的表格控制？禁忌？

我正在用 knitr 写一张更长的桌子xtable和tabular environment longtable 在 longtable 包中时print将它们纳入我的 Rnw file 问题是我对longtable环境控制不够我有一些文本
使用 dplyr 按组计算加权平均值（并复制其他方法）

我对语法感到困惑dplyr当尝试计算加权平均值时我听从大卫的建议here https stackoverflow com a 27609266 1457380 语法非常透明因此很有吸引力但它似乎没有按我的预期工作低于加权平均值是针对
如何在shell脚本中运行R代码？

我有一个 R 文件 myfile R 我想使用 shell 脚本来运行它我怎样才能做到这一点我试过这个 bin bash Rscript myfile R 但它给了我这个错误 Rscript 找不到命令我也尝试过这个 bin bash
R 包“raster”在搜索“terra”最新版本时无法上传

我正在 Windows 10 中使用 RStudio 2021 09 2 中的 R 4 1 2 工作我正在处理空间数据包括矢量和栅格但三天前命令库栅格开始向我发出此警告错误 loadNamespace i c lib loc l
如何连接 R 列表中的多个 .wav 文件？

我有一个 wav 文件列表my list library seewave library tuneR data tico audio lt tico freq lt 22050 breaks lt c 0 0 2 0 4 0 6 0 8 i
如何在 R 中使用 msgbox [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案如何在中显示消息框R 我正在寻找类似的东西msgbox在 VBA 中因此我可以向用户发出有关问题的警报此外我想允许一些用户交互例如
将英寸高度的字符向量转换为厘米？

我得到一个字符向量 tibble H c 6 2 5 10 5 5 5 1 5 5 5 4 我想将其转换为厘米请告知我该怎么做有几种方法可以使用 1 阅读与fread粘贴到单个字符串后 library data table fread
在 R 中使用 ggplot2 叠加两个图

有两个数据框 df1 df2我需要使用 ggplot2 创建线图并显示在同一个图表上 df1 x y 2 30 4 25 6 20 8 15 df2 x y 2 12 4 16 6 20 8 24 用于绘制第一个 df p1 lt ggpl
在ggplot2中添加水平线到绘图和图例

这段代码创建了一个漂亮的图但我想在 y 50 处添加一条水平黑线并让图例显示一条黑线并在图例中显示文本 cutoff 但在图例中保留源点我可以使用 geom line 添加该行但无法在图例中获取该行 library ggplot2
如何将带有几行代码的字符数组转换为 data.frame？

我有以下数组 my list lt c Jan 01 Dec 31 00 00 24 00 Jan 01 Jun 30 12 00 18 00 Jul 06 Dec 31 09 00 19 00 导致以下结果的最短代码是什么 x1 x2 x
R 中的微秒时间戳

在 CSV 文件中我有几列其中一列有时间戳其中每个时间戳是今天午夜经过的微秒每个 csv 文件仅包含一天内的数据因此这并不含糊我的问题是如何将这些微秒时间戳解析为 R 多谢我的 CSV 文件的一部分 34201881666
用于检查和批量线性模型的数据表选项

我想知道是否有data table用于从数据集中批量处理线性模型并首先进行检查的选项我需要对每个唯一标识符运行一堆线性模型但首先我需要进行检查对于每个唯一的 id 和年份我需要检查是否有至少 24 个月的先前每月数据但不超过 60
修改x轴刻度标签

我正在尝试更改由生成的箱线图的 x 轴刻度标签ggplot2 x 轴是一个分类变量 HabFac 我想要的是将其刻度更改为 6 个化学品 A E 下面是我的代码 raw data read table Read data p TT ggpl

随机推荐

sql中的连续天数

我发现了很多有关连续几天的 stackoverflow QnAs 答案仍然太短我无法理解发生了什么为了具体起见我将制作一个模型或表格如果有什么区别的话我正在使用 postgresql CREATE TABLE work id i
在 JavaScript 中解析 jQuery 数据 (JSON)

我正在使用 PHP jQuery 和 JSON 现在我需要知道如何在 JavaScript 中解析 jQuery 数据 load php 它通过以下数据返回 jQuery name STA distance 250 code 25 name
同一任务执行多次

我有 ETA 任务发送到 Celery 的 Redis 代理它是一个 celery 和 redis 实例两者都在同一台机器上问题是任务被执行多次我见过任务执行了 4 到 11 次鉴于我的预计到达时间在 4 11 小时之间在运行
Dropbox 中未同步的 Git 存储库

我有一个 git 存储库和工作目录存储在我的 Dropbox 中这样我就可以在计算机之间来回移动而无需提交或存储阅读完全不需要任何努力这一切都很有效除了一个小烦恼正在变成一个大烦恼之外每隔一段时间我会让一台计算机处于完全
如何以编程方式确定当前类的Java字节码版本？ [复制]

这个问题在这里已经有答案了我遇到的情况是部署平台是 Java 5 并且开发是在 Java 6 下使用 Eclipse 进行的我们建立了一个在开始处理给定项目时创建新工作区的过程因此所需步骤之一是将编译器级别设置为 Java 5 这
在 AWS Lambda Layers 中找到等效的环境变量？

我正在 AWS 上编写一个无服务器应用程序我已将该应用程序分解为许多 Clo udFormation 堆栈我正在使用 CDK Python 中创建 CF 堆栈来部署应用程序当然我的 lambda 函数的核心要求是能够记录事件为了
如何获取 ScrollController 的完整大小

我已将 ScrollController 附加到 SliverAppBar SliverList 的 CustomScrollView 在默认情况下我会使用reverse true和animateTo 0 0 将滚动移动到添加的最后一个元
没有为“listen ... ssl”指令定义“ssl_certificate”

我正在尝试为我的网站配置 nginx 服务器我正在使用以下代码来配置我的服务器如果我为 www fastenglishacademy fr 443 服务器块添加 default server 它就会起作用但在这种情况下我的所有子域也
Firebase webpack+babel 功能未部署

是否可以使 firebase 函数与 webpack 和 babel 一起使用我们需要在服务器端重用现有的 ES6 类但我们无法编辑这些类因此我们需要转译它们以使其在 Node 中工作花了两天时间学习相关教程但我遇到了一个问题即
如何防止用户在iOS上截取应用程序的屏幕截图？

我想防止用户对我的应用程序进行屏幕截图并在最近的项目上隐藏其内容你知道相当于Android的吗FLAG SECURE特征 https developer android com reference android view Window
R：创建一个函数来识别任意百分位数

我正在使用 R 编程语言我有以下数据集 library dplyr var1 rnorm 10000 100 100 var2 rnorm 10000 100 100 var3 rnorm 10000 100 100 var4 rnorm
Crystal 报表中的动态列

我需要创建动态报告如果在数据库中添加列则该列应该自动反映在水晶报告中我想知道水晶报告中是否可以使用动态列如果是的话如何实现据我所知通过在数据库中添加一列您无法通过数据表在水晶报告上获取它但您可以通过存储过程获取它但您必须
`int` 是原子类型吗？

Quoting gnu https www gnu org software libc manual html node Atomic Types html 实际上您可以假设 int 是原子的您还可以假设指针类型是原子的非常方便这两
如何将 python 集合转换为 numpy 数组？

我在 python 中使用集合操作来执行两个 numpy 数组之间的对称差异然而结果是一个集合我需要将其转换回 numpy 数组才能继续有没有办法做到这一点这是我尝试过的 a numpy array 1 2 3 4 5 6 b n
.NET 中的 BODMAS 原理

今天我发现 NET 框架在进行计算时遵循 BODMAS 操作顺序即按以下顺序进行计算 Brackets Orders Division 乘法 Addition 减法但是我四处搜索找不到任何文档来证实 NET确实遵循这个原则哪里有这样
对广播接收器进行单元测试？

这是我项目中的一个 BroadcastReceiver 我正在对其进行单元测试当用户拨打电话时它会获取电话号码并设置启动新活动的意图并传入电话号码 public class OutgoingCallReceiver extends
sonar-maven-plugin：无法设置sonar.sources src / main / resources

我的 maven sonar 设置有问题我需要将所有项目文件包含在src 主 java and src 主资源这样 SonarQube 将显示我所有文件的结果但排除其中的一些文件src main resources static 文件
我如何理解 rbind 的警告？

如果我有两个具有相同列名的 data frame 我可以使用 rbind 来创建单个数据框但是如果我有一个是一个因子另一个是一个整数我会收到如下警告警告消息在 lt factor tmp ri 值 c 1L 1L 0L 0L 0
Eclipse、Android 插件、安装新软件只是显示“待处理”

我正在尝试按照此处的说明安装适用于 Eclipse 的 Android 插件 32 位 Windows 7 Eclipse Java Indigo 版本迈克普拉特 http www mikeplate com 2009 10 27 ge
如何将数据随机分成三个相等大小？

我有一个包含来自三个不同项目的 9558 行的数据集我想将这个数据集随机分成三个相等的组并为每个组分配一个唯一的 ID 以便Project1 Project 2 Project3变成Project1 Project2 and Proje

如何将数据随机分成三个相等大小？

如何将数据随机分成三个相等大小？ 的相关文章

随机推荐

热门标签

如何将数据随机分成三个相等大小？的相关文章