复制数据帧的观察结果，同时替换 R 中的特定变量值

2023-11-25

我正在寻找一些有关数据重组的建议。我正在使用 Google Forms 收集一些数据，我将其下载为 csv 文件，如下所示：

# alpha                 beta    option
#  6             8, 9, 10, 11    apple
#  9                        6     pear
#  1                        6    apple
#  3                     8, 9     pear
#  3                     6, 8     lime
#  3                        1    apple
#  2, 4, 7, 11              9     lime

数据有两个变量（alpha 和 beta），每个变量都列出数字。对于我的大部分数据，每个变量中只有一个数字。然而，对于某些观察结果，可能有两个、三个甚至多达十个数字。这是因为这些是使用谷歌表单中的“复选框”选项收集的回复，该选项允许对一个调查问题提供多个答案。此外，对于某些潜在的解决方案来说，谷歌表单在每个多个答案之前返回前导空格可能很重要。

在我的真实数据中，这种情况只发生在所有观察中的很小一部分，上面是一个更简洁的例子。数据集中还有其他几个变量。在这里我只包括一个名为“选项”的包含因素。

我需要做的是复制“alpha”或“beta”变量中包含多个数字的所有观察结果。重复行的数量应等于 alpha 或 beta 变量中存在的数字数量。然后，我需要用每个数字独立替换“alpha”或“beta”变量中的数字序列。这会导致类似下面的结果：

#  alpha  beta   option
#     6    8     apple
#     6    9     apple
#     6   10     apple
#     6   11     apple
#     9    6      pear
#     1    6     apple
#     3    8      pear
#     3    9      pear
#     3    6      lime
#     3    8      lime
#     3    1     apple
#     2    9      lime
#     4    9      lime
#     7    9      lime
#    11    9      lime

这是再现上面原始示例数据的数据。我将数据框称为“演示”：

demo<-structure(list(alpha = structure(c(4L, 5L, 1L, 3L, 3L, 3L, 2L), .Label =
 c("1","2, 4, 7, 11", "3", "6", "9"), class = "factor"), beta = structure(c(5L, 2L, 2L, 
4L, 3L, 1L, 6L), .Label = c("1", "6", "6, 8", "8, 9", "8, 9, 10, 11", "9"), class =   
"factor"), option = structure(c(1L, 3L, 1L, 3L, 2L, 1L, 2L), .Label = c("apple", 
"lime", "pear"), class = "factor")), .Names = c("alpha", "beta", "option"), class =   
"data.frame", row.names = c(NA, -7L))

好的。所以我认为我已经编写了一些代码，这些代码以非常冗长的方式确实导致了我正在寻找的新数据框。然而，感觉必须有一种更优雅、更好的方法来做到这一点。

基本上，我首先处理“alpha”变量。我首先根据变量中是否存在逗号来对观察结果进行子集化。对于包含逗号的观察结果，我然后使用 strsplit 来分隔数字。然后，我计算每个观察值存在多少个数字，并以此复制每个观察值。然后，我将分割的数字融合到一个数据框中，其中所有数字都位于名为“value”的变量中。然后，我只需将“alpha”变量替换为熔化的“value”变量中的数据。然后我用不包含逗号的数据重新绑定它。然后我使用这个 df 并处理“beta”变量......

这是我的解决方案（似乎有效？）：

library(reshape2)

demo$a<-grepl(",", demo$alpha)
demo.atrue <- demo[ which(demo$a=='TRUE'), ]
demo.afalse <- demo[ which(demo$a=='FALSE'), ]
demo.atrue$alpha<-as.character(demo.atrue$alpha)
temp<-strsplit(demo.atrue$alpha, ",")
temp.lengths<-lapply(temp, length)

for (i in 1:length(temp)) { 
df.expanded <- demo.atrue[rep(row.names(demo.atrue), temp.lengths), 1:3]
}

temp.melt<-melt(temp)
df.expanded$alpha<-temp.melt$value
demo.afalse<-demo.afalse[c(1:3)]
demonew<-rbind(demo.afalse, df.expanded)



demonew$b<-grepl(",", demonew$beta)
demonew.btrue <- demonew[ which(demonew$b=='TRUE'), ]
demonew.bfalse <- demonew[ which(demonew$b=='FALSE'), ]
demonew.btrue$beta<-as.character(demonew.btrue$beta)

temp<-strsplit(demonew.btrue$beta, ",")
temp.lengths<-lapply(temp, length)

for (i in 1:length(temp)) { 
  df.expanded1 <- demonew.btrue[rep(row.names(demonew.btrue), temp.lengths), 1:3]
}

temp.melt<-melt(temp)
df.expanded1$beta<-temp.melt$value
demonew.bfalse<-demonew.bfalse[c(1:3)]
demonew1<-rbind(df.expanded1, demonew.bfalse)

demonew1  #this seems to work, but doesn't feel very efficient

除了效率可能不高之外，我不确定这是否在所有情况下都有效。特别是如果同一观察的“alpha”和“beta”变量中存在多个数字。我用几个例子测试了它，看起来没问题，但我对此没有信心。

感谢您的考虑。

您可以使用my cSplit功能，嵌套两次，如下所示：

cSplit(cSplit(demo, "alpha", ",", "long"), "beta", ",", "long")
#     alpha beta option
#  1:     6    8  apple
#  2:     6    9  apple
#  3:     6   10  apple
#  4:     6   11  apple
#  5:     9    6   pear
#  6:     1    6  apple
#  7:     3    8   pear
#  8:     3    9   pear
#  9:     3    6   lime
# 10:     3    8   lime
# 11:     3    1  apple
# 12:     2    9   lime
# 13:     4    9   lime
# 14:     7    9   lime
# 15:    11    9   lime

一些基准：

更多有趣的样本数据。 700 行而不是 7 行（仍然是一个相当小的数据集）...

demo <- do.call(rbind, replicate(100, demo, FALSE))
library(data.table)
demo2 <- data.table(demo)

待测试的功能...

## MrFlick's
fun1 <- function() {
  do.call(rbind, with(demo, Map(expand.grid,
                                alpha = strsplit(alpha,", "),
                                beta = strsplit(beta, ", "),
                                option = option
  )))
} 

## Mine
fun2 <-  function() {
  cSplit(cSplit(demo2, "alpha", ",", "long"), "beta", ",", "long")
} 

## thelatemail's one-liner
fun3 <- function() {
  do.call(rbind,do.call(Map, c(expand.grid, lapply(demo, strsplit, ", "))))
}

实际的基准测试...

library(microbenchmark)
microbenchmark(MF = fun1(), AM = fun2(), TH = fun3(), times = 10)
# Unit: milliseconds
#  expr       min        lq    median        uq       max neval
#    MF 785.34875 789.94924 800.11046 800.93643 813.62390    10
#    AM  11.54569  11.93483  12.14181  12.31329  12.93208    10
#    TH 790.46069 799.68518 803.47294 827.69520 899.11219    10

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

复制数据帧的观察结果，同时替换 R 中的特定变量值的相关文章

从日期变量创建月末日期

我有一个包含日期变量的大型数据框它反映了该月的第一天有没有一种简单的方法来创建代表该月最后一天的新数据框日期变量以下是一些示例数据 date start month seq as Date 2012 01 01 length 4 by
如何对数字进行四舍五入并使其显示零？

R 中将数字四舍五入到小数点后 2 位的常用代码是 gt a 14 1234 gt round a digits 2 gt a gt 14 12 但是如果该数字的前两位小数位为零则 R 会在显示中抑制零 gt a 14 0034 gt
使用 R 下载压缩数据文件、提取和导入数据

EZGraphs 在 Twitter 上写道很多在线 csv 都被压缩了有没有办法下载解压缩存档并使用 R 将数据加载到 data frame Rstats 我今天也尝试这样做但最终只是手动下载 zip 文件我尝试过类似的东西 f
尝试使用 JRI 将 R 与我的 Java 应用程序集成，但出现错误。谁能解释一下原因和解决办法吗？

我需要将 Java 与 R 集成来运行一些数学命令并使用 R 的功能进行绘图以下部分代码给出了错误 public static void main String args HelloRWorld r new HelloRWorld r h
R中的重叠矩阵

我有以下数据框 id channel 1 a 1 b 1 c 2 a 2 c 3 a 我想创建并重叠矩阵它基本上是一个方阵行和列标签为 a b c 表中的每个条目显示每个通道共有多少个 id 例如在上面的例子中矩阵看起来像 a b
R 可以创建带有可单击条形图的条形图图像以插入网页吗？

我知道如何创建条形图以及如何将其粘贴在网页上例如使用hwriteImage in the 作家包 http www embl de gpau hwriter 我想要的是每个栏都是一个在鼠标悬停时突出显示的区域并且每个栏在单击时都有不
R - 计算 bin 中特定值的数量

我有一个如下所示的数据框 df Value lt c 1 1 0 2 1 3 4 0 0 1 2 0 3 0 4 5 2 3 0 6 Sl lt c 1 20 df lt data frame Sl Value gt df Sl Value
Quantmod 的简单功能不再起作用

我明天要交论文我收到了一条关于 quantmod 的非常奇怪的错误消息这是我在过去几周使用这个包时从未遇到过的我无法导入特定于道琼斯指数 DJI 的数据我收到以下错误消息 getSymbols DJI src yahoo from
需要在R中按行绑定列表数据

我在 R 中按行绑定列表时遇到问题我的列表数据集是 id 1 data k 1 id k b c 1 1 1 3 data k 2 id k b c 1 2 1 4 id 2 data k 1 id k b c 2 1 1 6 data
picker输入字体或背景颜色

我在闪亮的仪表板中使用 pickerInput 这很好除了一个问题背景颜色和字体颜色太相似使得过滤器选择难以阅读有什么办法可以改变背景或字体颜色吗如果可能的话我想继续使用 pickerInput 但如果有一个带有 selectI
如何在 R 中执行近似（模糊）名称匹配

我有一个专门用于生物学期刊的大型数据集该数据集是由不同的人长时间编写的因此数据不采用单一格式例如在作者栏中我可以找到John Smith Smith John Smith J等但它们是同一个人我连最简单的动作都做不了例如
为什么 sapply 的缩放速度比样本大小的 for 循环慢？

假设我想采用向量 X 2 1 N 并将 e 计算为每个元素的指数是的我认识到最好的方法就是通过向量化 exp X 但这样做的目的是将 for 循环与 sapply 进行比较我通过逐步尝试三种方法一种使用 for 循环两种以不同方
如何在 R 中的 for 循环内将值存储在向量中

我正在开始使用 R 但我对以下问题感到非常沮丧我试图将 for 循环内完成的某些计算的值存储到我之前定义的向量中问题是如何进行索引因为for循环迭代代码的次数取决于用户的输入所以变量i不一定要从1开始它可以从80开始 for举个例
`dplyr::_join` 函数的命名向量“by”参数[重复]

这个问题在这里已经有答案了我正在写一个函数dplyr join两个数据框by不同的列第一个数据帧的列名称动态指定为函数参数我相信我需要使用rlang准引用元编程但未能找到可行的解决方案我很感激任何建议 library dplyr
行对名称中具有特定模式的列求和

我有一个像这样的数据表 DT lt ata table data table ref rep 3L 4L nb 12 15 i1 c 3 1e 05 0 044495 0 82244 0 322291 i2 c 0 000183 0 155
更新 R6 对象实例中的方法定义

如何更新 R6 类实例的方法定义正如我所期望的 S3 使用当前的方法定义对于 R5 参考类我可以使用 myInstance myInstance copy 在 R6 中我尝试了 myInstance myInstance clone
sapply - 保留列名称

我试图总结数据集中许多不同列变量的平均值标准差等我已经编写了自己的汇总函数以准确返回我需要和正在使用的内容sapply立即将此函数应用于所有变量它工作正常但是返回的数据帧没有列名我似乎甚至无法使用列号引用重命名它们也就是说
R - 重塑 - 熔化错误

我正在尝试融化数据框但出现了这个奇怪的错误有什么想法吗 str zx7 data frame 519 obs of 5 variables calday new Date format 2011 01 03 2011 01 04 201
data.table 抛出“找不到对象”错误[重复]

这个问题在这里已经有答案了我有一个数据表 library data table mydt lt data table index 1 10 当我在全局环境中尝试它时我可以让它工作但当我在调试器中或在包测试中使用它时却无法工作问题是我
在ggplot中设置y轴中断

我在代码中设置中断时遇到困难我尝试添加breaks seq 0 100 by 20 但似乎无法让它正常工作本质上我希望 Y 轴从 0 到 100 每 20 个刻度一次 YearlyCI lt read table header T te

随机推荐

Django：HttpResponseRedirect 不起作用

我是 Python Django 和整体编程的新手我需要有关 HttpResponseRedirect 的帮助因为它在我的登录视图中不起作用它确实可以在我的主视图文件中工作但不是我想要的方式我没有重定向到所需的页面而是只在同一页
如何在API平台上保存与实体的嵌套关系

我有两个实体 Question and 选择其中 Question 与 Alternative 有 OneToMany 关系我正在尝试发送带有嵌套文档的 JSON选择通过 POST 到QuestionAPI 平台 API 平台返回以下错误
如何在 Dart 中逐行读取文件

这个问题是一个问题的延续上一个问题我编写了以下代码来确定是否File openRead 创建了一个可以逐行流式传输的 Stream 事实证明答案是否定的读取整个文件然后传递到下一个转换我的问题是如何在 Dart 中逐行流式传输文件
如何在不复制数据的情况下连接 pandas DataFrame？

我想连接两个 pandas DataFrame 而不复制数据也就是说我希望连接的 DataFrame 成为两个原始 DataFrame 中数据的视图我尝试使用 concat 但不起作用此代码块显示更改基础数据会影响连接的两个 Dat
从 SQLite3 导出数据

我需要一种简单的方法从包含多个表的 SQLite 数据库中导出数据然后将它们导入到另一个数据库中这是我的场景我有 5 个表 A B C D E 每个表都有一个主键作为第一列称为 ID 我想要一个 Unix 命令它仅以可以导入到另一
如何反序列化 Kubernetes YAML 文件

如何将 Kubernetes YAML 文件反序列化为 Go 结构我查看了kubectl代码但不知何故每个 YAML 文件都会出现错误 no kind Deployment is registered for version apps
Terraform EKS 标记

我遇到了 Terraform EKS 标记问题并且似乎没有找到可行的解决方案来在创建新集群时标记所有 VPC 子网提供一些背景信息我们有一个 AWS VPC 在其中将多个 EKS 集群部署到子网中我们不会在 EKS 集群创建过程中创
FirebaseError：[code=resource-exhausted]：资源已耗尽（例如检查配额）

我有一个大小为 10000 的数组所有这些都是文档 ID 我正在运行一个数组需要从 Firestore 获取文档数据并且需要在每个文档中添加新字段但我面临以下错误例如 firebase firestore Firestore 5
DATETIME 值在 SQLite 中如何工作？

我正在创建 Android 应用程序需要保存创建记录的日期时间然而 SQLite 文档说 SQLite 没有为存储日期和或时间而预留的存储类并且它能够将日期和时间存储为 TEXT REAL 或 INTEGER 值使用一种类型而
PHP 中有比任何数字都大的东西吗？

我需要在 PHP 中模拟 So that min number 总是 number 我想对于整数你可以使用PHP INT MAX 以下代码 var dump PHP INT MAX 在我的机器上给出以下输出 int 2147483647
AccessType.FIELD、AccessType.PROPERTY 和 @Access 的用途是什么

我只是想知道所有这些注释之间有什么区别为什么我们使用这些意味着它们没有影响尤其是字段级别和属性级别使用混合级别注释的目的是什么 Entity Access AccessType FIELD class Employee why th
C 中是否有单消费者单生产者无锁队列实现？

我正在编写一个带有消费者线程和生产者线程的程序现在看来队列同步在程序中是一个很大的开销我寻找了一些无锁队列实现但只找到了Lamport的版本和PPoPP上的改进版本 08 enqueue nonblock data if NULL b
按子数组的数量对数组进行排序

我有一个看起来像这样的数组 Array some first category gt Array some first name gt Array 0 gt email protected 1 gt email protected 2 gt
javax.net.ssl.SSLException：证书中的主机名与android不匹配

我正在创建一个 Android 应用程序其中我将数据发送到 Web 服务但我收到 javax net ssl SSLException 证书中的主机名与 android 不匹配的错误这是我的代码 AsyncHttpClient cli
IFrame (HTML) 是否已过时？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心以获得指导收到的信息相互矛盾希望不
ANGULAR 6：错误 TS2315：类型“ModuleWithProviders”不是通用的

您好我遇到了一个与任何事情都无法关联的问题我展示了一些我的代码希望它能有用考虑一下当我开始创建反应式表单时这个问题就出现了首先这是我的 package json name name version 0 0 0 scripts n
为什么 QGraphicsItem::scenePos() 不断返回 (0,0)

我一直在玩弄这段代码 QGraphicsLineItem anotherLine this gt addLine 50 50 100 100 qDebug lt lt anotherLine gt scenePos QGraphicsLin
文本框不会拉伸以填充视图框

我希望 LOB 表单中的标签和文本框的字体大小随着窗口大小或分辨率的变化而增大和缩小为了实现这一点我将标签和文本框放置在视图框中标签和自定义单选按钮的行为符合我的预期但文本框不会水平拉伸以填充视图框抱歉由于代表而无法发布图像如
Java8 - 如何知道夏令时现在是否开启

我需要使用新的 Java 8 日期时间类来了解夏令时是否已启用我找到了一个如何在 jodatime 中执行此操作的条目 jodatime 如何知道夏令时是否开启但在 Java 8 中如何找到它呢 jodatime应该有点类似但我找不到
复制数据帧的观察结果，同时替换 R 中的特定变量值

我正在寻找一些有关数据重组的建议我正在使用 Google Forms 收集一些数据我将其下载为 csv 文件如下所示 alpha beta option 6 8 9 10 11 apple 9 6 pear 1 6 apple 3 8

复制数据帧的观察结果，同时替换 R 中的特定变量值

复制数据帧的观察结果，同时替换 R 中的特定变量值 的相关文章

随机推荐

热门标签

复制数据帧的观察结果，同时替换 R 中的特定变量值的相关文章