在 R 中替换数据帧中最低列表值的最有效方法

2024-05-07

我有一个数据框 df，其中包含为每个受试者记录的数字列表/向量，用于测试项目的两次重复。

subj item rep vec
s1 1 1 [2,1,4,5,8,4,7]
s1 1 2 [1,1,3,4,7,5,3]
s1 2 1 [6,5,4,1,2,5,5]
s1 2 2 [4,4,4,0,1,4,3]
s2 1 1 [4,6,8,7,7,5,8]
s2 1 2 [2,5,4,5,8,1,4]
s2 2 1 [9,3,2,6,6,8,5]
s2 2 2 [7,1,2,3,2,7,3]

对于每个项目，我想找到rep 1 的平均值的50%，然后用0 替换rep 2 向量中的最低数字，直到rep2 的平均值小于或等于rep1 的平均值。例如，对于 s1 item1：

mean(c(2,1,4,5,8,4,7))*0.5 = 2.1 #rep1 scaled down
mean(c(1,1,3,4,7,5,3)) = 3.4 #rep2
mean(c(0,0,0,0,7,5,0)) = 1.7 #new rep2 such that mean(rep2) <= mean(rep1)

删除rep 2向量中的最低数字后，我想关联rep1和rep2向量并执行一些其他次要算术函数并将结果附加到另一个（长度初始化的）数据帧。现在，我使用类似于此伪代码的循环来执行此操作：

for subj in subjs:
  for item in items:
     while mean(rep2) > mean(rep1)*0.5:
       rep2 = replace(lowest(rep2),0)
     newDataFrame[i] = correl(rep1,rep2)

用循环来做这件事似乎效率很低；在 R 中，是否有更有效的方法来查找和替换列表/向量中的最低值，直到平均值小于或等于取决于该特定项目的值？将相关性和其他结果附加到其他数据帧的最佳方法是什么？

附加信息：

>dput(df)
>structure(list(subj = structure(c(1L, 1L, 1L, 1L, 2L, 2L, 2L, 
 2L), .Label = c("s1", "s2"), class = "factor"), item = c(1L, 
 1L, 2L, 2L, 1L, 1L, 2L, 2L), rep = c(1L, 2L, 1L, 2L, 1L, 2L, 
 1L, 2L), vec = list(c(2, 1, 4, 5, 8, 4, 7), c(1, 1, 3, 4, 7, 
 5, 3), c(6, 5, 4, 1, 2, 5, 5), c(4, 4, 4, 0, 1, 4, 3), c(4, 6, 
 8, 7, 7, 5, 8), c(2, 5, 4, 5, 8, 1, 4), c(9, 3, 2, 6, 6, 8, 5
 ), c(7, 1, 2, 3, 2, 7, 3))), .Names = c("subj", "item", "rep", 
 "vec"), row.names = c(NA, -8L), class = "data.frame")

我希望这个数据帧作为输出（具有rep1与rep2相关性以及rep1与新rep2相关性）。

subj item origCorrel newCorrel
s1 1 .80 .51
s1 2 .93 .34
s2 1 .56 .40
s2 2 .86 .79

摆脱循环的典型策略是将子集数据上的所有计算放入它们自己的函数中，然后在aggregate or apply功能。

two.cors=function(x,ratio=.5) {
  rep1=unlist(x[1,][['vec']])
  rep2=unlist(x[2,][['vec']])
  orig.cor=cor(rep1,rep2)
     while(mean(rep2) > mean(rep1)*ratio) {
   rep2[    which(rep2==min(rep2[which(!rep2==0)]))]=0
    }
  c(orig.cor,wierd.cor=cor(rep1,rep2))
}

我想使用 daply 所以得到plyr，可以使用骨料或碱基*apply功能

library(plyr)

然后在您的数据集上调用该函数

 daply(df,c("subj","item"), .fun=function(x) two.cors(x,ratio=.4) )

这个输出可以重新格式化，但我把它留给你，因为我认为你需要额外的统计数据two.cors功能

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

performance

r

loops

DataFrame

在 R 中替换数据帧中最低列表值的最有效方法的相关文章

正态分布平均值的贝叶斯推理玩具 R 代码 [降雪量数据]

我有一些降雪观测 x lt c 98 044 107 696 146 050 102 870 131 318 170 434 84 836 154 686 162 814 101 854 103 378 16 256 我被告知它遵循正态分布
改变for循环的顺序？

我遇到一种情况我需要根据用户输入以不同的顺序循环遍历 xyz 坐标所以我是 3D 空间中的一个区域然后是一组像这样的 for 循环 for int x 0 x lt build getWidth x for int y 0 y lt
加快网络抓取速度

我正在使用一个非常简单的网络抓取工具抓取 23770 个网页scrapy 我对 scrapy 甚至 python 都很陌生但设法编写了一个可以完成这项工作的蜘蛛然而它确实很慢爬行 23770 个页面大约需要 28 小时我看过scr
不同编程语言中的浮点数学

我知道浮点数学充其量可能是丑陋的但我想知道是否有人可以解释以下怪癖在大多数编程语言中我测试了 0 4 到 0 2 的加法会产生轻微的错误而 0 4 0 1 0 1 则不会产生错误两者计算不平等的原因是什么在各自的编程语言中可以采
如何在 data.table 中分组后使用条件计算行数

我有以下数据框 dat lt read csv s1 s2 v1 v2 a b 10 20 a b 22 NA a b 13 33 c d 3 NA c d 4 5 NA c d 10 20 dat gt A tibble 6 x 4 gt
如何纠正 data.frame 上的字符编码

我有一个像这样的数据框 data names lt data frame DATA c 1 5 rownames data names lt c IV xc1N JOS xc9 LUC xcdA RAM xd3N TO xd1O data
如何在 R 中执行近似（模糊）名称匹配

我有一个专门用于生物学期刊的大型数据集该数据集是由不同的人长时间编写的因此数据不采用单一格式例如在作者栏中我可以找到John Smith Smith John Smith J等但它们是同一个人我连最简单的动作都做不了例如
如何在 R 中的 for 循环内将值存储在向量中

我正在开始使用 R 但我对以下问题感到非常沮丧我试图将 for 循环内完成的某些计算的值存储到我之前定义的向量中问题是如何进行索引因为for循环迭代代码的次数取决于用户的输入所以变量i不一定要从1开始它可以从80开始 for举个例
如何检查设备是否“快”足够

我找不到更好的措辞来回答我的问题在我的应用程序中的某个时刻我设置了一些非常密集的动画事实是在高端设备上动画运行流畅且赏心悦目另一方面我测试的一款低端设备在制作动画时的性能非常糟糕为了将用户体验放在第一位我想在计算能力足够的
R Shiny：如何将无功值从闪亮模块返回到主服务器功能？

我有一个简单的玩具示例它使用 add removeBtn 模块在第一个模块中添加和删除 UI 我需要跟踪单击添加删除的次数如果我不使用模块这很容易但我试图在嵌套模块的上下文中执行此操作代码如下但基本上我似乎无法访问主
闪亮的应用程序包：css 和所有 www/ 目录内容

我正在尝试将 Shiny 应用程序转换为 R 包但我在处理有关 www 目录以及松散文件的所有问题时遇到了问题我闪亮的应用程序运行得很好但是当我尝试打包它时它不起作用我闪亮的应用程序目录 my shiny app R ut
如何声明包含 M 个元素的列表对象

我想声明一个包含 M 3 x 3 矩阵的列表如果我事先知道数字 M 那么我可以通过以下方式声明这样的列表 elm lt matrix NA 3 3 Say M 7 myList lt list elm elm elm elm elm el
R在Windows平台Rstudio上打印data.frames中的UTF-8代码

当数据框中存在UTF 8字符时将无法正常显示例如以下内容是正确的 gt U6731 1 朱但是当我将其放入数据框中并打印出来时它是 gt data frame x U6731 x 1
将 Python Pandas DataFrame 写入 Word 文档

我正在努力创建一个使用 Pandas DataFrames 的 Python 生成的报告目前我正在使用DataFrame to string 方法但是这会作为字符串写入文件有没有办法让我实现这一目标同时将其保留为表格以便我可以使
R：按组，测试一个变量的每个值是否存在于另一个变量中

我有一个数据框架结构如下 a lt c 1 1 1 2 2 2 3 3 3 3 4 4 b lt c 1 2 3 1 2 3 1 2 3 4 1 2 c lt c NA NA 2 NA 1 1 NA NA 1 1 NA NA df lt
Swift 使用哪种通用排序算法？它在排序数据上表现不佳

我一直在挑选和探索 Swift 标准库sort 其函数为Array类型令我惊讶的是我注意到它在已经排序的数据上表现不佳对数组进行排序Int打乱顺序似乎比对已经排序的同一个数组进行排序快 5 倍对已打乱顺序的对象数组进行排序比对已按排
增加雷达图中长轴标签的空间

我想创建一个雷达图ggirahExtra ggRadar 问题是我的标签很长并且被剪掉了我想我可以通过添加在标签和绘图之间创建更多空间margin margin 0 0 2 0 cm to element text in axis tex
R中IF函数的使用

我正在短跑ifR 中的函数但收到以下警告消息 In if runif 50 0 1 lt 0 69 the condition has length gt 1 and only the first element will be used
当将遗传算法与 lme4 一起使用时，glmulti 无限期运行

我在 R 中使用 glmulti 进行模型平均我的模型中有大约 10 个变量使得详尽的筛选不切实际因此我需要使用遗传算法 GA 调用 method g 我需要包含随机效应因此我使用 glmulti 作为 lme4 的包装器此处提供
需要在R中跳过不同数量的行

我正在使用以下代码来处理我的数据但最近我意识到使用skip 27 在数据开始之前跳过存储在我的文件中的信息不是一个好的选择因为每个文件中要跳过的行数不同我的目标是读取存储在多个文件夹中的各种txt文件并非所有文件都有相同的列数列的

随机推荐

Windows.Automation 中的旧版 IAccessible

如何使用C 获取AutomationElement的LegacyIAccessible State和其他LegacyIAccessibles 就像工具中的 Inspect exe 一样 The LegacyIAccessible是新的并且
如何编写凯撒密码 Python

我不知道如何开始编写程序 input input Input the text you would like encrypted def cipher text letter code for i in input number code
将 XML 反序列化为对象数组

我正在尝试将 XML 文件反序列化为对象数组但收到空对象我的问题看起来与此类似如何将 xml 反序列化为对象数组 https stackoverflow com questions 7541899 how to deserialize
分布式设置中的 Django SECRET_KEY

如果我在负载均衡器后面设置多个 django 服务器我希望 SECRET KEY 相同不同还是有关系该文档对于这个值的具体用途有点薄弱我想一定是一样的这是相关问题 Django SECRET KEY https stackover
使用 php 在没有“manage_pages”权限的情况下发布到 Facebook 页面

我有一个包含博客文章的网站我们需要自动将博客发布到 Facebook 页面目前我可以发布到我的时间线但我无法发布到 Facebook 页面我在谷歌搜索过许多代码说我们需要manage pages权限我的应用程序 Facebook
如何使用 Prometheus Alert Manager 在 Kubernetes 中触发警报

我在集群中设置了 kube prometheus https github com coreos prometheus operator tree master contrib kube prometheus https github co
== 在 R 中，精度为 .Machine$double.eps [重复]

这个问题在这里已经有答案了在 R 中我发现必须转换易于阅读的代码有点烦人例如 if det A 1 not always working because of floating point precision to if abs de
C 在函数中返回数组

我对 C 比较陌生我习惯用 Java 编程所以我发现 C 在涉及数组的方面有点困难我仍然对这些案例感到困惑 int a int a int a 在java中我会做这样的事情来在函数中返回一个数组 int returnArr int
如何检查 postgres 的 psql 是否自动提交

我使用的是 postgres 9 5 如何检查自动提交是否打开或关闭我试过SHOW AUTOCOMMIT我在哪里得到的ERROR unrecognized configuration parameter autocommit 然后我做了一
typeof() 表达式内的副作用

在 GNUC C 中您可以使用typeof expression 并且使用内部带有副作用的表达式是合法的例如您可以使用以下 C 代码 int x 0 typeof x y 在这种情况下副作用被忽略并且 x 之后仍然为零这是有道理
AWS Glue 3.0 容器不适用于 Jupyter 笔记本本地开发

我正在 AWS 中开发 Glue 并尝试在本地开发中进行测试和调试我按照这里的说明进行操作https aws amazon com blogs big data developing aws glue etl jobs locally u
为什么我的操作系统在启动 VS Code 时/之后变得非常慢，除非在禁用扩展的情况下启动？

今天当我启动 Visual Studio Code 时我的Debian 9 https en wikipedia org wiki Debian version history Debian 9 Stretch 伸展变得非常慢但是当
问题 - 序言中的形式语言

我正在尝试构建一个 DCG 它可以识别与此形式匹配的所有列表 a n b 2m c 2m d n 我写下了以下规则 s gt s gt ad ad gt a ad d ad gt bc bc gt b b bc c c bc gt a gt
PHP 函数可以接受无限数量的参数吗？ [复制]

这个问题在这里已经有答案了在 PHP 中有类似的函数unset 支持我们向它们抛出的任意数量的参数我想创建一个类似的函数它能够接受任意数量的参数并处理所有参数任何想法如何做到这一点在 PHP 中使用该函数func get ar
Python 类：通过传递值实现单例还是非单例？

我有一个 Python 3 类目前是使用 a 定义的单例 singleton装饰器但有时需要not成为单身人士问题是否可以在从类实例化对象时执行类似于传递参数的操作并且该参数确定该类是否是单例我试图找到一种替代方法来复制类并使其
为什么当大小大于 50 时，该程序花费的时间会呈指数级增长？

所以我正在为类编写一个 ARM 汇编快速排序方法我对大部分内容都有了解除了复杂性没有意义我们将其与我们制作的另一种冒泡排序方法进行比较它对于具有 1 个参数和 10 个参数的示例表现更好然而我什至无法比较 100 个参数测试因
授予 Rails 应用 API 访问权限的最佳身份验证方法

我想为我的网络应用程序提供经过身份验证的 API 访问此类服务的消费者通常是其他网站服务验证这些用户身份的最佳方法是什么 OAuth openID http 身份验证正如我们的工作一样哪个最好的答案是这样的是这取决于 HTT
在node.js中使用socket.io设置服务器-服务器SSL通信

我正在尝试使用 socket io 通过 ssl 连接来设置服务器到服务器的链接这是我的例子 Server var app require express var config require config var https requi
大数据集每两列的平均值

如下所示我有一个大型数据集其中按列组织了 12 小时的温度我希望取每日平均值即一次平均两列直到数据集结束有人可以指出我一个简单解决方案的方向吗我知道这可能非常简单但我找不到任何现有的解决方案 01 01 2000 00 00
在 R 中替换数据帧中最低列表值的最有效方法

我有一个数据框 df 其中包含为每个受试者记录的数字列表向量用于测试项目的两次重复 subj item rep vec s1 1 1 2 1 4 5 8 4 7 s1 1 2 1 1 3 4 7 5 3 s1 2 1 6 5 4 1 2

在 R 中替换数据帧中最低列表值的最有效方法

在 R 中替换数据帧中最低列表值的最有效方法 的相关文章

随机推荐

热门标签

在 R 中替换数据帧中最低列表值的最有效方法的相关文章