R：具有子集的 T 统计量

2023-12-13

我想要一个表作为输出，其中包含某些变量均值差异之间的 t 统计量并基于数据的两个特定子集。

我有以下数据：

structure(list(Name = c("A", "A", "A", "A", "B", "B", "B", "B", 
"C", "C", "C", "C", "D", "D", "D", "D"), Date = c("20.10.2018", 
"30.09.2018", "25.11.2019", "23.10.2020", "20.03.2018", "30.07.2018", 
"25.08.2019", "23.10.2020", "20.12.2018", "30.01.2018", "25.02.2019", 
"23.06.2020", "20.11.2018", "30.12.2018", "25.11.2019", "23.09.2020"
), Return = c(0.01, 0.05, 0.08, 0.07, 0.04, 0.03, 0.01, 0.03, 
0.03, 0.05, 0.06, 0.07, 0.07, 0.04, 0.06, 0.08), Age = c(5L, 
5L, 6L, 7L, 8L, 8L, 9L, 10L, 4L, 4L, 5L, 6L, 1L, 1L, 2L, 3L), 
    Size = c(53336L, 75768L, 86548L, 94567L, 40234L, 40240L, 
    50243L, 60352L, 5069L, 6069L, 7092L, 8024L, 2456L, 3046L, 
    4056L, 5600L), Rating = c(1L, 1L, 1L, 2L, 5L, 5L, 3L, NA, 
    4L, 5L, 4L, 5L, NA, 4L, 5L, 4L)), class = "data.frame", row.names = c(NA, 
-16L))

更具体地说，我想要一个表，其中对于评级为 1 和 5 的观测值的变量 Return、Age 和 Size 之间的均值差异有 t 统计量。t 统计量应该是 Rating 之间的列1 和评级 5，并且应包括表示 p 值的星号。

我尝试使用 t.test 函数，但仅将其用于子组并在评级 1 和评级 5 之间创建 t 统计列时遇到困难。

输出应具有如下布局：

structure(list(c("Return", "Age", "Size"), `Mean Rating 1` = c(NA, 
NA, NA), `t-statistics including p-value (indicated as stars)` = c(NA, 
NA, NA), `Mean Rating 5` = c(NA, NA, NA)), class = "data.frame", row.names = c(NA, 
-3L))

有人可以帮我这里的代码吗？

预先非常感谢您。

编辑 2022 年 4 月 22 日：

问题一：如果我希望输出如下（现在没有值，只是为了说明我想要的布局），我需要如何调整答案中的代码：

structure(list(c("Return", "Age", "Size"), `Mean Rating 1` = c(NA, 
NA, NA), `Mean Rating2` = c(NA, NA, NA), `Mean Rating 3` = c(NA, 
NA, NA), `Mean Rating 4` = c(NA, NA, NA), `Mean Rating 5` = c(NA, 
NA, NA), `Mean Rating NA` = c(NA, NA, NA), `Difference in means Rating 5 and Rating 1` = c(NA, 
NA, NA), `p-value for differences in means Rating 5 and Rating 1` = c(NA, 
NA, NA), `stars for p-value for differences in means Rating 5 and Rating 1` = c(NA, 
NA, NA)), class = "data.frame", row.names = c(NA, -3L))

问题2：当我想比较两组之间的均值差异时，使用 t 检验还是 F 检验更好？我选择了 t 检验，因为据我所知，如果我想比较两组之间的均值，t 检验是正确的检验。如果我想比较两组的两个标准差，则最好使用 F 检验。我的理解对吗？

您可以轻松地循环subset=.

t(with(mtcars, sapply(unique(cyl), \(i) t.test(am, subset=cyl == i))))
#      statistic parameter p.value      conf.int  estimate null.value stderr     alternative method              data.name
# [1,] 4.605489  31        6.632258e-05 numeric,2 0.40625  0          0.08820997 "two.sided" "One Sample t-test" "am"     
# [2,] 4.605489  31        6.632258e-05 numeric,2 0.40625  0          0.08820997 "two.sided" "One Sample t-test" "am"     
# [3,] 4.605489  31        6.632258e-05 numeric,2 0.40625  0          0.08820997 "two.sided" "One Sample t-test" "am"

对于您的数据更具体，您可以这样做：

tcols <- c('Return', 'Age', 'Size')
r <- t(with(subset(dat, Rating %in% c(1, 5)), 
     sapply(setNames(tcols, tcols), \(i) unlist(
       t.test(reformulate('Rating', i))[
         c('estimate', 'statistic', 'p.value')]
       ))))
cbind(as.data.frame(r),
      ' '=c("   ", "*  ", "** ", "***")[
        rowSums(outer(r[, 'p.value'], c(Inf, 0.05, 0.01, 0.001), `<`))])
#        estimate.mean in group 1 estimate.mean in group 5 statistic.t   p.value    
# Return             4.666667e-02                     0.05  -0.1552301 0.8883096    
# Age                5.333333e+00                     5.60  -0.2198599 0.8353634    
# Size               7.188400e+04                 19724.60   4.0457818 0.0109848 *

Note使用 R >= 4.1。

Edit

as.data.frame(t(with(subset(dat, Rating %in% c(1, 5)), 
       sapply(setNames(tcols, tcols), \(i) unlist(
         t.test(reformulate('Rating', i))[
           c('estimate', 'statistic', 'p.value')]
       ))))) |>
  {\(.) cbind(mean.diff.5.1=apply(.[1:2], 1, diff), .[3:4])}() |> 
  cbind(' '=c("   ", "*  ", "** ", "***")[
          rowSums(outer(r[, 'p.value'], c(Inf, 0.05, 0.01, 0.001), `<`))],
        `colnames<-`(t(aggregate(. ~ Rating, dat[3:6], mean)[-1]), 
                     paste0('mean.rating.', 1:5))) |>
  {\(.) .[c(5:9, 1:4)]}()
#        mean.rating.1 mean.rating.2 mean.rating.3 mean.rating.4 mean.rating.5 mean.diff.5.1 statistic.t   p.value    
# Return  4.666667e-02          0.07          0.01        0.0525          0.05  3.333333e-03  -0.1552301 0.8883096    
# Age     5.333333e+00          7.00          9.00        3.2500          5.60  2.666667e-01  -0.2198599 0.8353634    
# Size    7.188400e+04      94567.00      50243.00     5201.7500      19724.60 -5.215940e+04   4.0457818 0.0109848 *

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

R：具有子集的 T 统计量的相关文章

sapply - 保留列名称

我试图总结数据集中许多不同列变量的平均值标准差等我已经编写了自己的汇总函数以准确返回我需要和正在使用的内容sapply立即将此函数应用于所有变量它工作正常但是返回的数据帧没有列名我似乎甚至无法使用列号引用重命名它们也就是说
在 R 中提取 data.frames 列表的名称以及 data.frame 中的值

在下面的代码中 j是 data frames 的命名列表我想知道是否有办法 a 提取变量的数值即one short and one long 在 data frames 内并附加它们的相关名称即 AAA or BBB or CCC 到
在 RMarkdown 输出到 PDF 时缩进而不添加项目符号点或编号

之前有人问过如何在没有项目符号的情况下缩进文本 RMarkdown 中的点但这是针对 HTML 输出的在 RMarkdown 中缩进而不添加项目符号点或数字 https stackoverflow com questions 47087
使用选定因子水平的值向 ggplot-barchart 添加水平线

在这个情节中 df lt data frame factor as factor c rep A 3 rep B 3 Treatment c rep c A B C 2 values runif 6 0 1 ggplot df aes Tr
R：按组，测试一个变量的每个值是否存在于另一个变量中

我有一个数据框架结构如下 a lt c 1 1 1 2 2 2 3 3 3 3 4 4 b lt c 1 2 3 1 2 3 1 2 3 4 1 2 c lt c NA NA 2 NA 1 1 NA NA 1 1 NA NA df lt
如何根据 ggplot2 中的汇总数据创建堆积条形图

我正在尝试使用 ggplot 2 创建堆积条形图我的宽格式数据如下所示每个单元格中的数字是响应的频率 activity yes no dontknow Social events 27 3 3 Academic skills works
如何为自定义 S3 类实现提取/取子集 ([ [<-, [[ [[<-)] 函数？

我有一个自定义的 S3 类foo 它在正常的基础上添加了一些自定义行为data frame foo object lt data frame class foo object lt c foo data frame 对于这个类还应该有一个
R：如何将字符/数字转为1，NA转为0？

有没有一种简单的方法可以将列的字符数字变为 1 将 NA 变为 0 这里有一些示例数据我想将其应用于 3 4 structure list Item Code c 176L 187L 191L 201L 217L 220L Item x
平滑连续 2D 点

UPDATE 感谢 user20650和李哲源Zheyuan Li 这是我想出的解决方案 Example data set df 3600 observations points Create a vector of the cumula
扩展数据框以使其具有与原始行中两列的范围一样多的行[重复]

这个问题在这里已经有答案了我有一个数据框如下 structure list symbol c u n v i a start c 9L 6L 10L 8L 7L end c 14L 15L 12L 13L 11L Names c symb
R - 基于列名称的子集

我的数据框有超过 120 列变量我想根据列名称创建子集例如我想创建一个子集其中列名称包含字符串心情这可能吗我一般用 SubData lt myData grep whatIWant colnames myData 我很清楚
在 Google Colab 上的 R 笔记本中安装 python 库

我正在尝试在 Google Colab 上的 R 笔记本中安装 python 库为此我使用 reticulate 包 library reticulate py install pandas 但我得到的结果是这个错误 Error coul
自定义轴缩放后 ggplot2 缺少标签

我正在尝试使用我的 x 轴应用自定义缩放ggplot2 and scales trans new 但是当我这样做时一些轴标签丢失了有人可以帮我弄清楚为什么吗 Setup library tidyverse the data ds lt
无法将“gather”输出的列名称更改为默认名称以外的任何名称

我正在尝试使用gather in the tidyr包但我无法更改默认名称的输出列名称例如 df data frame time 1 100 a 1 100 b 101 200 df long df gt gather foo bar
如何防止布局的方向改变，而不是整个屏幕/活动的方向改变

我需要一个子布局可以是任何布局例如FrameLayout or RelativeLayout 忽略方向变化并始终保持横向但不是它的父级或任何其他兄弟布局视图它们应该相应地改变它们的方向因此我不能使用setRequestedOr
在闪亮的数据表中为每个单元格显示工具提示或弹出窗口？

有没有什么方法可以为 r闪亮数据表中的每个单元格获取工具提示有很多方法可以获取悬停行或列但我找不到一种方法来获取行和列索引并为每个单元格显示不同的悬停工具提示任何人都可以修改以下代码吗 library shiny library DT
是否有weighted.median()函数？

我正在寻找类似形式的东西weighted mean 我通过搜索找到了一些解决方案这些解决方案写出了整个函数但希望有一些更用户友好的解决方案以下软件包都有计算加权中位数的函数 aroma light isotone limma cwhm
ggplot2：带有 geom_line 的 x 轴因子不起作用

我想要一个线图其中value绘制为函数expt每级一行var 这是我的数据 lines lt expt var value 1 none p 0 183065327746799 2 none p 0 254234138384241 3 n
R：改变堆积条形图的颜色

library ggplot2 df2 lt data frame supp rep c VC OJ each 3 dose rep c D0 5 D1 D2 2 len c 6 8 15 33 4 2 10 29 5 head df2 g
R 中的数据框操作 - 将单元格向左移动并删除 NA

我有一个数据框其列由随机分布的值和 NA 组成如下所示 a lt c S E NA S NA b lt c A NA M G K c lt c I NA NA NA L meh lt dataframe a b c 1 2 3 4 5

随机推荐

如何使用 ServiceStack Funq IoC 解析类型

我正在尝试编写一个 JobActivatorHangFire using 服务栈IoC 和我在解析类型时遇到问题我确信对于具有更多泛型经验的人来说这将是一个简单的答案我传入的容器来自 HostContext Container usi
将 WooCommerce 运输方式完整标签中的零成本替换为“免费”

要在运费等于零时显示运费我使用以下代码因为 woocommerce 隐藏了零成本的运输方式 add filter woocommerce cart shipping method full label custom add zero c
Firebase Cloud Functions 立即删除节点，而不是 2 小时后删除

我正在使用 Cloud Functions 在 firebase 上 2 小时后删除节点但是当我添加节点时它在数据库内创建后就会立即被删除我的index js const functions require firebase fun
在 Shiny for R 中，为什么 Sys.Date() 在 dateInput 中返回昨天的日期？

我有一个dateInput in my ui R如下 dateInput asOfDateTime label As Of value Sys Date max Sys Date For 2015 05 15 这给出了dateInput默认
如何在 Linux 上安装 Python 包，以便可以通过已经运行的 PostgreSQL 13 plpython3u 扩展找到它？

分拆我试图抓住这个想法在 plpython3u 过程中导入 Python 包时出现找不到模块我不知道如何使用那里接受的答案使其在 Linux 上运行通常这里应该是重复的但如果使用的路径与 MacOS 存在差异则可能适合新问题
“失败：无法读取未定义的属性‘isPresent’”

it should be able to create a task for a product as a CTA function browser sleep 6222 browser sleep 6222 console log ss
在 KineticJS 中使用 mousedown 事件创建一个矩形

我正在尝试使用 KineticJS 与 mousedown 和拖动事件创建一个矩形形状但运气不佳有人做过类似的事情吗 http jsfiddle net AYHSM 6 var stage new Kinetic Stage conta
如何在 Highcharts 中使用自定义样式更改标记符号和数据标签

我们如何在悬停时自定义数据标签和标记符号请参考下图将标记内的符号作为图像 url 链接添加到系列中的最后一个数据叉小提琴探索它 series data 29 9 71 5 106 4 129 2 144 0 176 0 135 6
如何在 Symfony2 中正确启用 twig 的沙箱扩展？

在 Symfony2 中默认禁用一些 Twig 模块其中之一是调试扩展它添加了 debug 标签在开发环境中有用要启用它没有什么难的您可以将此服务添加到您的配置中 debug twig extension class Twig
将 .sh 命令转换为 .bat 等效命令

我正在按照本教程运行 jmx exporterwith卡桑德拉 https www robustperception io monitoring cassandra with prometheus 我发现而不是改变JVM OPTS in c
如何通过 jquery POST 单选按钮值

我有这个示例代码 while row mysql fetch object result1 echo
SQL SERVER 2008 在创建表时触发

在 SQL SERVER 2008 的数据库中创建表时有没有办法运行一些函数例如触发器是的这就是所谓的 DDL 触发器的文档CREATE TRIGGER有一个样本DROP SYNONYM 对于一个例子来说这是一个非常值得怀疑的选
客户端未经授权使用此方法检索访问令牌 Gmail API C#

当我尝试使用服务帐户授权 gmail api 时出现以下错误客户端无权使用此方法检索访问令牌 static async Task MainAsync sstageEntities db new sstageEntities UserCr
使用 PyE 的 Elasticsearch 批量索引

我有一个简单的 python 脚本用于索引包含 100 万行的 CSV 文件 import csv from pyes import reader csv reader open data csv rb conn ES 127 0 0 1
经典 ASP - 从本地主机上的网页运行 .exe

我正在尝试执行 bat 以使用以下代码在我的本地主机服务器端上启动 notepad exe 索引 asp file bat notepad exe 当我打开 ASP 页面时没有任何反应由于变量 return 返回值 0 所以我尝试设
为什么React在将state设置为相同值后会第二次渲染组件？

我有一个简单的 React 组件每次单击按钮时我都会设置相同的值 import React useState from react import style css let data title ABC export default fu
这些角色有什么区别？ [复制]

这个问题在这里已经有答案了可能的重复 r 和 n 有什么区别我真的很想知道两者之间有什么区别 n r t chr 13 它们如何在 Web 应用程序中使用在哪个操作系统中使用等等例如您能否确认Windows使用 n r对于换行符
您无权调用 openById

问题当我运行脚本时 Google 告诉我您无权调用 openById 我从我的另一个 Google 电子表格中复制了一个脚本并更改了目标密钥变量的单元格引用并在源电子表格和目标电子表格中创建适当大小的命名范围 Google Apps
同一 Android 项目中的多个 API 密钥

是否可以在同一代码库中为 Google Maps Android API 指定多个键看来每次更改密钥库时我都必须更改清单文件中的密钥恕我直言如果您需要测试使用调试和发布密钥库中的密钥签名的应用程序这不是很方便 I added bot
R：具有子集的 T 统计量

我想要一个表作为输出其中包含某些变量均值差异之间的 t 统计量并基于数据的两个特定子集我有以下数据 structure list Name c A A A A B B B B C C C C D D D D Date c 20 10 2

R：具有子集的 T 统计量

Edit

R：具有子集的 T 统计量 的相关文章

随机推荐

热门标签

R：具有子集的 T 统计量的相关文章