从 data.frame 中的现有变量创建几个新的派生变量

2024-04-17

在 R 中，我有一个 data.frame，其中有几个变量，这些变量是多年来每月测量的。我想得出每个变量的月平均值（使用所有年份）。理想情况下，这些新变量将全部放在一个新的 data.frame 中（继承 ID），下面我只是将新变量添加到 data.frame 中。目前我知道如何做到这一点的唯一方法（如下）似乎相当费力，我希望在 R 中可能有一种更聪明的方法来做到这一点，不需要像我下面那样输入每个月和变量。

# Example data.frame with only two years, two month, and two variables
# In the real data set there are always 12 months per year 
# and there are at least four variables
df<- structure(list(ID = 1:4, ABC.M1Y2001 = c(10, 12.3, 45, 89), ABC.M2Y2001 = c(11.1, 
          34, 67.7, -15.6), ABC.M1Y2002 = c(-11.1, 9, 34, 56.5), ABC.M2Y2002 = c(12L,
          13L, 11L, 21L), DEF.M1Y2001 = c(14L, 14L, 14L, 16L), DEF.M2Y2001 = c(15L,
          15L, 15L, 12L), DEF.M1Y2002 = c(5, 12, 23.5, 34), DEF.M2Y2002 = c(6L,
          34L, 61L, 56L)), .Names = c("ID", "ABC.M1Y2001", "ABC.M2Y2001","ABC.M1Y2002", 
          "ABC.M2Y2002", "DEF.M1Y2001", "DEF.M2Y2001", "DEF.M1Y2002", 
          "DEF.M2Y2002"), class = "data.frame", row.names = c(NA, -4L))


# list variable to average for ABC Month 1 across years
ABC.M1.names <- c("ABC.M1Y2001", "ABC.M1Y2002") 
df <- transform(df,  ABC.M1 = rowMeans(df[,ABC.M1.names], na.rm = TRUE))

# list variable to average for ABC Month 2 across years
ABC.M2.names <- c("ABC.M2Y2001", "ABC.M2Y2002") 
df <- transform(df,  ABC.M2 = rowMeans(df[,ABC.M2.names], na.rm = TRUE))

# and so forth for ABC
# ...

# list variables to average for DEF Month 1 across years
DEF.M1.names <- c("DEF.M1Y2001", "DEF.M1Y2002") 
df <- transform(df,  DEF.M1 = rowMeans(df[,DEF.M1.names], na.rm = TRUE))

# and so forth for DEF
# ...

这是一个使用的解决方案data.table开发版本v1.8.11 https://r-forge.r-project.org/R/?group_id=240（其中有melt and cast为 data.table 实现的方法）：

require(data.table)
require(reshape2) # melt/cast builds on S3 generic from reshape2
dt <- data.table(df) # where df is your data.frame
dcast.data.table(melt(dt, id="ID")[, sum(value)/.N, list(ID, 
        gsub("Y.*$", "", variable))], ID ~ gsub)
   ID ABC.M1 ABC.M2 DEF.M1 DEF.M2
1:  1  -0.55  11.55   9.50   10.5
2:  2  10.65  23.50  13.00   24.5
3:  3  39.50  39.35  18.75   38.0
4:  4  72.75   2.70  25.00   34.0

你可以只cbind这是你的原始数据。

注意sum是一个原语，其中mean是S3通用的。因此，使用sum(.)/length(.)更好（好像有太多分组，用mean对于每个组来说可能是一个相当耗时的操作）。.N是 data.table 中的一个特殊变量，它直接给出组的长度。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

从 data.frame 中的现有变量创建几个新的派生变量的相关文章

为 RStudio Server 1.0.44 配置日志目录

我在 CentOS 7 上运行 RStudio Server 1 0 44 根据文档 https support rstudio com hc en us articles 200554766 RStudio Server Applicat
熊猫滚动意味着更新

考虑数据框 df pd DataFrame a None None None None 1 2 1 0 1 b 5 4 6 7 None None None None None gt gt a b 0 NaN 5 0 1 NaN 4 0 2
使用 Rcpp 得出斐波那契数列的意外结果

我刚刚开始使用Rcpp很抱歉如果我错过了一个简单的步骤或类似的东西我已经尝试过这个 sourceCpp library Rcpp sourceCpp code include
有条件填写 pandas 数据框

我有一个数据框df列中包含浮点值A 我想添加另一列B这样 B 0 A 0 for i gt 0 B i if np isnan A i then A i else Step3 B i if abs B i 1 A i B i 1 lt 0
left_join 表示列不存在，即使它存在

我想用两个不同的变量 tp join 连接两个数据框出现错误表示无法在第二个数据帧中找到变量但是当我运行函数 colnames 时会显示列名称为什么会这样呢 df new lt left join master settlemen
R Shiny - 修复了 Shiny 仪表板中的侧边栏和主标题

我有一个简化的闪亮仪表板请参阅下面的代码我想修复侧边栏和主标题因此在其他帖子的帮助下我编写了一个 CSS 文件来解决该问题 sidebar color FFF position fixed width 220px white sp
强制 PayPal 始终请求信用卡信息而不是登录表单？

我们的网站采用贝宝付款标准当用户在我们的网站上填写他们的请求并按下 PayPal 按钮立即购买时我们会将所有变量提交给 PayPal 以便他们可以处理付款对于那些以前从未使用过贝宝并通过我们的网站付款的用户来说它运行得非常好因
我可以在 R 中并行读取 1 个大 CSV 文件吗？ [复制]

这个问题在这里已经有答案了我有一个很大的 csv 文件需要很长时间才能阅读我可以使用 parallel 或相关的包在 R 中并行读取此内容吗我尝试过使用 mclapply 但它不起作用根据OP的评论 fread来自data tab
如何将函数应用于多个 pandas 数据框

我有多个数据框 df1 df2 df3 dfn 它们具有相同类型的数据但来自无法连接的不同描述符组现在我需要手动将相同的函数应用于每个数据帧如何将相同的函数应用于多个数据框 pipe https pandas pydata org p
Python：按小时、天和月过滤 Pandas 中的数据帧（按年分组）

作为 Pandas 的新手我必须进行大量挖掘才能找到这个问题的解决方案考虑到我仍然需要解决边界问题我想知道更好的方法来解决这个问题我有一组从 2009 年到 2012 年的 10 分钟功率测量值并且希望获得所有年份的小时和日
创建后修改 ggplot 对象

有没有首选的修改方式ggplot创建后的对象例如我建议我的学生将 r 对象与 pdf 文件一起保存以供以后更改 library ggplot2 graph lt ggplot mtcars aes x mpg y qsec fill c
如何使用 tidyr 将向量中字符串中的每个字符分隔到一列中

我想将向量中的每个字符串分成列但我做不到 library tidyr library dplyr df lt data frame x c abe bas dds eer df gt separate x c A B C sep 1 我想
如何在knitr中安装软件包？

到目前为止我一直在使用这段代码来加载 R 包并编写 R 文件但我正在尝试使用knitr rm list ls all TRUE kpacks lt c ggplot2 install github devtools mapdata ne
plot xts if (on == "years") { 中的错误：缺少 TRUE/FALSE 需要的值

我正在尝试绘制 xts 对象但出现有关年份的错误 xts 对象只有一个数值和一个 POSIXct 索引下面的代码显示了 xts 和尝试绘图时的错误关于需要对 xts 对象做什么才能正确绘制的任何想法 xTest lt as xts 3
如何使用 grid.arrange 移动图例位置

我试图在一页中排列 4 个图将图例放在底部中心我用它来获取其中一个图的图例因为它们对于四个图来说是相同的 get legend lt function myggplot tmp lt ggplot gtable ggplot buil
svyby比例的置信区间

是否存在创建置信区间的现有函数从一个svyby比例对象在我的例子中是一个二进制项目的交叉表survey包裹我经常比较各组之间的比例如果有一个可以提取置信区间的函数使用调查函数svyciprop而不是confint 下面的示例显示
计算数据帧 R 中字符串的频率

我想计算数据框中某些字符串的频率 strings lt c pi pie piece pin pinned post df lt as data frame strings 然后我想计算字符串的频率 counts lt c pi in pi
dplyr 总结小计

Excel 中数据透视表的一大优点是它们会自动提供小计首先我想知道 dplyr 中是否已经创建了任何可以实现此目的的东西如果没有实现它的最简单方法是什么在下面的示例中我按气缸和化油器的数量显示了平均排量对于每组气缸 4 6 8
django如何将字符串转换为模块？

我试图了解 django 的另一个神奇之处它可以将字符串转换为模块 In settings py INSTALLED APPS声明如下 INSTALLED APPS django contrib auth django contrib c
删除绘图轴值

我只是想知道是否有一种方法可以消除 r 图中的轴值分别是 x 轴或 y 轴我知道axes false将摆脱整个轴但我只想摆脱编号删除 x 轴或 y 轴上的编号 plot 1 10 xaxt n plot 1 10 yaxt n 如果

随机推荐

SVG 图像的 xlink:href 属性中的与号 (&)？

我正在构建一个包含各种图像标签的 SVG 文档这xlink href图像的源 URL 属性包含带有符号的查询字符串如果我逃避他们 26或ascii编码它们不是有效的查询字符串服务器不会传送图像我无法使用 CDATA 转义它们
我的 .NET 2.0 应用程序可以继续运行多久？

Microsoft NET 框架的每个版本都有 e g 对 NET Framework 1 1 的支持于 2005 年 9 月 9 日结束对 NET Framework 2 0 的支持于 2010 年 12 月 1 日结束对 NET F
接受略有不同的 Snakemake 规则输入（.fq 与 .fq.gz）

我是 Snakemake 的新手希望能够选择一对 fq文件或一对 fq gz文件并运行它们trim galore得到一对修剪过的 fq gz输出文件在不提供所有 Snakefile 的情况下我得到了下面丑陋的解决方案我只是复制了规则
将文件从远程服务器复制到本地，反之亦然

谢谢你快速的回复但我只坚持登录我使用以下代码尝试登录 bool success LogonUser username 000 000 000 000 2 0 out userToken 但我收到失败的异常我使用用户名和密码通过 ms
将所有记录保留在“WHERE IN()”子句中，即使未找到它们

我有以下 mysql 查询 SELECT id sum views as total views FROM table WHERE id IN 1 2 3 GROUP BY id ORDER BY total views ASC If on
安装apk时INSTALL_FAILED_NO_MATCHING_ABIS

我尝试将我的应用程序安装到 Android L Preview Intel Atom 虚拟设备中但失败并出现错误 INSTALL FAILED NO MATCHING ABIS 这是什么意思 INSTALL FAILED NO MATCH
!= null 和 !== null 之间有什么区别？ [复制]

这个问题在这里已经有答案了很抱歉我确信过去有人问过这个问题但是很难搜索这样的问题和并不完全适合搜索如果有人知道重复的问题你可以指出我做和做有什么区别myVar null and myVar null 我知道 is not eq
当用户关闭浏览器时更新 MySQL 数据库

我正在为一家研究公司开发一个 Web 应用程序其中一个要求是用户一次只能在一台设备上登录因此我开发了一个非常基本的系统当您登录某些 PHP 时会将数据库中用户的行从 0 更新为 1 当您单击注销按钮时它会再次将该行从 1 更新为
是否可以将 __m128 变量中的内部值作为 C++ 类中的属性进行访问？

我想要一个使用 SSE 内在函数实现的 Vector 类表示 3 个浮点数的向量因此我不会使用 m128 类型的第四个元素但我希望能够像属性一样轻松访问它们因此 myVector x 将访问 vec 中的 0 31 位 myVect
对于案例，这些表达案例的方法中哪种最好？

这些都有效 defun testcaseexpr thecase case thecase foo format t matched foo bar format t matched bar funk format t matched fu
如何估算 BLE 模块的功耗？

我正在为带有 BLE 模块的设备编写一个 iOS 应用程序该模块在连接时一致地通告几个字节的数据我们正在尝试估算 BLE 模块的功耗以便估算设备的电池寿命我已经在 SO 和 Google 上搜索过寻找合适的方法来估计这一点但我一
如何判断一个对象是否具有给定的原型？

如何检测给定浏览器是否具有searchParams原型为URL https developer mozilla org en US docs Web API URL searchParams https developer mozilla
如何使用 python 检查带有命令行参数的进程是否正在运行

我想检查脚本是否正在使用 python 脚本中的特定命令行参数运行例如我想检查是否 main py testarg 在跑我有什么办法可以实现这个目标吗提前致谢要搜索当前正在运行的进程您应该使用诸如psutil http code
在 Web Worker 中导入 Tensorflow 时出现 Angular TypeScript 类型检查问题

我正在尝试在有角度的项目中的网络工作人员中使用tensorflow tfjs TF 使用以下命令创建网络工作者ng generate worker命令工作得很好在组件中导入 TF 也很好但是在工作人员中导入 TF 即 import a
为什么我收到“不建议在全局范围内包含 Capybara::DSL！”

每次我运行规范时即使规范通过了例如 rspec spec integration view homepage spec rb including Capybara DSL in the global scope is not recom
更改日期选择器的文本颜色

有什么方法可以改变 iOS 8 中日期选择器的文本颜色吗在 iOS 7 及更早版本中这是不可能的吗在第 8 版本中发生了一些变化例如我在雅虎天气中找到了修改后的选择器仍然有效 Swift 4 更新 datePicker setVa
某些用户从 Facebook 获取“验证访问令牌时出错”

当我尝试发布到用户流时我从 Facebook 收到以下错误 Error validating access token The session has been invalidated because the user has chang
如何在 JavaScript 中复制变量？

我有这个 JavaScript 代码 for var idx in data var row tr tr row click function alert idx table append row 因此我正在查看一个数组动态创建行创建
如何在同一个列表上迭代多个资源？

这里是 Terraform 的新手我正在尝试使用 Terraform 创建多个项目在 Google Cloud 中问题是我必须执行多个资源才能完全建立一个项目我试过count 但是如何使用顺序绑定多个资源count 以下是我需要为每
从 data.frame 中的现有变量创建几个新的派生变量

在 R 中我有一个 data frame 其中有几个变量这些变量是多年来每月测量的我想得出每个变量的月平均值使用所有年份理想情况下这些新变量将全部放在一个新的 data frame 中继承 ID 下面我只是将新变量添加到 da

从 data.frame 中的现有变量创建几个新的派生变量

从 data.frame 中的现有变量创建几个新的派生变量 的相关文章

随机推荐

热门标签

从 data.frame 中的现有变量创建几个新的派生变量的相关文章