通过根据组条件创建重复项来扩展 data.frame (3)

2024-02-06

从...开始这个问题 https://stackoverflow.com/questions/44242299/expand-data-frame-by-creating-duplicates-based-on-group-condition-2.

Example data.frame:

df = read.table(text = 'ID  Day Count   Count_group
            18  1933    6   15
            33  1933    6   15
            37  1933    6   15
            18  1933    6   15
            16  1933    6   15
            11  1933    6   15
            111 1932    5   9
            34  1932    5   9
            60  1932    5   9
            88  1932    5   9
            18  1932    5   9
            33  1931    3   4
            13  1931    3   4
            56  1931    3   4
            23  1930    1   1
            6   1800    6   12
            37  1800    6   12
            98  1800    6   12
            52  1800    6   12
            18  1800    6   12
            76  1800    6   12
            55  1799    4   6
            6   1799    4   6
            52  1799    4   6
            133 1799    4   6
            112 1798    2   2
            677 1798    2   2
            778 888     4   8
            111 888     4   8
            88  888     4   8
            10  888     4   8
            37  887     2   4
            26  887     2   4
            8   886     1   2
            56  885     1   1
            22  120     2   6
            34  120     2   6
            88  119     1   6
            99  118     2   5
            12  118     2   5
            90  117     1   3
            22  115     2   2
            99  115     2   2', header = TRUE)

The Countcol 显示总数ID每个值Day和Count_groupcol 显示总和ID每个值Day, Day - 1, Day -2, Day -3 and Day -4.

例如1933 =Count_group15 因为Count6 (1933) +Count5 (1932) +Count3 (1931) +Count1 (1930) +Count0（1929）。

我需要做的是为每个创建重复的观察Count_group并将它们添加到其中以便显示每个Count_group its Day, Day - 1, Day -2, Day -3 and Day -4.

e.g. Count_group= 15 由 Count 值组成Day1933 年、1932 年、1931 年、1930 年（和 1929 年未出现在df）。所以这五天需要包括在Count_group= 15. 下一个将是Count_group= 9，由1932年、1931年、1930年、1929年和1928年组成； ETC...

期望的输出：

ID  Day   Count Count_group
18  1933    6   15
33  1933    6   15
37  1933    6   15
18  1933    6   15
16  1933    6   15
11  1933    6   15
111 1932    5   15
34  1932    5   15
60  1932    5   15
88  1932    5   15
18  1932    5   15
33  1931    3   15
13  1931    3   15
56  1931    3   15
23  1930    1   15

111 1932    5   9
34  1932    5   9
60  1932    5   9
88  1932    5   9
18  1932    5   9
33  1931    3   9
13  1931    3   9
56  1931    3   9
23  1930    1   9

33  1931    3   4
13  1931    3   4
56  1931    3   4
23  1930    1   4

23  1930    1   1

6   1800    6   12
37  1800    6   12
98  1800    6   12
52  1800    6   12
18  1800    6   12
76  1800    6   12
55  1799    4   12
6   1799    4   12
52  1799    4   12
133 1799    4   12
112 1798    2   12
677 1798    2   12

55  1799    4   6
6   1799    4   6
52  1799    4   6
133 1799    4   6
112 1798    2   6
677 1798    2   6

112 1798    2   2
677 1798    2   2

778 888     4   8
111 888     4   8
88  888     4   8
10  888     4   8
37  887     2   8
26  887     2   8
8   886     1   8
56  885     1   8

37  887     2   4
26  887     2   4
8   886     1   4
56  885     1   4

8   886     1   2
56  885     1   2

56  885     1   1

22  120     2   6
34  120     2   6
88  119     1   6
99  118     2   6
12  118     2   6
90  117     1   6

88  119     1   6
99  118     2   6
12  118     2   6
90  117     1   6
22  115     2   6
99  115     2   6

99  118     2   5
12  118     2   5
90  117     1   5
22  115     2   5
99  115     2   5

90  117     1   3
22  115     2   3
99  115     2   3

22  115     2   2
99  115     2   2

（请注意，不同的 5 天组之间用空行分隔，以便更清晰）

我有不同的 data.frames，它们按 n 天分组，因此我想专门针对每个数据框调整代码（通过稍微更改）。

Thanks

我之前的答案的通用版本......

#first add grouping variables
days <- 5 #grouping no of days
df$smalldaygroup <- c(0,cumsum(sapply(2:nrow(df),function(i) df$Day[i]!=df$Day[i-1]))) #individual days
df$bigdaygroup <- c(0,cumsum(sapply(2:nrow(df),function(i) df$Day[i]<df$Day[i-1]-days+1))) #blocks of linked days

#duplicate days in each big group
df2 <- lapply(split(df,df$bigdaygroup),function(x) {
  n <- max(x$Day)-min(x$Day)+1 #number of consecutive days in big group
  dayvec <- (max(x$Day):min(x$Day)) #possible days in range
  daylog <- dayvec[dayvec %in% x$Day] #actual days in range
  pattern <- data.frame(base=rep(dayvec,each=days))
  pattern$rep <- sapply(1:nrow(pattern),function(i) pattern$base[i]+1-sum(pattern$base[1:i]==pattern$base[i])) #indices to repeat
  pattern$offset <- match(pattern$rep,daylog)-match(pattern$base,daylog) #offsets (used later)
  pattern <- pattern[(pattern$base %in% x$Day) & (pattern$rep %in% x$Day),] #remove invalid elements
  #store pattern in list as offsets needed in next loop
  return(list(df=split(x,x$smalldaygroup)[match(pattern$rep,daylog)],pat=pattern))
})

#change the Count_group to previous value in added entries
df2 <- lapply(df2,function(L) lapply(1:length(L$df),function(i) {
  x <- L$df[[i]]
  offset <- L$pat$offset #pointer to day to copy Count_group from
  x$Count_group <- L$df[[i-offset[i]]]$Count_group[1]
  return(x)
}))

df2 <- do.call(rbind,unlist(df2,recursive=FALSE)) #bind back together

df2[,5:6] <- NULL #remove grouping variables

head(df2,30) #ignore rownames!

       ID  Day Count Count_group
01.1   18 1933     6          15
01.2   33 1933     6          15
01.3   37 1933     6          15
01.4   18 1933     6          15
01.5   16 1933     6          15
01.6   11 1933     6          15
02.7  111 1932     5          15
02.8   34 1932     5          15
02.9   60 1932     5          15
02.10  88 1932     5          15
02.11  18 1932     5          15
03.12  33 1931     3          15
03.13  13 1931     3          15
03.14  56 1931     3          15
04     23 1930     1          15
05.7  111 1932     5           9
05.8   34 1932     5           9
05.9   60 1932     5           9
05.10  88 1932     5           9
05.11  18 1932     5           9
06.12  33 1931     3           9
06.13  13 1931     3           9
06.14  56 1931     3           9
07     23 1930     1           9
08.12  33 1931     3           4
08.13  13 1931     3           4
08.14  56 1931     3           4
09     23 1930     1           4
010    23 1930     1           1
11.16   6 1800     6          12

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

通过根据组条件创建重复项来扩展 data.frame (3) 的相关文章

从另一个数据帧创建一个数据帧（使用数据透视）

我对熊猫有疑问我有一个包含三列的数据框 id1 id2 amount 由此我想创建另一个数据框其索引为 id1 其列为 id2 单元格包含相应的金额我们来看一个例子 import pandas as pd df pd DataFr
R 编程常用工具

如果已经以不同的方式问过这个问题我深表歉意但我找不到任何达到我想要的东西我真的是从其他软件包 SPSS 开始接触 R 的当我了解真正可以做什么时我意识到我还需要其他工具这让我想到了我的问题您有哪些用于开发 R 代码的设置我
按特定样本前缀对列名称向量进行子集化

假设我有一个如下所示的数据框 ca01 lt c 1 10 ca02 lt c 2 11 ca03 lt c 3 12 stuff 1 lt rep test 10 other lt rep 9 10 data lt data frame
不同 R/lme4 版本的单一拟合结果不匹配

我试图将 R 版本 3 5 3 lme4 1 1 18 1 的随机效应估计与 R 版本 4 1 1 lme4 1 1 27 1 相匹配然而当存在奇异拟合时这两个版本之间的随机效应存在微小差异我对奇点警告很满意但令人费解的是不同版本
如何绘制大时间序列（数千次给药次数/药物剂量）？

我正在尝试绘制医院中如何开出单一药物的图解在这个虚拟数据库中我在 2017 年 1 月 1 日之后遇到了 1000 名患者绘图的目的是了解该药物的给药模式在接近入院出院或患者住院期间是否更频繁高剂量给药 Get random d
R- 将某些列从 0 标准化为 1，其值等于 0

我最近开始使用 are 我想扩展我的数据矩阵我在这里找到了一种方法在两点之间缩放系列 https stackoverflow com questions 5468280 scale a series between two points
对 data.table 中的列表列执行操作

假设我有一个data table 例如dt lt data table foo list 1 3 4 6 bar c 2 7 如何使用 dt 框架对 foo 向量列表执行操作操作可能是将 bar 添加到 foo 返回列表 3 5 11 1
R 将多个值与向量进行比较并返回向量[重复]

这个问题在这里已经有答案了我有一个向量 A 对于 A 的每个元素我想检查它是否等于第二个向量 Targets 中的任何元素我想要一个逻辑值向量其长度为 A 作为返回也提到了同样的问题here http r 789695 n4 na
从日期变量创建月末日期

我有一个包含日期变量的大型数据框它反映了该月的第一天有没有一种简单的方法来创建代表该月最后一天的新数据框日期变量以下是一些示例数据 date start month seq as Date 2012 01 01 length 4 by
无法更新/编辑从 R 中的包（`gratia`）导出的 ggplot2 对象

我希望我在这里遗漏了一些令人痛苦的明显的东西我希望更新例如修复标题实验室等由生成的 ggplot 对象gratia draw 不太确定为什么我无法更新该对象有一个简单的解决方案吗 devtools install github
如何在 R 中合并同名列表中的数据框？

我有一个包含很多数据框的列表如果它们具有相同的名称我想合并它们即合并所有具有相同名称 a 和 b 的数据框像这样 a lt aaaaa b lt bbbbb c lt ccccc g lt list df1 lt data fram
R中的字典数据结构

在 R 中我有例如 gt foo lt list a 1 b 2 c 3 如果我输入foo I get a 1 1 b 1 2 c 1 3 我怎样才能看透foo仅获取键列表在这种情况下 a b c R 列表可以具有命名元素因此可
为什么数据帧上的 is.vector 不返回 TRUE？

tl dr R 中的向量到底是什么长版 R 中很多东西都是向量例如数字是长度为 1 的数值向量 is vector 1 1 TRUE 列表也是一个向量 is vector list 1 1 TRUE 好的所以列表是一个向量显然数
获取GridView中选定行的索引

我想使用复选框获取从 gridview 选择的行复选框是这样的
R - 计算 bin 中特定值的数量

我有一个如下所示的数据框 df Value lt c 1 1 0 2 1 3 4 0 0 1 2 0 3 0 4 5 2 3 0 6 Sl lt c 1 20 df lt data frame Sl Value gt df Sl Value
访问或解析 R 中的 summary() 中的元素

我运行以下 R 命令来进行 Dunnett 测试并获取摘要如何访问下面线性假设的每一行这是摘要输出的一部分基本上我不知道摘要的结构我尝试使用名称但它似乎不起作用因为我没有看到任何命名属性来提供这一点 library multco
如何在 data.table 中分组后使用条件计算行数

我有以下数据框 dat lt read csv s1 s2 v1 v2 a b 10 20 a b 22 NA a b 13 33 c d 3 NA c d 4 5 NA c d 10 20 dat gt A tibble 6 x 4 gt
Pandas 将多行列数据帧转换为单行多列数据帧

我的数据框如下 code df Car measurements Before After amb temp 30 268212 26 627491 engine temp 41 812730 39 254255 engine eff 15
如何在 Shiny 中提取动态生成的输入值？

我正在创建一个闪亮的应用程序它将根据客户的不同功能为客户生成分数在我闪亮的应用程序中我提供了 checkboxGroupInput 来选择所需的功能根据所选功能应用程序将动态地将 numericInput 添加到 Web ui 以
如何按用户定义（例如非字母顺序）对数据框进行排序[重复]

这个问题在这里已经有答案了给定一个数据框dna gt dna chrom start chr2 39482 chr1 203918 chr1 198282 chrX 7839028 chr17 3874 以下代码重新排序dna by ch

随机推荐

在 Github Action 中如何引用私有包进行测试？

我已经为 Github Action 编写了一个测试文件 test yml name Test on push branches main pull request branches main jobs build runs on ubun
如何从 Volley 中的 JSONObject 获取字符串响应

我使用volley创建了JSONRequest 它成功命中了服务我检查了服务端它接收了数据并发送成功作为回报问题是服务返回String在输出中 Volley 除了一些JSON Data在输出中所以它执行onError方法而
在换行符上可靠地分割用户提交的文本区域值[重复]

这个问题在这里已经有答案了字符串输入来自文本区域用户应该在新行上输入每个项目处理表单时很容易将文本区域输入分解为单个项目的数组如下所示 arr explode n textareaInput 它工作正常但我担心它在不同系统中无法
ASP.NET MVC C# 路由 - 传递空整数

我正在 Web 应用程序中使用 MVC 3 但遇到路由问题我像这样定义我的路由器处理程序 routes MapRoute Users controller aspx action id page URL with parameters n
（仍然没有答复）django复选框在数据库中保存是或否
UISearchController 不会关闭 iOS 8 Swift 的搜索栏和重叠

我在使用 UISearchController 时遇到问题如果我在搜索栏中有文本并关闭它所在的 VC 则 searchBar 不会消失只会保留在屏幕上与其他 VC 中的所有内容重叠如果您点击取消按钮它就会崩溃已经尝试了一些解决方
如何使用捆绑包标识符将系统首选项启动到特定的首选项窗格？

我正在尝试直接从我的应用程序打开系统日期和时间首选项我似乎可以使用以下命令毫无问题地打开系统偏好设置 let settingsBundleIdentifier com apple systempreferences NSWorkspace
HttpClient StreamContent 附加文件名两次

我正在使用 Microsoft Http 客户端库从 Windows Phone 8 向服务器发出多部分请求它包含具有 json 字符串的 String 内容和具有图像流的 Stream Content 现在我得到状态正常并请求在服务器上
git - 如何从 git merge --log 获取完整消息

使用后git merge log no ff no commit or git merge log squash 创建一个长提交消息但消息被切断了即最后并没有列出所有提交我如何获得完整的消息我检查了文件 git MERGE HEA
TFS 2017 - 建立代理优先级和顺序

我有一个包含 10 个代理的池我注意到通常只有其中一些被使用而其他仍然存在的几乎从未被使用过我想知道是否有办法让 TFS 使用所有这些例如 TFS 之类的东西会根据顺序抓取它们第一次使用数字 1 然后是 2 3 使用代理后它将代
如何将 HTML 选择选项文本分组到列中

我有一个 HTML 选择选项其中的文本我想分组为对齐的列我尝试使用内联块
处理已弃用的“adminmedia”模板标签和 {% admin_media_prefix %} 的适当方法

从 django 1 5 开始 https docs djangoproject com en 1 5 releases 1 5 miscellaneous https docs djangoproject com en 1 5 relea
用 Java 编写未知（大）大小的 Tar 文件

我想用 Java 将未知大小的大流写入 tar 文件我知道阿帕奇有公共压缩库 http commons apache org compress which 处理 tar 文件 http commons apache org compres
在 WooCommerce 可变产品中的每个属性值旁边显示库存状态

我想在我的商店中实现类似的东西我有这个代码但是每个变体旁边都显示数量 function get stock variations from product global product variations product gt get
使用 Serde 反序列化跳过序列中的无效元素

使用 Serde 我想通过保留有效元素并跳过无效元素来反序列化元素序列我有以下有效负载 nhits 30 parameters dataset occupation parkings temps reel timezone UTC row
使用 NSString + stringWithContentsOfFile:usedEncoding:error:

我遇到了 use stringWithContentsOfFile usedEncoding error 问题我在usedEncoding中的问题 NSStringEncoding enc 我不知道如何设置指向编码的指针如果我成功了程
如何对 jsonb 键执行 LIKE 查询？

我有以下 jsonb 结构 this 1 this that 0 this and that 5 如何选择包含 LIKE 运算符的行 SELECT FROM myjson WHERE j this 返回 0 行希望它能匹配 this th
如何使用 gulp 构建 JavaScript 包？

我想用gulp http gulpjs com 构建 JavaScript 文件包例如我的项目中有以下结构供应商供应商1 供应商1 js 供应商供应商2 供应商2 js js includes include1 js js inc
如何从现有的基本模型实例创建继承的 django 模型实例？

我有两个 Django 模型像这些 https docs djangoproject com en dev topics db models multi table inheritance class Place models Model
通过根据组条件创建重复项来扩展 data.frame (3)

从开始这个问题 https stackoverflow com questions 44242299 expand data frame by creating duplicates based on group condition 2

通过根据组条件创建重复项来扩展 data.frame (3)

通过根据组条件创建重复项来扩展 data.frame (3) 的相关文章

随机推荐

热门标签