根据特定标准在 DataFrame 中包含/排除行

2024-03-16

我有大量数据，其中包含许多个体的病理测试数据。我提供了一个按比例缩小的数据集来描述案例类型。

library(plyr)
library(tidyr)
library(dplyr)
library(lubridate)

options(stringsAsFactors = FALSE)
dat <- structure(list(PersID = c("am1", "am2", "am2", "am3", "am3", "am4", "am4", "am4", "am4", "am4", "am4"), Sex = c("M", "F","F", "M", "M", "F", "F", "F", "F", "F", "F"), DateTested = c("21/10/2015", "9/07/2010", "24/09/2010", "23/10/2013", "25/10/2013", "28/04/2010", "23/06/2010", "21/07/2010", "20/10/2010", "4/03/2011", "2/12/2011"), Res = c("NR", "R", "R", "NR", "R", "R", "R", "R", "R", "R", "R"), Status = c("Yes", "No", "No", "Yes", "Yes", "No", "No", "No", "No", "No", "No"), DateOrder = c(1L, 1L, 2L, 1L, 2L, 1L, 2L, 3L, 4L, 5L, 6L)), .Names = c("PersID", "Sex", "DateTested", "Res", "Status", "DateOrder"), class = "data.frame", row.names = c(NA, -11L))

该数据描述了三种类型的人（1）仅具有单一结果的人（2）具有 2 个结果的人以及（3）具有多个结果的人。

我的目标是提出一个脚本，该脚本仅包含根据一组标准的个人行。从技术上讲，这是一种仅对后续结果在指定的再感染期（30 天）内的个体进行行计数的方法。

我已将数据转换为列表，并向其传递了许多函数以开始处理数据。

dat$DateTested <- dmy(dat$DateTested)
datList <- dlply(.data=dat, .variables=c('PersID'))

到目前为止我所做的是：

选择每人只有一个结果的所有行

fnSingleTests <- function(y){
    y <- y[length(y$DateOrder)==1,]
}

singleTests <- ldply(datList, fnSingleTests, .id = NULL)

将数据框转换为列表并传递一个函数确定 (a) 30 天内每人是否有两行再感染期，则选择第一个，(b)如果有每人两行以上，最后一条记录和第一条记录记录在30天内，只保留第一个。

fnMultiTests <- function(y){
    y <- y[length(y$DateOrder) > 1,]
}

multiTests <- llply(datList, fnMultiTests)

fnMultiTestsSplit <- function(y){

    test <- difftime(y$DateTested[length(y$DateTested)], y$DateTested[1], units='days')


    if (nrow(y) <=2){

        if (test < 31){
            y <- y[y$DateOrder == 1, ]
            y <- y[!is.na(y$PerdID), ]
        } else {
            y <- y[y$DateOrder %in% 1:2, ]
            y <- y[!is.na(y$PersID), ]
        }

    } else  {
        if (test < 31){
            y <- y[y$DateOrder == 1, ]
            y <- y[!is.na(y$PersID), ]
        } else {
            break()
        }

    }
}

finalTests <-  ldply(multiTests, failwith(NULL, fnMultiTestsSplit, quiet = TRUE), .id = NULL)

然后我可以将数据帧与 rbind 结合起来：

allFinalTests <- rbind(singleTests, finalTests)

我遇到困难的是每人超过两行的情况，并且在连续的行中可能存在一段时间大于 30 天的再感染期的情况。

任何人都可以建议我如何扩展此代码以仅包含两个以上的情况PersID然后仅包含在 30 天再感染期之外发生后续病例的结果。

具体来说，从最旧的案例开始，如果下一个案例在 30 天内，则排除第二个案例，或者如果第二个案例距离前一个案例超过 30 天，则包括这两个案例。它应该对相同的所有情况执行此操作PersID

在此示例中，我要查找的最终输出是：

PersID  Sex DateTested  Res Status  DateOrder
am1 M   21/10/2015  NR  Yes 1
am2 F   9/07/2010   R   No  1
am2 F   24/09/2010  R   No  2
am3 M   23/10/2013  NR  Yes 1
am4 F   28/04/2010  R   No  1
am4 F   23/06/2010  R   No  2
am4 F   20/10/2010  R   No  4
am4 F   4/03/2011   R   No  5
am4 F   2/12/2011   R   No  6

在基础 R 中，我将按如下方式处理它：

# convert the 'DateTested' column to a date-format
dat$DateTested <- as.Date(dat$DateTested, format = "%d/%m/%Y")
# calculate the difference in days with the previous observation in the group
dat$tdiff <- unlist(tapply(dat$DateTested, INDEX = dat$PersID,
                           FUN = function(x) c(0, `units<-`(diff(x), "days"))))
# filter the observations that have either a timedifference of zero or more 
dat[(dat[,"tdiff"]==0 | dat[,"tdiff"] > 30),]

这使：

   PersID Sex DateTested Res Status DateOrder tdiff
1     am1   M 2015-10-21  NR    Yes         1     0
2     am2   F 2010-07-09   R     No         1     0
3     am2   F 2010-09-24   R     No         2    77
4     am3   M 2013-10-23  NR    Yes         1     0
6     am4   F 2010-04-28   R     No         1     0
7     am4   F 2010-06-23   R     No         2    56
9     am4   F 2010-10-20   R     No         4    91
10    am4   F 2011-03-04   R     No         5   135
11    am4   F 2011-12-02   R     No         6   273

使用数据表包裹：

library(data.table)
# convert the 'data.frame' to a 'data.table'
# and convert the 'DateTested' column to a date-format
setDT(dat)[, DateTested := as.Date(DateTested, format = "%d/%m/%Y")]
# calculate the difference in days with the previous observation in the group
dat[, tdiff := c(0, `units<-`(diff(DateTested), "days")), PersID]
# filter the observations that have either a timedifference of zero or more than 30 days
dat[(tdiff==0 | tdiff > 30)]

这会给你相同的结果。您还可以将其链接在一起，如下所示：

setDT(dat)[, DateTested := as.Date(DateTested, format = "%d/%m/%Y")
           ][, tdiff := c(0, `units<-`(diff(DateTested), "days")), by = PersID
             ][(tdiff==0 | tdiff > 30)]

并使用dplyr:

library(dplyr)
dat %>% 
  mutate(DateTested = as.Date(DateTested, format = "%d/%m/%Y")) %>%
  group_by(PersID) %>%
  mutate(tdiff = c(0, `units<-`(diff(DateTested), "days"))) %>%
  filter(tdiff == 0 | tdiff > 30)

这也会给你相同的结果。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

DataFrame

根据特定标准在 DataFrame 中包含/排除行的相关文章

使用 ff 包导入文本文件

我有一个包含 450 万行和 90 列的文本文件要导入到 R 中 read table我得到了cannot allocate vector of size 错误消息因此我尝试使用 ff 包导入然后再对数据进行子集化以提取我感兴趣的观察结
如果 dtype 是类别，pivot_table 需要更多内存（MemoryError）

我对 pandas pandas 0 23 1 有以下奇怪的错误 import pandas as pd df pd DataFrame t1 a b c 10000 t2 x y z 10000 i1 list range 5000 6
多索引上的 pandas dataframe groupby

我正在使用 Pandas dataframe 来读取 Excel 文件并对其进行一些操作我有一个包含多行的标题现在我想按几个列值进行分组但是我无法找到解决方案 Excel 示例 name address contact info fi
R - 按列比较两行并将结果写入表中

我是 R 新手可能我的问题的解决方案非常简单但目前我无法实现我想按列比较数据框中的行每列中的数据是一个字母核苷酸碱基 seq1 A C T G T seq2 A C G G G seq3 A G G C A 我想按列比较数据集中的
rollapply 可以返回矩阵列表吗？

我想使用滚动窗口生成协方差矩阵和均值向量但在我所有的尝试中rollapply堆叠协方差矩阵cov并且耗尽了预先分配的空间例如如果我的原始数据有 40 个观察值那么rollapply不能返回超过 40 行有什么方法可以让我得到ro
如何在 purrr::map_df 之后使用映射向量添加列

我使用 mtcars 数据集作为示例来说明我的问题我对每种气缸类型进行了线性回归并使用 map df 将所有模型结果放在一起下面的代码和输出我想要做的是添加另一列名为圆柱体 4 4 6 6 8 8 我怎样才能在map df中做到这
如何强制geom_point在R中显示比例大小？

我的数据如下抱歉有点大 test dput 我还有一个绘制这些数据的代码这里的问题是它没有给我比例大小read counts value多变的我怎样才能解决这个问题谢谢 my code p ggplot test dput aes
data.table 和 pmin 带有 na.rm=TRUE 参数

我正在尝试使用 pmin 函数和 data table 计算行间的最小值类似于帖子data table 中的逐行操作和更新 https stackoverflow com questions 16860200 row by row ope
R 脚本 - 如何在错误时继续执行代码

我编写了一个 R 脚本其中包含一个检索外部 Web 数据的循环数据的格式大多数时候是相同的但有时格式会以不可预测的方式发生变化并且我的循环崩溃停止运行有没有办法不管错误如何继续执行代码我正在寻找类似于 VBA 中的 On er
ggplot2 stat_function，具有针对facet_grid内不同数据子集的计算参数

我有一个关于如何通过的后续问题fitdistr计算参数为stat function see here https stackoverflow com questions 24949065 multiple stat function on
如何计算大型数据集的平均值

我正在使用一个数据集该数据集每天 24 小时每小时读取一次温度读数已有 100 多年的历史我想获得每天的平均温度以减少数据集的大小标题看起来像这样 YR MO DA HR MN TEMP 1943 6 19 10 0 73 1943
R数据表：如何找到特定单元格正下方的未知数量的空单元格并用编号字符串填充它们

我知道如何找到空的cells in a data table一般来说但这有点棘手我还没有完全弄清楚如何管理它可以说我有一个data table其中在df 2 1 包含我需要定位的关键字字符串智能触发在这种情况下仪器用户使用的智能
使用 Spark 版本 2.2 的 row_number() 函数创建 PySpark DataFrame 中每行的行号

我有一个 PySpark DataFrame valuesCol Sweden 31 Norway 62 Iceland 13 Finland 24 Denmark 52 df sqlContext createDataFrame valu
如何对每行具有不同列位置的矩阵进行子集化？ [复制]

这个问题在这里已经有答案了我想为每一行使用不同的但一列列来对矩阵进行子集化那么申请可以完成这项工作吗但也许智能子集也可以工作但我还没有找到解决方案计算时间是一个问题我有一个带有 for 循环的解决方案但多次将矩阵加载到 R
我无法通过无功输入使 ggvis 秤保持固定

我正在尝试创建一个闪亮的应用程序允许用户选择某些组来绘制 ggvis 图我遇到的问题是如果我将反应数据映射到点的属性如点填充形状等则每次用户更新组时比例都会重置因此组标识到填充颜色的映射不会保持不变我尝试通过硬编码组 ID
ggplot - 标签为计算的增加 (%)

我已经开发了一个 ggplot 图但现在我正在尝试添加计算标签该标签显示同比增长百分比我的数据框非常简单主数据集聚合的结果 data frame 4 obs of 3 variables Year int 2011 2012 201
从第二个 DF 中查找一个 DF 中属于同等大小的矩形（由两个点给出）的点的快速（矢量化）方法

我的数据框 A 如下所示 type latw lngs late lngn 0 1000 45 457966 9 174864 45 458030 9 174907 1 1000 45 457966 9 174864 45 458030 9
R：连接到 Teradata 时 JDBC() 找不到 Java 驱动程序路径

我正在尝试通过 RStudio 连接到 Teradata 但由于某种原因 JDBC 函数在识别 Java 驱动程序所在的路径时出现问题请参阅下面的代码 library RODBC library RJDBC library rJava b
具有不同侧边栏的选项卡

我正在尝试创建一个带有多个选项卡的闪亮应用程序每个选项卡都有自己的侧边栏我还没能让它发挥作用任何有关错误的帮助将不胜感激下面是代码 ui lt fluidPage titlePanel Hi sidebarLayout positi
python - 从完整地址获取邮政编码

我有一个数据框其中一列中有完整地址我需要创建一个仅包含邮政编码的单独列有些地址只有五位数字的邮政编码而其他地址则有额外的四位数字如何拆分列以获取邮政编码示例数据 d name bob john address 123 6th S

随机推荐

Python 3 to_bytes 是否已向后移植到 python 2.7？

这是我想要的功能 http docs python org 3 library stdtypes html int to bytes http docs python org 3 library stdtypes html int to b
如何使用 Velocity 模板正确显示西班牙语字符？

我正在使用 Velocity 和消息资源包来生成 html 页面当我指定墨西哥作为我的区域设置时我的 messages es MX properties 将被处理为消息资源的源这正如我所期望的那样但字符无法正确显示我的消息属性
为什么我收到 emulator-5554 已断开连接消息

当我启动 Android 模拟器时需要一些时间然后它会显示 emulator 5554 已断开连接消息谁能告诉我问题是什么 Open the Device view of Android in Eclipse IDE Then cli
Theano 导入错误：没有名为 cPickle 的模块

gt gt gt import theano Traceback most recent call last File
是否可以将用户定义的聚合（clr）与窗口函数（over）一起使用？

是否可以将用户定义的聚合 clr 与窗口函数 over 一起使用在文档中找不到答案 http technet microsoft com en us library ms190678 aspx http technet microsoft
如何使用 SQL 中的选择查询生成 csv 文件 [重复]

这个问题在这里已经有答案了可能的重复如何使用 sqlcmd 从 SQL Server 将数据导出为 CSV 格式 https stackoverflow com questions 425379 how to export data a
安装 r-base；依赖：r-建议缺失？

你好我正在尝试为 Ubuntu 16 04 安装 r base 我已按照以下步骤操作https cran r project org bin linux ubuntu README html https cran r project or
ExtJS 4.1 MVC：如何在加载时将 LoadMask 应用于视口？

如何申请LoadMask http docs sencha com ext js 4 1 api Ext LoadMask for a 标准 ExtJS MVC 应用程序 http docs sencha com ext js 4 1 gu
Kubernetes Minikube hostPath 安装未重新加载

我有一个通过 Minikube 在本地运行的 Kubernetes 集群我的 Mac 上有一个本地文件夹通过 hostPath 卷配置安装并且可以访问位于以下位置的 Docker 容器 code bot 我可以创建一个服务并加载网页
仅设计时错误：WPF“StaticExtension”异常

我有这个组合框
cookie 如何影响 Varnish 缓存？

Varnish 缓存如何影响 Omniture 设置的第三方 Cookie 和 Google Analytics 设置的第一方 Cookie 到目前为止我看到了反对的意见有些人说因为跟踪统计数据是由 JavaScript 创建的这是事
如何在ansible中为不同主机使用另一个任务中一个任务的返回值

我试图使用ansible为由2个mysql主机组成的主机组设置mysql主从复制这是我的场景我在第一台主机上运行一个任务并跳过第二台主机因此第一个任务即主复制状态返回一些值例如位置文件等然后我在第二个主机中运行另一个任务
java.lang.IllegalArgumentException：输入== null！使用 ImageIO.read 将图像加载为 bufferedImage 时

这个问题在这个网站上已经被问了大约 100 次但我已经查看了所有这些问题尽管它们都得到了解决但没有一个解决方案对我有用我的代码如下所示 public Button1 Client client String imgName this
如何获取 GitHub Actions 中特定步骤的输出？

我有一个运行测试的 GitHub Actions 工作流程但现在我在其中集成了松弛通知我想得到的输出Run tests步骤并在松弛步骤中将其作为消息发送 name Run tests run mix compile warnings a
将 JSON 数组从 C# 传递到 jQuery

我正在做 jQuery 自动完成如果我放置硬编码的 JSON 数组则效果很好但是当我从 C 传递数组时它失败了请帮忙我花了足够的时间来处理它但我被困住了这是我在 AutoComplete aspx 中的 jQuery 代码
在C中，malloc(256)和malloc(sizeof(char)*256)等价吗？

我看到人们经常编写 C 代码例如 char ptr malloc sizeof char 256 这真的有必要吗标准说sizeof char 1根据定义这样写是不是有意义 char ptr malloc 256 是的 C 定义了siz
为什么用户/代理不能选择电子邮件地址或号码？

Chrome 推出了对数字输入的更改导致我的测试中出现此错误 Uncaught InvalidStateError Failed to read the selectionStart property from HTMLInputElem
如何向 Spring Soap 客户端添加自定义安全标头

我正在开发一个带有肥皂客户端的 Spring Boot 应用程序尝试连接到使用标头保护的肥皂网络服务以便我尝试使用基于Wss4j安全拦截器这是我的客户端配置当我调用 Soap WS 时出现以下错误 org springframewo
最佳 STL 转换 - 类似三元运算符的模板函数

STL定义了两种风格转换 http www cplusplus com reference algorithm transform 功能第一个是对于一元运算符 template
根据特定标准在 DataFrame 中包含/排除行

我有大量数据其中包含许多个体的病理测试数据我提供了一个按比例缩小的数据集来描述案例类型 library plyr library tidyr library dplyr library lubridate options strings

根据特定标准在 DataFrame 中包含/排除行

根据特定标准在 DataFrame 中包含/排除行 的相关文章

随机推荐

热门标签

根据特定标准在 DataFrame 中包含/排除行的相关文章