带有 dplyr::do 的匿名函数 - 使用 rle 的结果来过滤数据

2024-05-01

我有按主题（“id”）分组的时间序列数据，这些数据保留在某个“站点”上，并且在每个“时间”步骤中都有某个“阶段”。

有时受试者从一个站点切换到另一个站点，并且可能会再次返回。如果个人更换站点来回（例如，从站点“a”到站点“b”，然后返回站点“a”）and如果只有中间站点一次注册（在 a-b-a 转换中，站点“b”将被视为“中间站点”）and该个人处于一定阶段（此处，阶段 = 2）在中间站点，那么我希望remove此时的注册步骤。

我的虚拟数据由四个主题组成。其中三人（对象 1-3）从地点 a 移至地点 b，然后又回到地点 b，其中一名从地点移至地点 b。

前两个科目都在中间站点上进行了单一注册。主题 1 处于中间站点的第 1 阶段，我希望保留该注册。另一方面，主题 2 处于中间站点的第 2 阶段，应删除此注册。对象3也在a和b之间来回移动。然而，虽然处于中间站点b的第2阶段，但它已经two那里的注册并且两个注册都被保留。对象 4 已从地点 a 移至地点 b，但没有再回来。因此，虽然b站点处于第2阶段，但b站点的注册不是“中间站点”，应该保留。

数据：

df <- structure(list(id = c(1, 1, 1, 2, 2, 2, 3, 3, 3, 3, 4, 4),
                     time = c(1L, 2L, 3L, 1L, 2L, 3L, 1L, 2L, 3L, 4L, 1L, 2L),
                     site = c("a", "b", "a", "a", "b", "a", "a", "b", "b", "a", "a", "b"),
                     stage = c(1, 1, 1, 1, 2, 1, 1, 2, 2, 1, 1, 2)),
                     .Names = c("id", "time", "site", "stage"),
                row.names = c(NA, -12L), class = "data.frame")

df

#    id time site stage
# 1   1    1    a     1
# 2   1    2    b     1 <~~ A single middle registration on site 2
# 3   1    3    a     1     However, the individual is in stage 1: -> keep 

# 4   2    1    a     1
# 5   2    2    b     2 <~~ A single middle registration on site 2 with stage 2: -> remove
# 6   2    3    a     1

# 7   3    1    a     1
# 8   3    2    b     2 <~~ Two middle registrations with stage 2: -> keep both rows 
# 9   3    3    b     2 <~~
# 10  3    4    a     1

# 11  4    1    a     1 
# 12  4    2    b     2 <~~ A single registration on site 2 with stage 2,
#                            but it is not in between two sites: -> keep

因此，在测试数据中，只有 id = 2 在 time = 2 时的注册应该被删除。

之前我用过plyr::ddply并得出结果rle解决问题：

对于每个人，计算站点的游程长度（rle(x$site))
If:
- 在站点之间来回（例如从 a 到 b，然后返回 a）（length(r$values) > 2) &
- 中间站点只有一次注册（r$lengths[2] == 1) &
- 中间站点的舞台为 2 (x$stage[x$site == r$values[2]][1] == 2)
Then：删除中间站点的注册x[!(x$site == r$values[2]), ])

library(plyr)

ddply(df, .(id), function(x){
  r <- rle(x$site)
  if(length(r$values) > 2 & r$lengths[2] == 1 & x$stage[x$site == r$values[2]][1] == 2){
    x[x$site != r$values[2], ]
  } else x
})

#    id time site stage
# 1   1    1    a     1
# 2   1    2    b     1
# 3   1    3    a     1

# 4   2    1    a     1 <~~ the single middle site with stage = 2 at time 2 is removed
# 5   2    3    a     1 <~~

# 6   3    1    a     1
# 7   3    2    b     2
# 8   3    3    b     2
# 9   3    4    a     1

# 10  4    1    a     1
# 11  4    2    b     2

detach("package:plyr")

现在我在正确处理这个问题时遇到了一些麻烦dplyr。我在 SO 上找到了一些相关帖子（例如this https://stackoverflow.com/questions/22182442/dplyr-how-to-apply-do-on-result-of-group-by/22182914#22182914 and this https://stackoverflow.com/questions/24376765/dplyrdo-requires-named-function），以及在 github 上（this https://github.com/hadley/dplyr/issues/574 and this https://github.com/hadley/dplyr/issues/418），但我很难使它们适应我的需要。以下是一些绝望的尝试：

library(dplyr)

df %>%
  group_by(id) %>%
  do((function(x){
    r = rle(x$site)
    if(length(r$values) > 2 & r$lengths[2] == 1 & df$stage[df$site == r$values[2]][1] == 2){
    filter(x, x$site != r$values[2])
  } else x
})(.))
# desired row is not removed

df %>%
  group_by(id) %>%
  do(function(x){
    r = rle(x$site)
    if(length(r$values) > 2 & r$lengths[2] == 1 & df$stage[df$site == r$values[2]][1] == 2){
      x[!(x$site == r$values[2]), ]
    } else x
  })
# Error: Results are not data frames at positions: 1, 2, 3

此尝试恰好有效（结果与ddply上面），但远非优雅，我怀疑这是“正确的方式”：

df %>%
  group_by(id) %>%
  do(r = rle(.$site)) %>%  
  do(data.frame(id = .$id,
                len = length(.$r$values),
                site = .$r$values[2],
                len2 = .$r$lengths[2])) %>%
  filter(len == 3, len2 == 1) %>%
  select(-len) %>%
  left_join(df, ., by = c("id", "site")) %>%
  filter(!(len2 %in% 1 & stage == 2)) %>%
  select(-len2)

How to do这对吗？万维网？

我不确定我是否完全理解代码背后的逻辑，但这可能是获得相同结果的另一种方法，也许需要一些修改：

df %>% 
  group_by(id) %>%
  group_by(grp = cumsum(abs(c(1, diff(as.numeric(site))))), add = TRUE) %>%
  filter(!(grp == 2 & n() == 1 & stage == 2))

#Source: local data frame [9 x 5]
#Groups: id, grp
#
#  id time site stage grp
#1  1    1    a     1   1
#2  1    2    b     1   2
#3  1    3    a     1   3
#4  2    1    a     1   1     <~~ row in between 
#5  2    3    a     1   3     <~~ was removed
#6  3    1    a     1   1
#7  3    2    b     2   2
#8  3    3    b     2   2
#9  3    4    a     1   3

此方法假设“中间组”始终是第二个“grp”。

创建一个函数可能会更好 - 我将调用它intergroup()因为它在分组数据内创建组，并使用它：

intergroup <- function(var, start = 1) {
  cumsum(abs(c(start, diff(as.numeric(as.factor(var))))))
}

df %>% 
  group_by(id) %>%
  group_by(grp = intergroup(site), add = TRUE) %>%
  filter(!(grp == 2 & n() == 1 & stage == 2))

OP问题更新后编辑。

针对调整后的问题尝试以下调整后的代码：

df %>% 
  group_by(id) %>%
  mutate(z = lag(site, 1) != lead(site, 1)) %>%   # check if site before and after are not the same
  group_by(grp = intergroup(site), add = TRUE) %>%
  filter(!(grp == 2 & n() == 1 & stage == 2 & !is.na(z))) %>%  # check for NA in z
  ungroup() %>% select(-c(z, grp))  

#Source: local data frame [11 x 4]
#
#   id time site stage
#1   1    1    a     1
#2   1    2    b     1
#3   1    3    a     1
#4   2    1    a     1
#5   2    3    a     1
#6   3    1    a     1
#7   3    2    b     2
#8   3    3    b     2
#9   3    4    a     1
#10  4    1    a     1
#11  4    2    b     2    <~~ row is kept

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

dplyr

带有 dplyr::do 的匿名函数 - 使用 rle 的结果来过滤数据的相关文章

使用点阵个性化 R 上显示的 X 轴值

我收集了大量包含日期客户端及其 NFS 使用情况的数据我正在使用lattice R包进行绘图正如对超级用户的建议 https superuser com questions 523195 plot custom log data on
R：如何将字符/数字转为1，NA转为0？

有没有一种简单的方法可以将列的字符数字变为 1 将 NA 变为 0 这里有一些示例数据我想将其应用于 3 4 structure list Item Code c 176L 187L 191L 201L 217L 220L Item x
如何在 R 中的 dygraph 标题中使用 UTF-8 字符

使用 Rstudio Windows8 当我使用 dygraph 函数绘制时间序列时在尝试在主标题中使用 UTF 8 字符时遇到问题 library dygraphs dygraph AirPassengers main T tulo 这
R 改变构面的顺序

我正在尝试将方面的顺序从 BA SLG 更改为 SLG BA 我发现了与此类似的问题但我认为我的解决方案可能不起作用因为我已经在Excel中汇总了数据因此我的数据框可能会有所不同无论如何我尝试实现这个但无济于事 df2 lt f
无法编译包“maps”

当我安装 maps 包时安装中出现警告 ld warning ignoring file Library Developer CommandLineTools SDKs MacOSX10 14 sdk usr lib libSystem
无法将“gather”输出的列名称更改为默认名称以外的任何名称

我正在尝试使用gather in the tidyr包但我无法更改默认名称的输出列名称例如 df data frame time 1 100 a 1 100 b 101 200 df long df gt gather foo bar
R 数据结构的运算效率

我想知道是否有任何关于操作效率的文档R 特别是那些与数据操作相关的例如我认为向数据框添加列是有效的因为我猜您只是向链接列表添加一个元素我想添加行会更慢因为向量保存在数组中C level你必须分配一个新的长度数组n 1并将所有元素复
在闪亮的数据表中为每个单元格显示工具提示或弹出窗口？

有没有什么方法可以为 r闪亮数据表中的每个单元格获取工具提示有很多方法可以获取悬停行或列但我找不到一种方法来获取行和列索引并为每个单元格显示不同的悬停工具提示任何人都可以修改以下代码吗 library shiny library DT
如何在R中分离两个图？

每当我运行这段代码时第一个图就会简单地覆盖前一个图 R中有没有办法分开得到两个图 plot pc title main abc xlab xx ylab yy plot pcs title main sdf xlab sdf ylab x
更改ggplot2中的字体

曾几何时我改变了我的ggplot2字体使用windowsFonts Times windowsFont TT Times New Roman 现在我无法摆脱这一切在尝试设置family in ggplot2 theme 当我用不同的字
如何在R中实现countifs函数（excel）

我有一个包含 100000 行数据的数据集我尝试做一些countifExcel 中的操作但速度慢得惊人所以我想知道R中是否可以完成这种操作基本上我想根据多个条件进行计数例如我可以指望职业和性别 row sex occupati
闪亮井板宽度

library shiny library shinydashboard ui lt dashboardPage dashboardHeader dashboardSidebar dashboardBody wellPanel tags d
R 颜色 - 许多独特的颜色仍然很漂亮

我很好奇你是否有一些关于 R 中颜色酿造的技巧对于许多独特的颜色在某种程度上图形仍然好看我需要相当数量的独特颜色至少 24 种可能需要更多 50 种用于堆叠区域图所以不是热图渐变颜色不起作用我发现了 viridis 它的调
rpart 决策树中的 rel 误差和 x 误差有什么区别？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我有一个来自 UCI 机器学习数据库的纯分类数据框https archive ics uci edu ml datasets Diabet
如何使用 ggplotGrob 创建自定义图例？

我发布了一个question https stackoverflow com questions 29174774 how to create legend text elements being different colours in
如何使用 ggplot2 将 IPCC 点画添加到全球地图

我需要将 IPCC style 点画添加到全球地图中如下所示这个帖子 https stackoverflow com questions 11736996 adding stippling to image contour plot 不过
将动物园转换为数据框

我转换了一个zoo time series到数据框中R日期成为数据框的索引有没有办法将日期表示为数据框中的普通列 monthly df lt data frame monthly zoo head monthly zoo head mon
在 R 中显示变量的精确值

gt x lt 1 00042589212565 gt x 1 1 000426 如果我想打印的确切值x 我该怎么办呢抱歉如果这是一个愚蠢的问题我尝试在谷歌上搜索 R 和精确或圆形但我得到的只是有关如何舍入的文章先感谢您所
聚合函数在数据框中创建不需要的向量

我在函数中创建数据帧时遇到了一个奇怪的问题但是在 data frame 之外使用相同的方法效果很好这是基本函数我用它来计算数据集的平均值标准差和标准误差 aggregateX lt function formula dataset
导入 .sav 时出现警告/错误

我工作中有两个版本的 SPSS SPSS 11 在 Windows XP 上运行 SPSS 20 在 Linux 上运行 SPSS 的两个副本都工作正常使用任一版本的 SPSS 创建的文件在其他版本的 SPSS 上打开时不会出现任何问题

随机推荐

C# HttpWebRequest 服务器未返回完整响应

我正在向返回带有数据的 HTML 的服务器发出 HTTP 请求但有时它会停在中间没有任何明确的解释例如响应结束 Content length 14336 chars p p br ul ul example com var auth
如何将 ipython 笔记本线程发布到 WordPress 博客中？

我知道 nbconvert 并且我能够将笔记本文件转换为 html 但我找不到将此 html 文件嵌入到 wordpress 中的方法有人尝试过并成功吗我们可以使用以下方法解决这个问题简单的 Mathjax 插件 https wordp
如何从反应上下文中获取数据

我有一个名为的 React 类GlobalDataProvider import React Component from react const DataContext React createContext export default
OpenLayers 3 中的边界如何工作？

是否有这样的概念OpenLayers Bounds http dev openlayers org docs files OpenLayers BaseTypes Bounds js htmlOpenLayers 2 x 中的内容仍然存在于
如何确定 WPF 中的光标大小？

在 Windows 窗体中有一个 Cursor Size 属性允许您获取光标对象的大小宽度高度如何在 WPF 中确定此信息 SystemParameters 类公开光标宽度 http msdn microsoft com en u
在 MATLAB 中高效地形成动态窗口

有人可以帮助我提供一种有效的方法或者帮助我执行提供的代码以尽可能少的步骤获得相同的结果我将感激你我有一个原始数组 A 1 1 1 4 3 4 5 4 4 3 3 1 0 0 2 6 2 6 3 6 6 2 7 4 8 7 2 2 2
如何将急切执行中的模型转换为静态图并保存在 .pb 文件中？

想象一下我有模型 tf keras Model class ContextExtractor tf keras Model def init self super init self model self get model def cal
按名称查找控件的父级

当在 xaml 代码中设置名称时有没有办法通过名称找到 WPF 控件的父级尝试这个 element VisualTreeHelper GetParent element as UIElement 在哪里元素是 Children 您需要
如何在Java程序中调用DLL中的方法

我正在尝试使用 JNA 调用 DLL 中的方法到目前为止已经使用加载了DLL Runtime getRuntime load myworkspace test dll 该 dll 包含我需要访问的方法如何在我的 Java 文件中执行 D
MVC T4 MvcTextTemplateHost 和定制的“控制器”T4 模板

我正在创建自己的自定义 T4 模板该模板与我的 MVC Web 应用程序中包含的 ADO NET 实体框架模型 edmx 文件集成以供参考请简单浏览一下以下两个网址斯科特汉塞尔曼 T4 代码生成 Visual Studio 最保
为什么我的代码中总是大写？
如何以编程方式锁定 Windows 工作站？ [复制]

这个问题在这里已经有答案了可能的重复使用 C 以编程方式锁定 Windows 工作站 https stackoverflow com questions 1263047 lock windows workstation programm
将 Magick::Image 转换为 cv::Mat

我正在尝试将通过 Magick 从 GIF 加载的图像转换为cv Mat 我已经从cv Mat to Magick Image但似乎无法找到如何从 Magick 中的图像中提取数据以便将其加载到 Mat 中最好的方法是什么供参考反过来
确定 WPF 元素相对于某个父元素的边界矩形

我认为这是一个非常简单的请求但我似乎无法在搜索中找到确凿的答案如何确定窗口中特定视觉元素相对于其他父元素的边界我尝试过使用LayoutInformation GetLayoutSlot但这似乎只是返回一个Rect在 0 0 处并且不反
如何在python日志模块中获取当前日志级别

我正在尝试创建一个基本记录器无需外部包即可着色 these have to be the first functions so I can use it in the logger settings def create log name
为什么 Jupyter 突然将数据框显示为基于文本的？

我已经使用 jupyter 笔记本有一段时间了如果我这样做的话df head 它总是返回一个格式良好的表格格式现在我调用了数据我得到了这个为什么我该如何解决它 import pandas as pd df pd read csv
如何循环用户输入直到输入整数？

我想运行一个交互式程序提示用户输入学生人数如果用户输入除整数之外的字母或其他字符则应再次询问他们输入学生人数我有以下代码 public int createArrays Scanner s int size System out
Neo4j 的 Cypher 查询语言是开源的吗？

Neo4j的语言Cypher的现状如何我真的很喜欢它但我想避免 Neo4j 锁定是否还有像 Gremlin 中那样的其他 Cypher 界面 Regards Cypher 完全是 OSS 请参阅https github com neo
如何使用 Perl 从纯文本中提取 URL？

我需要 Perl 正则表达式来解析纯文本输入并将所有链接转换为有效的 HTML HREF 链接我已经尝试了在网上找到的 10 个不同版本但没有一个可以正常工作我还测试了 StackOverflow 上发布的其他解决方案但似乎都不起作
带有 dplyr::do 的匿名函数 - 使用 rle 的结果来过滤数据

我有按主题 id 分组的时间序列数据这些数据保留在某个站点上并且在每个时间步骤中都有某个阶段有时受试者从一个站点切换到另一个站点并且可能会再次返回如果个人更换站点来回例如从站点 a 到站点 b 然后返回站点 a an

带有 dplyr::do 的匿名函数 - 使用 rle 的结果来过滤数据

带有 dplyr::do 的匿名函数 - 使用 rle 的结果来过滤数据 的相关文章

随机推荐

热门标签

带有 dplyr::do 的匿名函数 - 使用 rle 的结果来过滤数据的相关文章