寻找单调序列并考虑达到最大值时重新启动序列

2024-03-31

我有一个 data.table 说 dt

name <- letters[1:22]
score <- c(42, 82, 43, 32, 47, 48, 49, 50, 54, 59, 
           76, 9, 13, 88, 91, 99, 4, 6, 8, 12, 14, 15)
class <- rep(c('c1', 'c2', 'c3'), c(7, 3, 12))
dt <- data.table(name, score, class)

看起来像：

> dt
    name score class
 1:    a    42    c1
 2:    b    82    c1
 3:    c    43    c1
 4:    d    32    c1
 5:    e    47    c1
 6:    f    48    c1
 7:    g    49    c1
 8:    h    50    c2
 9:    i    54    c2
10:    j    59    c2
11:    k    76    c3
12:    l     9    c3
13:    m    13    c3
14:    n    88    c3
15:    o    91    c3
16:    p    99    c3
17:    q     4    c3
18:    r     6    c3
19:    s     8    c3
20:    t    12    c3
21:    u    14    c3
22:    v    15    c3

我只需要那些遵循每堂课分数单调序列的记录。在这种情况下，c1 类仅记录分数为 42, 43,47,48 49，给定类最多可以有 3 个连续的乱序分数。因此，第 2 行（分数 = 82）也是一个乱序分数。

c2 类的成绩为 50、54、59。

在“c3”类中，分数为 76,88,91,99,04,06,08,12,14,15。这里序列已达到最大值（99），然后重新开始。 “c3”类中的 09 分和 13 分不属于单调序列，因此需要删除。

我想删除那些 c1、c2、c3 类中提到的分数不按顺序排列的记录。总共有 100 万条记录。

最终的输出应该是这样的。

> dt
    name score class
 1:    a    42    c1
 2:    c    43    c1
 3:    e    47    c1
 4:    f    48    c1
 5:    g    49    c1
 6:    h    50    c2
 7:    i    54    c2
 8:    j    59    c2
 9:    k    76    c3
10:    n    88    c3
11:    o    91    c3
12:    p    99    c3
13:    q     4    c3
14:    r     6    c3
15:    s     8    c3
16:    t    12    c3
17:    u    14    c3
18:    v    15    c3

为了找到单调的序列我尝试过：

dt <- dt[, .SD[score == cummax(score)],class]

但这也删除了达到最大值后重新启动的序列。

实际上，序列重新启动的最大值为 999999，尽管在本示例中我将最大值设为 99。我该如何执行此操作。

这主要可以使用dplyr

dts <- dt %>% 
       group_by(class) %>% 
       mutate(f = ifelse( (score - lead(score) > 0 & lag(score) - score <0) | 
                          (score - lead(score) < 0 & lag(score) - score > 0) , 1, 0)) %>%
       mutate(f = ifelse(is.na(f), 0, f)) %>%
       mutate(g = ifelse((lead(f) == 1 & f == 1)| (lag(f) == 1 & f == 1 ), 2, 0) )) %>%
       filter(f + g != 1)

正如我所说，这基本上可以帮助你实现目标。这样做的问题是你将得到 19 个观察值（保留id = m）而不是 18。您可以做的是重新运行它dts消除id = m。或者，如果这是一个更大集合的子集，您可以使用for or while循环。这样做的原因是因为lead and lag函数只检查上面和下面的一个索引。

另一种选择是一种称为推-流行技术的老式技术，但我会远离这种技术。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

寻找单调序列并考虑达到最大值时重新启动序列的相关文章

计算 R 行中的非零条目数

我有以下类型的数据 mode1 mode2 mode3 1 8 1 0 2 0 0 0 3 6 5 4 4 1 2 3 5 1 1 1 数据使用dput structure list mode1 c 8L 0L 6L 1L 1L mode2
Spark Scala Cassandra 连接器删除所有行失败，并出现 IllegalArgumentException 要求失败异常

创建表 CREATE TABLE test word groups group text word text count int PRIMARY KEY group word 插入数据 INSERT INTO test word group
rvest 函数 html_nodes 返回 {xml_nodeset (0)}

我正在尝试抓取以下网站的数据框 http stats nba com game 0041700404 playbyplay http stats nba com game 0041700404 playbyplay 我想创建一个表格其中包
HTTR GET 新错误：SSL 证书问题：证书已过期

我已经运行这段代码几个月了没有出现任何问题今天我突然开始在我的两台 AWS 服务器上收到以下错误消息错误 curl curl fetch memory url handle handle SSL证书问题证书已过期当尝试运行以下代码
我如何查看 quantmod 包中所有可用的数据系列？

如何显示可用的所有报价数据系列的列表例如使用雅虎的 getSymbols 我不知道有什么办法 TTR包有一个功能 stockSymbols 下载 NYSE AMEX 和 NASDAQ 的所有当前代码它试图将它们采用雅虎可接受的格式但
如何将参数从 Excel/VBA 传递到 Rstudio 中的脚本

我正在尝试使用 Rstudio 从 VBA 打开 R 脚本同时将参数传递给 R 脚本然后我可以使用 commandArgs 访问该脚本该问题与此处描述的问题非常相似 WScript Shell 用于运行路径中包含空格且来自 VBA 的
无法将“gather”输出的列名称更改为默认名称以外的任何名称

我正在尝试使用gather in the tidyr包但我无法更改默认名称的输出列名称例如 df data frame time 1 100 a 1 100 b 101 200 df long df gt gather foo bar
获取包含矩阵行内最大值的列名称，该矩阵在数组内包含单独的最大值

例如给出 dim1 lt c P PO C T dim2 lt c LL RR R Y dim3 lt c Jerry1 Jerry2 Jerry3 Q lt array 1 48 c 4 4 3 dimnames list dim1 di
在闪亮的数据表中为每个单元格显示工具提示或弹出窗口？

有没有什么方法可以为 r闪亮数据表中的每个单元格获取工具提示有很多方法可以获取悬停行或列但我找不到一种方法来获取行和列索引并为每个单元格显示不同的悬停工具提示任何人都可以修改以下代码吗 library shiny library DT
如何将 UDF 中的结构或类数组返回到数据帧列值中？

d ID 1 pID 1000 startTime 2018 07 02T03 34 20 endTime 2018 07 03T02 40 20 ID 1 pID 1000 startTime 2018 07 02T03 45 20 en
R 中的数据框操作 - 将单元格向左移动并删除 NA

我有一个数据框其列由随机分布的值和 NA 组成如下所示 a lt c S E NA S NA b lt c A NA M G K c lt c I NA NA NA L meh lt dataframe a b c 1 2 3 4 5
使用data.table进行聚合

经过 SO 用户的多次建议后我终于尝试将我的代码转换为使用data table library data table DT lt data table plate paste0 plate rep 1 2 each 5 id rep c
如何从 R 中的多列中获取计数？

我有一个包含三列的数据框 State1 State2 State3 有没有一种方法可以使用所有三列最好使用 dplyr 并且没有显式循环来获取一个数据帧中每个状态的计数我只知道如何做一栏 df gt group by State1 g
pandas - 枢轴 ||创建比率/百分比的自定义列

import numpy as np import pandas as pd data experiment name exp1 exp1 exp1 exp1 exp1 exp1 variant A B A B A B sessions w
识别包含字符串的行的最快方法[重复]

这个问题在这里已经有答案了我有一个字符串数据框尺寸为 30 列 x 500 万行我想识别包含任何预定义字符串列表的行有没有比下面我的 apply any 方法更快的方法这是一个可重现的示例请注意此示例中的字符串是随机数但在我
R：根据列名部分匹配计算行平均值

我有一个看起来像这样的表 er er 1 as as 1 as 2 rt op a 1 6 90 8 6 4 87 b 1 8 56 7 5 5 9 c 8 7 6 4 5 9 6 d 1 0 8 6 4 3 6 e 9 7 2 4 3 8
如何在 R 中 fork 进程

我试图了解 R 多核包实现的分叉系统包的例子是 p lt fork if inherits p masterProcess cat I m a child Sys getpid n exit I was a child cat I m t
如何使用 ggplot2 将 IPCC 点画添加到全球地图

我需要将 IPCC style 点画添加到全球地图中如下所示这个帖子 https stackoverflow com questions 11736996 adding stippling to image contour plot 不过
将动物园转换为数据框

我转换了一个zoo time series到数据框中R日期成为数据框的索引有没有办法将日期表示为数据框中的普通列 monthly df lt data frame monthly zoo head monthly zoo head mon
动态过滤 pandas 数据框

我正在尝试使用三列的阈值来过滤 pandas 数据框 import pandas as pd df pd DataFrame A 6 2 10 5 3 B 2 5 3 2 6 C 5 2 1 8 2 df df loc df A gt 0

随机推荐

Xcode 7.2.1 的问题

刚刚安装新版本的Xcode 7 2 1 他花了比预期更长的时间但是当它完成并运行时 xcode 继续使用版本 7 1 1 我以为重启Mac就可以解决这个问题但是没有知道可以花什么吗或者碰巧我已经完成了 EDITED 我的MAC版本
如何修复从底部切掉的字体？

我在应用程序中有自定义字体我正在使用它Text如下 struct CustomButton View var label String var action gt Void init label String action escapin
Windows Phone Soap/添加 Web 参考问题

我有一个 SOAP 由 Java 提供支持服务我正在尝试连接到 WP7 使用Add gt Service Reference生成代理客户端但不幸的是删除了 WP7 和完整 NET 4 上方法的所有参数使用 slsvcutil e
原始计算器 - 动态方法

我在获得以下问题的正确解决方案时遇到一些困难你的目标是一个正整数n 找到最少的数量从数字 1 开始获取数字 n 所需的操作更具体地说我在下面的评论中有测试用例 Failed case 3 16 Wrong answer got 15
如何连接故事板中的原型单元？

我在故事板中创建了一个表格视图以及一个自定义原型单元我已经在情节提要中设置了单元格标识符并尝试将其出队并得到无法使具有标识符 TTEntry 的单元出列必须为标识符注册笔尖或类或者连接故事板中的原型单元我在情节提要 Table
使用 python pty 伪终端进程发送命令并退出

使用 python pty 模块我想使用 stdin 函数如 pty 模块想要的那样向终端模拟器发送一些命令然后强制退出我想到了类似的事情 import pty cmnds exit n ls al n Command to se
Sun 的 bug 数据库中的 Java 版本名称

In https bugs java com bugdatabase view bug bug id 6525150 https bugs java com bugdatabase view bug bug id 6525150它说发布修
如何在java中实现高效的超时

有n执行某些操作的对象执行操作后时间戳将会更新现在我想实现一个超时线程它验证时间戳是否早于 60 秒我的第一个解决方案是使用一个线程 while loop sleep 来做到这一点该线程保存一个包含所有对象包括最后一个时间戳
使用 Visual Studio 创建大小为 100 字节的 C 程序

我想编写一个 C 应用程序该程序在构建时将创建一个大小为 100 字节或更小的可执行文件即使我创建一个简单的 C 程序其中只有一个空的main 我的输出文件在 Visual Studio 2015 上变成 11KB 有没有办法告诉 V
在目录和子目录中搜索文件中的模式

在Linux中我想搜索给定目录及其子文件夹文件以查找某些包含和排除模式 find apps exec grep performance v warn dev null 这与搜索所经过的大量行相呼应我不想这样我想找到包含性能但不包含警
为什么这个 Jinja nl2br 过滤器会转义
而不是
？

我正在尝试实施this http flask pocoo org snippets 28 Jinja nl2br筛选它工作正常除了 br 是不是广告被转义了这对我来说很奇怪因为 p 没有被转义并且它们都在同一个字符串中我正在使用烧
可以将 std::numeric_limits 专门用于用户定义的类似数字的类吗？

的文档std numeric limits
PHP 忽略 php.ini 中的curl.cainfo 设置（显然）

我正在尝试修复 Windows 服务器运行 IIS 上的 php curl 调用该调用返回熟悉的错误 SSL 证书问题请验证 CA 证书是否正常详细信息错误 14090086 SSL 例程 SSL3 GET SERVER CERT
如何在 Apps 脚本中设置表格的水平对齐方式

我无法找到使用 Google Apps 脚本水平对齐 Google 文档中表格的方法我彻底检查了所有文档也盲目地尝试了几种方法尝试一 var cells Company rowData 3 Title rowData 4 var ta
循环展开优化，它是如何工作的

考虑这个 C 代码 int sum 0 for int i 0 i lt 5 i sum i 这可以用伪汇编方式翻译无需循环展开 pseudo code assembly ADDI R10 0 sum ADDI R11 0 i LOO
自动提供数据库中的唯一ID

在我的项目中我需要注册一位捐赠者我需要用户输入他的信息系统会注册他并为捐赠者生成一个唯一的 ID 制作一个带有字段ID的表该表具有索引并且具有自动递增功能 CREATE TABLE Persons ID int NOT NULL A
如何尾部除第一行之外的所有行[重复]

这个问题在这里已经有答案了例如我有一个文件 1 2 3 然后我想从第二行输出到尾部我怎样才能在linux下做到这一点 tail n 2 my file 将输出所有行myfile从第 2 行开始 n2会显示最后两行 tail有很多更多的
算法时间复杂度分析

您好我正在尝试分析该算法的时间复杂度但我很难解开并计算最终循环将执行的次数我意识到第一个循环是 log n 但之后我似乎无法得到一个评估良好的总和这是算法 for int i 1 i lt n i 2 i for int j 1 j
Ramda 循环数组

循环可能是错误的术语但它描述了我正在尝试的事情我想为平面数据提供结构但我还需要跟踪它来自的数组基本上我的规则是每个数组如果级别 1 存在给它name该项目的以及typechild大批每次出现级别 1 时即使在同一个数组中
寻找单调序列并考虑达到最大值时重新启动序列

我有一个 data table 说 dt name lt letters 1 22 score lt c 42 82 43 32 47 48 49 50 54 59 76 9 13 88 91 99 4 6 8 12 14 15 class

寻找单调序列并考虑达到最大值时重新启动序列

寻找单调序列并考虑达到最大值时重新启动序列 的相关文章

随机推荐

热门标签

寻找单调序列并考虑达到最大值时重新启动序列的相关文章