按组选择第一行

2024-03-21

从这样的数据框

test <- data.frame('id'= rep(1:5,2), 'string'= LETTERS[1:10])
test <- test[order(test$id), ]
rownames(test) <- 1:10

> test
    id string
 1   1      A
 2   1      F
 3   2      B
 4   2      G
 5   3      C
 6   3      H
 7   4      D
 8   4      I
 9   5      E
 10  5      J

我想用每个 id/字符串对的第一行创建一个新的。如果 sqldf 接受其中的 R 代码，则查询可能如下所示：

res <- sqldf("select id, min(rownames(test)), string 
              from test 
              group by id, string")

> res
    id string
 1   1      A
 3   2      B
 5   3      C
 7   4      D
 9   5      E

除了创建新列之外，是否有解决方案

test$row <- rownames(test)

并使用 min(row) 运行相同的 sqldf 查询？

您可以使用duplicated非常快地做到这一点。

test[!duplicated(test$id),]

对于速度狂来说，基准测试：

ju <- function() test[!duplicated(test$id),]
gs1 <- function() do.call(rbind, lapply(split(test, test$id), head, 1))
gs2 <- function() do.call(rbind, lapply(split(test, test$id), `[`, 1, ))
jply <- function() ddply(test,.(id),function(x) head(x,1))
jdt <- function() {
  testd <- as.data.table(test)
  setkey(testd,id)
  # Initial solution (slow)
  # testd[,lapply(.SD,function(x) head(x,1)),by = key(testd)]
  # Faster options :
  testd[!duplicated(id)]               # (1)
  # testd[, .SD[1L], by=key(testd)]    # (2)
  # testd[J(unique(id)),mult="first"]  # (3)
  # testd[ testd[,.I[1L],by=id] ]      # (4) needs v1.8.3. Allows 2nd, 3rd etc
}

library(plyr)
library(data.table)
library(rbenchmark)

# sample data
set.seed(21)
test <- data.frame(id=sample(1e3, 1e5, TRUE), string=sample(LETTERS, 1e5, TRUE))
test <- test[order(test$id), ]

benchmark(ju(), gs1(), gs2(), jply(), jdt(),
    replications=5, order="relative")[,1:6]
#     test replications elapsed relative user.self sys.self
# 1   ju()            5    0.03    1.000      0.03     0.00
# 5  jdt()            5    0.03    1.000      0.03     0.00
# 3  gs2()            5    3.49  116.333      2.87     0.58
# 2  gs1()            5    3.58  119.333      3.00     0.58
# 4 jply()            5    3.69  123.000      3.11     0.51

让我们再试一次，但只使用第一轮比赛的竞争者，并使用更多数据和更多复制。

set.seed(21)
test <- data.frame(id=sample(1e4, 1e6, TRUE), string=sample(LETTERS, 1e6, TRUE))
test <- test[order(test$id), ]
benchmark(ju(), jdt(), order="relative")[,1:6]
#    test replications elapsed relative user.self sys.self
# 1  ju()          100    5.48    1.000      4.44     1.00
# 2 jdt()          100    6.92    1.263      5.70     1.15

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

DataFrame

sqldf

按组选择第一行的相关文章

如何有效地将多个光栅 (.tif) 文件导入 R

我是 R 新手尤其是在空间数据方面我正在尝试找到一种方法来有效地将多个 600 单波段栅格 tif 文件导入到 R 中所有文件都存储在同一文件夹中不确定这是否重要但请注意在我的 Mac 和 Windows 并行 VM 上的文件夹
从另一列的子字符串创建列

我有一个 Pandas 数据框对象我想从现有列的子字符串创建新列我的数据如下所示 Date variable want1 want2 want3 0 02 01 08 Australia Sydney A Australia Sydne
删除缺失的数据值

我删除了原始帖子以便能够发布更大版本的数据集实际上总共有 418 行这是我正在进行的生存分析的数据第一列是 ID 号其他列标记为 V2 V20 有很多缺失的数据用表示我用coxph 函数来获取以下内容 Saves survi
R data.table 多个条件连接

我设计了一种解决方案用于从两个单独数据表的多个列中查找值并添加基于新列的值计算多个条件比较代码如下它涉及在计算两个表中的值时使用 data table 和联接但是这些表没有联接在我正在比较的列上因此我怀疑我可能无法获得 da
如何读取 R 中的每个 .csv 文件并将其导出到单个大文件中

你好我有以下格式的数据 101 20130826T155649 3 1 round 0 10552 180 yellow 12002 1 round 1 19502 150 yellow 22452 1 round 2 28957 130
dplyr 中的标准评估：全局环境中的函数出现“无法找到函数”错误

我试图在 dplyr 中对全局环境中的函数使用标准评估但出现无法找到函数错误这是一些代码 create data frame df lt data frame x rnorm 10 y rnorm 10 define arbitra
zsh：未找到命令：使用 Big Sur Mac 的终端上的 R

我从官方 cran 网站安装了 R 我可以从 Rstudio 运行 R 但是当我尝试从终端使用 R 时我得到以下结果 base ege Eges MBP R zsh command not found R base ege Eges MB
通过 Shiny 中的串扰将 Plotly 与 DT 结合使用

我正在编写一个应用程序来将 csv 文件读取为闪亮的并将散点图与 DT 表链接起来我几乎遵循了 Plotly 网站上 DT 数据表上的示例 https plot ly r datatable https plot ly r datatab
按组计算连续行中的值之间的差异

这是我的一个df 数据框 group value 1 10 1 20 1 25 2 5 2 10 2 15 我需要按组计算连续行中的值之间的差异所以我需要一个结果 group value diff 1 10 NA because the
通过 R 中的数据子集执行计算

我想对数据框的 PERMNO 列中的每个公司编号进行计算其摘要可以在此处查看 gt summary companydataRETS PERMNO RET Min 10000 Min 0 971698 1st Qu 32716 1st Qu
R data.table 1.9.2 关于 setkey 的问题

这似乎是 1 8 10 后引入的一个错误与包含列表的 DT 的 setkey 相关运行下面两个代码来查看问题 library data table dtl lt list dtl 1 lt data table scenario 1 p
Python/从每个包含类似字符串对象的 Pandas 数据框单元格中去除空格的有效方法

我正在将 CSV 文件读入 DataFrame 中我需要从所有类似字符串的单元格中删除空格在 Python 2 7 中保持其他单元格不变这是我正在做的事情 def remove whitespace x if isinstance x
Pandas 数据帧中任意两连续行之间差异的平均值

我有一个数据框 name date quantity A 2016 12 02 20 A 2016 12 04 5 A 2016 11 30 10 B 2016 11 30 10 我想做的是计算对于任何一对连续的名称的日期按时间顺序连续
如何绘制每条线之间具有特定距离的图形

实际上我尝试绘制一个图形但它将所有列线放在一起并显示因此它不具有代表性我尝试制作模拟数据并向您展示我如何绘制它并向您展示我想要的内容我不知道如何制作像下面所示的示例的数据但我在这里做了什么 set seed 1 M lt
R 编程常用工具

如果已经以不同的方式问过这个问题我深表歉意但我找不到任何达到我想要的东西我真的是从其他软件包 SPSS 开始接触 R 的当我了解真正可以做什么时我意识到我还需要其他工具这让我想到了我的问题您有哪些用于开发 R 代码的设置我
如何将同一行中以逗号分隔的值拆分到R中的不同行

我有一些数据来自谷歌表格 https forms gle rGQQL3tvA1PrE4dD8我想拆分以逗号分隔的答案 and 复制参与者的 ID 数据如下 gt head data names Q2 Q3 Q4 1 PART 1 fruit
手动设置scale_fill_distiller()的比例

我正在尝试制作一系列图表进行比较举例来说我想使用iris数据集来制作这样的图其中我已过滤以仅查看 setosa 物种 library ggplot2 library dplyr iris gt filter Species setos
合并数据框而不重复行

我想合并两个数据框但如果有多个匹配项则不想重复行相反我想总结一下那天的观察结果来自合并提取两个数据框中与指定列匹配的行并将其连接在一起如果有多个匹配项则所有可能的匹配项各贡献一行这是一些示例代码 days lt as d
计算互相关函数？

In R 我在用ccf or acf计算成对互相关函数以便我可以找出哪个移位给我带来最大值从它的外观来看 R给我一个标准化的值序列 Python 的 scipy 中是否有类似的东西或者我应该使用fft模块目前我正在这样做 xcor
无法部署 ShinyApp：readTableHeader 在“raw”上发现不完整的最后一行（使用默认值：en_US）

我已经拼命尝试部署我的闪亮应用程序大约一周了但不幸的是我无法停止收到以下消息 Warning message Error detecting locale Error in read table file file header head

随机推荐

h:commandlink 中的 target="_blank" 未在浏览器的新选项卡中打开页面

当 h commandLink 与 target blank 一起使用时我的 h commandLink 正在同一页面窗口上打开预览 pdf 文档我希望它在浏览器的新选项卡中打开错误可能出在哪里 Preview xhtml代码
将数组的 var_dump 转换回数组变量

直到今天我才真正考虑过这个问题但在网上搜索后我并没有真正找到任何东西也许我在搜索中的措辞不正确给定一个数组多维或非多维 data array this gt array is gt the challenge gt array fo
从 JavaScript 更改 href 值

我在 JsFiddle 中有这个例子 http jsfiddle net PtNfD 114 http jsfiddle net PtNfD 114 a href http www yahoo com target blank Yahoo
非英语文本的情感分析

我想分析用德语写的文本的情感我找到了很多关于如何用英语做到这一点的教程但我没有找到关于如何将其应用到不同语言的教程我有一个想法使用TextBlobPython 库首先将句子翻译成英语然后进行情感分析但我不确定这是否是解决此任务的最
简而言之，关于 Func<> 可以说些什么

我一直看到功能一段时间以来我已经设法避免它暂时但现在看来我是无法永远躲开了例如我尝试了 Dynamic Linq 但几乎所有内容都是根据 Func 进行的我已经尝试过我的一本书 C 2008 Deitel Deitel 以及
WSH（wscript）是否可以与nodejs结合

作为 QA 我使用 WSH 脚本在 IE 中进行自动上传部署和一些 Web 测试使用 JavaScript 的 WSH wscript 可以打开 IE 窗口激活它并访问 DOM 模型来执行某些操作或验证某些预期结果它是一种 Sele
如何使多维数组变得唯一？ [复制]

这个问题在这里已经有答案了我有一个多维数组设置如下所示 array 0 gt array name gt Foo slug gt Bar 1 gt array name gt Foo slug gt Bar 2 gt array nam
Python 中模拟退火的基础知识 [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我必须使用模拟退火来解决某个优化问题为了感受该技术我编写了一个小的 Python 代码并尝试运行它然而它似乎并没有给出令人满意
Android 运行时布局教程

有谁知道如何在 android 运行时执行活动布局或有一个很好的参考这是我的活动的代码我确信我只是忽略了在这里做一些事情 package com isi sa import android app Activity import and
HTTP 是否重定向到 HTTPS 密码风险捕获？

我在 NGINX 中设置了 http https 重定向配置 server listen 80 server name localhost return 301 https server name request uri 我的问题是从用户
c++ Vector，每当它在堆栈上扩展/重新分配时会发生什么？

我是 C 新手我在我的项目中使用向量类我发现它非常有用因为我可以拥有一个在必要时自动重新分配的数组即如果我想推回一个项目并且向量已达到其最大容量它会重新分配自身向操作系统请求更多内存空间所以访问向量的元素非常快它不像列表
我如何从delphi检索WinInet错误代码的错误描述

我需要获取 WinInet 函数错误代码的描述有关 WinInet 函数的 MSDN 文档说明了我必须使用GetLastError http msdn microsoft com en us library ms679360 28VS 8
xunit - 如何在单元测试中获取 HttpContext.User.Identity

我向控制器添加了一个方法用于从 JWT 令牌中获取用户 IDHttpContext 在我的单元测试中HttpContext is null 所以我得到了一个例外我该如何解决这个问题有没有办法最小起订量HttpContext 这是在我的
如何将 jquery UI 按钮应用到 asp:Button

如何将 jQuery UI 样式应用到 asp Button 问题是 jquery UI 按钮要求您具有以下格式
使用反应创建上下文时无法找到命名空间“ctx”错误 - typescript

我正在做一个项目react using typescript我很难弄清楚为什么会发生这个错误基本上我不能使用任何createContext因此我在互联网上找到了一些例子这是我从这里特别得到的 https github com type
Android：无法找到显式活动类...从 PreferenceActivity 开始活动

我正在尝试从 PreferenceActivity 启动一个新活动但是它失败并显示无法找到显式活动类您是否在 AndroidManifest xml 中声明了此活动嗯是的我声明了
在 Android API level11 之前，getActionView() 的替代方案是什么？

getActionView 对于操作栏被引入API 11 如果我想要向后兼容有什么替代方案getActionView e g public boolean onCreateOptionsMenu Menu menu getMenuInfl
.NET Core API 请求与支持的文件类型不匹配

我只是想确保我这里没有问题有谁知道是什么原因造成的 2017 03 17 07 59 17 5838 1 Microsoft AspNetCore Hosting Internal WebHost INFO Request startin
Gnuplot multiplot：创建更复杂布局的便捷方法

我想放置几块地块gnuplot http www gnuplot info通过以下方式 plot1 plot2 plot3 plot4 plot5
按组选择第一行

从这样的数据框 test lt data frame id rep 1 5 2 string LETTERS 1 10 test lt test order test id rownames test lt 1 10 gt test id

按组选择第一行

按组选择第一行 的相关文章

随机推荐

热门标签

按组选择第一行的相关文章