R：按值排除子集的 Data.table

2023-11-24

Using data.table in R，我正在尝试对子集进行操作排除选定的元素。我正在使用by运算符，但我不知道这是否是正确的方法。

这是一个例子。例如。的价值Delta in IAH:SNA是 (3+3)/2 的平均值Stops in IAH:SNA once Delta已被排除。

library(data.table)
s1 <- "Market   Carrier Stops
IAH:SNA     Delta     1
IAH:SNA     Delta     1
IAH:SNA Southwest     3
IAH:SNA Southwest     3
MSP:CLE Southwest     2
MSP:CLE Southwest     2
MSP:CLE  American     2
MSP:CLE   JetBlue     1"

d <- data.table(read.table(textConnection(s1), header=TRUE))

setkey(d, Carrier, Market)

f <- function(x, y){
         subset(d, !(Carrier %in% x) & Market == y, Stops)[, mean(Stops)]}

d[, s := f(.BY[[1]], .BY[[2]]), by=list(Carrier, Market)]

##     Market   Carrier Stops     s
## 1: MSP:CLE  American     2  1.666667
## 2: IAH:SNA     Delta     1  3.000000
## 3: IAH:SNA     Delta     1  3.000000
## 5: IAH:SNA Southwest     3  1.000000
## 6: IAH:SNA Southwest     3  1.000000
## 7: MSP:CLE Southwest     2  1.500000
## 8: MSP:CLE Southwest     2  1.500000

上述解决方案执行very在大数据集上表现不佳（它本质上是mapply），但我不知道如何快速做到这一点data.table-类似的方式。

也许人们可以（动态地）产生一个因素来做到这一点？我只是不知道怎么做。。。

有办法改善吗？

编辑：只是为了它，这是一种获得上述内容的更大版本的方法

library(data.table)
dl.dta <- function(...){
      ## input years ..
      years <- gsub("\\.", "_", c(...))
      baseurl <- "http://www.transtats.bts.gov/Download/"
      names <- paste("Origin_and_Destination_Survey_DB1BMarket", years, sep="_")
      info <- t(sapply(names, function(x) file.exists(paste(x, c("zip", "csv"), sep="."))))
      to.download <- paste(baseurl, names, ".zip", sep="")[!apply(info, 1, any)]
      if (length(to.download) > 0){
          message("starting download...")
          sapply(to.download,
                 function(x) download.file(x, rev(strsplit(x, "/")[[1]])[1]))}

      to.unzip <- paste(names,  "zip", sep=".")[!info[, 2]]
      if (length(to.unzip > 0)){
          message("starting to unzip...")
          sapply(to.unzip, unzip)}
      paste(names, "csv", sep=".")}

countWords.split <- function(x, s=":"){
    ## Faster on my machine than grep for some reanon
    sapply(strsplit(as.character(x), s), length)}

countWords.grep <- function(x){
    sapply(gregexpr("\\W+", x), length)+1}

fname <- dl.dta(2013.1)
cols <- rep("NULL", 41)
## Columns to keep: 9 is Origin, 18 is Dest, 24 is groups of airports in travel
## 30 is RPcarrier (reporting carrier).  
## For more columns: 35 is market fare and 36 is distance.
cols[9] <- cols[18] <- cols[24] <- cols[30] <- NA
d <- data.table(read.csv(file=fname,  colClasses=cols))
d[, Market := paste(Origin, Dest, sep=":")]
## should probably
d[, Stops := -2 + countWords.split(AirportGroup)]
d[, Carrier := RPCarrier]
d[, c("RPCarrier", "Origin", "Dest", "AirportGroup") := NULL]

使用一点点初等数学知识：

d[, c("tmp.mean", "N") := list(mean(Stops), .N), by = Market]
d[, exep.mean := (tmp.mean * N - sum(Stops)) / (N - .N), by = list(Market,Carrier)]

#     Market   Carrier Stops tmp.mean N exep.mean
# 1: IAH:SNA     Delta     1     2.00 4  3.000000
# 2: IAH:SNA     Delta     1     2.00 4  3.000000
# 3: IAH:SNA Southwest     3     2.00 4  1.000000
# 4: IAH:SNA Southwest     3     2.00 4  1.000000
# 5: MSP:CLE Southwest     2     1.75 4  1.500000
# 6: MSP:CLE Southwest     2     1.75 4  1.500000
# 7: MSP:CLE  American     2     1.75 4  1.666667
# 8: MSP:CLE   JetBlue     1     1.75 4  2.000000

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

dataTable

R：按值排除子集的 Data.table 的相关文章

在 mts 对象上使用 Apply 系列函数

在 mts 对象上使用 apply 或 sapply 会在发送到函数时删除其时间序列属性我应该如何在 mts 对象中的每个时间序列上应用相同的函数带有 ts 输入和 ts 输出并返回它最好是 mts 我的意思是除了使用 for 循环
在 for 循环中绘制的多个 ggplot2 绘图的网格

作为一个新的 ggplot2 用户我对可能性的数量感到有点迷失并且很难在网上找到我认为简单问题的简单答案我想在同一张纸上显示 ggplot2 的多个图但知道这些图来自 for 循环以下示例无法编译仅用于说明 for i in c
在 Shiny 中使用 readlines(prompt = )

我有一个代码使用以下方式获取输入readlines prompt 功能您能告诉我 Shiny 中的哪个输入函数足以将此代码适应 Shiny 应用程序吗我需要一个交互功能我无法使用简单的输入selectInput 因为我有很多read
Quarto/Rmarkdown 中的美人鱼图：狭窄且模糊

我正在尝试生成 pdf 格式的四开文档稍后会生成 word 格式我遇到了美人鱼图的问题请在下面找到一个示例 qmd 文件来说明该问题所以首先它应该支持 mermaid 标签但当我这样做时我无法在 rstudio 中运行单元
SPGridView、数据以及确保数据安全的正确方法

我正在使用 SPGridView 来呈现一些数据并启用了效果很好的过滤功能直到您选择数据中的特定项目进行过滤有问题的数据项在字符串中包含撇号例如这是 richards 的字符串这会导致后过滤器应用程序页面加载因错误而终止 Syn
当 DataTable 为空时，DataGrid 显示空行

我有一个DataGrid dg1 绑定到DataTable 数据集表代码运行良好并且DataGrid正在显示数据DataTable正确但是如果我Clear the DataTable the DataGrid也很清楚但留下一个空行
R - 根据另一个数据框查找每组的重叠日期

我有一个数据框其中包含多个雨量计的降雨测量值如下例所示 gt rnfl ID date value 1 250 2000 03 01 5 37 2 250 2000 03 02 0 00 3 250 2000 03 03 2 94 4
R比例置信区间因子

我正在尝试总结家庭调查的数据因此我的大部分数据都是分类因子数据我想用对某些问题的回答频率图来总结它例如回答某些问题的家庭百分比的条形图误差线显示置信区间我发现了这个很棒的教程我认为它是我祈祷的答案 http www coo
R 中 write.table 文件名中的变量

请帮助我解决一个幼稚的问题已经用谷歌搜索并尝试了很多变体但失败了如何使用 R 中 write table 的文件名中的变量保存文件脚本循环遍历 dir 中的文件应用一些函数然后将结果保存到具有相同名称但附加结尾的文件中谢谢
如何判断某个软件包是否已经安装？

当我安装 yaml 包时如果之前已经安装过 RStudio 则会弹出一条烦人的错误消息如何判断该软件包是否已安装以便我可以在代码中决定是否安装该软件包该消息位于弹出窗口中内容如下此安装将更新的一个或多个软件包当前已加载在更新
Yajra DataTable Laravel 中的 Foreach

我试图在我的数据表中放入一个 foreach 循环但它不起作用附如果我删除 foreach 一切都已经正常了这里附上我的代码 Product Product query colors Color all return Datatab
R 条形图中的 X 轴

我想问一个关于 barplot 轴的问题首先请看我的数据 SerNo DOY Rain 1 350 0 2 351 0 3 352 0 4 353 0 5 354 0 6 355 0 7 356 0 8 357 0 9 358 0 10
如何在 R 地图库中绘制正确的颜色

我正在尝试使用 R 地图库为特定国家绘制特定颜色我可以填写颜色但它们与各自的国家地区没有正确关联我想知道是否有人能知道为什么我的数据框是 filld 有 3 列第一列是国家名称第二列只是一些数字数据第三列是颜色 countr
如何在R中逐行写入文件

我正在尝试逐行读取 csv 文件并且仅选择左侧的第二个和第三个单元格以及右侧的第三个单元格例如如果这一行中有 17 个单元格我将选取第 15 个单元格然后我想合并这 3 个单元格用逗号分隔然后将此行写入一个新的 csv 文件
在捕食者-被捕食者系统的生态建模中正确使用 deSolve

我有一个捕食者被捕食者模型其中包含指定的参数和初始值我在这里用两种方法求解微分方程 1 使用 for 循环 2 使用 deSolve 包我相信 for 循环是正确的并且应该给出如下图所示的输出 For loop attempt r
R中有字典功能吗

有没有办法在 R 中创建一个字典使其具有对一些效果 x dictionary c Hi Why water c 1 5 4 x Why 5 我问这个是因为我实际上正在寻找两个分类变量函数所以如果 x dictionary c a b
如何在multilist中设置xlim？

以下代码创建 3 个向量并将它们显示为交错直方图 a lt c 1 2 3 b lt c 1 1 2 c lt c 1 1 1 l lt list a b c multhist l col c red green blue xlim c
使用插入符和方法 = gamLoess 进行训练时 R 崩溃

当我运行下面的代码时 R 崩溃了如果我在训练调用中注释掉tuneGrid行就不会发生崩溃我已经用另一个数据集尝试过此操作但仍然使 R 崩溃崩溃消息是 R 会话中止 R遇到致命错误会话被终止开始新会话代码是 library s
DT数据表中的列对齐

In my shiny我正在使用的应用程序datatable函数来自DT库构建一个表格并希望将列居中对齐我可以用formatStyle column textAlign center 但它只影响列体而不影响标题我们必须设置columnD
R - 如何为数据范围内的缺失值绘制条形图零点？

假设我对 1 到 10 之间的整数的 200 个点有 10 个观察值 mysample sample rep seq 1 10 20 10 我想用条形图绘制它 barplot table mysample barplot https i s

随机推荐

ClassNotFoundException：eclipse 中 Jetty hello world 中的 javax.servlet.AsyncContext

我已点击链接http wiki eclipse org Jetty Tutorial Jetty HelloWorld教程使用 Eclipse 还查看了现有的 stackoverflowhere 我使用聚合 jetty 8 0 0 jar
为什么所有 JavaScript 控制台日志和错误都显示第 1 行（开发人员工具）

我正在开发一个 Javascript 项目并使用 Chrome F12 开发人员工具进行调试由于某种原因所有 console log 输出和错误消息都声称它们发生在line 1我的 js 文件即在控制台中每行右侧显示myFile j
逻辑删除消息未从 KTable 状态存储中删除记录？

我正在创建 KTable 处理来自 KStream 的数据但是当我触发具有密钥和空负载的逻辑删除消息时它不会从 KTable 中删除消息 sample public KStream
克隆 Office Open XML 文档的最有效方法是什么？

使用 Office Open XML 文档例如自 Office 2007 发布以来由 Word Excel 或 PowerPoint 创建的文档时您经常需要克隆或复制现有文档然后对该克隆进行更改从而创建新的文档文档在这种情况下
无法加载此类文件 - 捆绑程序/安装程序（LoadError）

我正在使用 Ruby 2 0 设置 Rails 4 应用程序但收到 Web 应用程序无法启动并获取以下跟踪信息 cannot load such file bundler setup LoadError usr local lib ru
C++ 链接器运行时缺少库（SONAME 行为）

我制作了一个使用两个共享库我编译的的程序并且放置如下 home directory where I compile and run everything gt lib libjson linux gcc 4 4 6 libmt so
在 XAML 中对 DataGrid 进行排序时未反映 ColumnHeader 箭头

我有一个 DataGrid 在 XAML 中定义了一些排序如下所示
ID、唯一 ID、客户端 ID、唯一客户端 ID、静态客户端 ID？

好吧我对动态创建的控件的 ID 很困惑 Public Class TestClass Inherits Panel Implements INamingContainer Function TestClassInit Handles Me
Java 将接口转换为类

我有一个关于接口和类实现接口的问题这是我的代码 interface iMyInterface public iMethod1 public class cMyClass implements iMyInterface public iMe
如果 APNS 设备令牌过期会发生什么？

根据这个论坛帖子APNS 设备令牌创建后是否会更改设备令牌可能已过期或者 APNS 可能会更改设备令牌我的问题是如果服务器将这个过期的令牌发送给Apple APNS是否会使用过期的令牌进行通知 APNS 可以将此过期令牌用于其他设备
为什么 (![]+[])[+!![]+[]] 产生“a”

我有兴趣了解其内部结构JavaScript 我尝试阅读源代码蜘蛛猴 and Rhino但这是相当复杂的我问的原因是为什么会发生类似的事情生产 a 生产alert 1 Source http sla ckers org forum re
C# 中抽象类的构造函数

为什么可以在 C 中为抽象类编写构造函数据我所知我们无法实例化抽象类那么它的用途是什么你不能实例化这个类对吗因为您可能想要在抽象类中实例化数据的标准方法这样您就可以让从该类继承的类调用基本构造函数 public abstra
jquery - 对除单击的元素之外的每个元素运行函数

作为一些示例代码我可能有这样的东西 a parent click function a parent each function this stop true false animate width 140px 200 function
内联变量如何工作？

在 2016 年奥卢 ISO C 标准会议上一项名为内联变量被标准委员会投票纳入C 17 通俗地说什么是内联变量它们如何工作以及它们有什么用内联变量应该如何声明定义和使用提案第一句话 The inline说明符可以应用于变量以及
在 docker 的构建阶段使用 github 私有仓库部署密钥进行 npm 安装

我的用例是我有多个使用相同中间件的 Express 微服务我想为每个中间件以 npm 模块的格式创建不同的存储库每个存储库都是私有存储库并且可以附加部署密钥可以是不同的密钥或相同的密钥所有这些在本地都可以正常工作但是当我尝试
Typo3 V6：如何创建内容元素容器？（不带电视）

对于一个项目我使用 Typo3 v6 0 我正在寻找创建嵌套内容元素或内容元素容器我希望能够创建内联两列布局而不需要使用特定的模板我想做这个without使用Templavoila 我尝试过的扩展是gridelements kb n
如何在 Win32 桌面应用程序中使用自定义 WinRT 库？

我的基于 Win32 的桌面应用程序中有一个 WinRT 类 C CX 引用类它访问 WinRT API 并且工作得很好我用了本指南让它发挥作用现在我试图将此类放入桌面应用程序可以使用的库中我在这方面遇到了一些麻烦这是我在 Vis
如何使用 ctypes.util.find_library 在 AWS lambda (python) 中导入 .so 库？

我正在尝试什么我在 Lambda 上使用的 python 包 OCRMYPDF 需要 leptonica 库libpt so 5 在隔离导入代码时我发现问题在于find library lept 打印结果返回 None from cty
将13位unixtime（以ms为单位）转换为python中的时间戳

我想将以毫秒为单位的 13 位 Unix 时间转换为时间戳 1523126888080 gt gt Y m d H M S 我已经尝试过以下代码link 但我认为这是 10 位 Unix 时间而我有 13 位 Unix 时间所以这段代
R：按值排除子集的 Data.table

Using data table in R 我正在尝试对子集进行操作排除选定的元素我正在使用by运算符但我不知道这是否是正确的方法这是一个例子例如的价值Delta in IAH SNA是 3 3 2 的平均值Stops in IA

R：按值排除子集的 Data.table

R：按值排除子集的 Data.table 的相关文章

随机推荐

热门标签