有效地广播具有多个变量的大型数据集

2024-02-16

我在尝试着dcast大型数据集（数百万行）。我有一行用于到达时间和出发地，另一行用于出发时间和目的地。有一个id识别这两种情况下的单位。它看起来类似于：

id  time            movement    origin  dest
1   10/06/2011 15:54    ARR        15    15
1   10/06/2011 16:14    DEP        15    29
2   10/06/2011 17:59    ARR        73    73
2   10/06/2011 18:10    DEP        73    75
2   10/06/2011 21:10    ARR        75    75
2   10/06/2011 21:20    DEP        75    73
3   10/06/2011 17:14    ARR        17    17
3   10/06/2011 18:01    DEP        17    48
4   10/06/2011 17:14    ARR        49    49
4   10/06/2011 17:26    DEP        49    15

所以，我想重新分配这些对（ARR-DEP）并有效地做到这一点（如here https://stackoverflow.com/questions/27552810/optimizing-for-loop-in-big-data-frame）。由于它是一个非常大的数据集for loop在这种情况下不起作用。理想的输出是

  index unitid origin   arr time    dest    dep time
    1    1     15   10/06/2011 14:33    29  10/06/2011 19:24
    2    2     73   10/06/2011 14:59    75  10/06/2011 17:23
    3    2     75   10/06/2011 21:10    73  10/06/2011 23:40

Data:

        df <- structure(list(time = structure(c(7L, 16L, 8L, 11L, 18L, 20L, 
10L, 12L, 3L, 6L, 15L, 19L, 9L, 4L, 5L, 14L, 1L, 2L, 13L, 17L
), .Label = c("10/06/2011 09:08", "10/06/2011 10:54", "10/06/2011 11:38", 
"10/06/2011 12:41", "10/06/2011 12:54", "10/06/2011 14:26", "10/06/2011 14:33", 
"10/06/2011 14:59", "10/06/2011 17:12", "10/06/2011 17:14", "10/06/2011 17:23", 
"10/06/2011 18:56", "10/06/2011 19:03", "10/06/2011 19:04", "10/06/2011 19:16", 
"10/06/2011 19:24", "10/06/2011 20:12", "10/06/2011 21:10", "10/06/2011 22:28", 
"10/06/2011 23:40"), class = "factor"), movement = structure(c(1L, 
2L, 1L, 2L, 1L, 2L, 1L, 2L, 1L, 2L, 1L, 2L, 3L, 1L, 2L, 2L, 1L, 
2L, 2L, 3L), .Label = c("ARR", "DEP", "ITZ"), class = "factor"), 
    origin = c(15L, 15L, 73L, 73L, 75L, 75L, 17L, 17L, 49L, 49L, 
    15L, 15L, 32L, 10L, 10L, 17L, 76L, 76L, 76L, 76L), dest = c(15L, 
    29L, 73L, 75L, 75L, 73L, 17L, 48L, 49L, 15L, 15L, 49L, 32L, 
    10L, 17L, 10L, 76L, 65L, 76L, 65L), id = c(1L, 1L, 2L, 2L, 
    2L, 2L, 3L, 3L, 4L, 4L, 4L, 4L, 5L, 6L, 6L, 6L, 7L, 7L, 8L, 
    8L)), .Names = c("time", "movement", "origin", "dest", "id"
), row.names = c(NA, -20L), class = "data.frame")

这个怎么样？使用data.table:

require(data.table)
setorder(setDT(df), id, time)
df[, grp := FALSE][movement == "ARR", grp := TRUE]
df[, .(time[grp], time[!grp], origin[grp], dest[!grp]), by=id]
#    id                  V1                  V2 V3 V4
# 1:  1 10/06/2011 14:33:57 10/06/2011 19:24:16 15 29
# 2:  2 10/06/2011 14:59:14 10/06/2011 17:23:20 73 75
# 3:  2 10/06/2011 21:10:56 10/06/2011 23:40:29 75 73
# 4:  3 10/06/2011 17:14:44 10/06/2011 18:56:39 17 48
# 5:  4 10/06/2011 11:38:43 10/06/2011 14:26:43 49 15
# 6:  4 10/06/2011 19:16:55 10/06/2011 22:28:14 15 49
# 7:  5 10/06/2011 10:41:20 10/06/2011 12:54:26 10 17
# 8:  6 10/06/2011 09:08:05 10/06/2011 10:54:48 76 65

如果您添加另一列具有值的列，则可以稍微加快速度!grp并使用该列而不是做!grp在每个组上。

这是如何运作的：

setDT通过引用将 data.frame 转换为 data.table。
setorder根据提供的列（和顺序）通过引用对 data.table 重新排序。在这里，它重新排序了行df根据列按升序排列id and time.
然后我们使用data.table的通过引用进行子分配添加一个额外的列来保存该值TRUE when movement == "ARR" and FALSE when movement == "DEP".

注意：您的因子水平df$movement列有一个附加级别，称为ITZ这似乎并不在此示例数据中。不知道如何处理。
现在我们要做的就是从其中选择 1,3,5,.. 元素origin和 2,4,6,... 元素来自dest（同样对于time).

只要这样就有效ARR时间总是在之前DEP时间（这是一个非常有效的假设）。

根据OP对Q的编辑，数据不一致：

na.omit(df[movement != "ITZ", .(time[grp], time[!grp], origin[grp], dest[!grp]), by=id])

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

reshape2

largedata

Bigdata

有效地广播具有多个变量的大型数据集的相关文章

从数据框中绘制多条平滑线

我对 R 比较陌生我正在尝试绘制从 csv 文件加载的数据框数据由 6 列组成如下所示 xval col1 col2 col3 col4 col5 第一列 xval 由一系列单调递增的正整数例如 10 40 60 等组成其他列
ggplot：如何限制条形图中的输出，以便仅显示最频繁出现的情况？

我几个小时以来一直在寻找这个简单的东西但没有结果我有一个数据框其中一列为变量国家地区我想要两件事以下绘制最常见的国家地区最常见的位于顶部找到部分解决方案EDIT找到完整的解决方案 gt gt 重点问题是根据频率限制条形图
需要在R中跳过不同数量的行

我正在使用以下代码来处理我的数据但最近我意识到使用skip 27 在数据开始之前跳过存储在我的文件中的信息不是一个好的选择因为每个文件中要跳过的行数不同我的目标是读取存储在多个文件夹中的各种txt文件并非所有文件都有相同的列数列的
case_when 与部分字符串匹配和 contains()

我正在使用一个数据集其中有许多名为 status1 status2 等的列在这些列中它表示某人是否豁免完整注册等不幸的是豁免投入并不一致这是一个示例 library dplyr problem lt tibble perso
如何在 R 中的 dygraph 标题中使用 UTF-8 字符

使用 Rstudio Windows8 当我使用 dygraph 函数绘制时间序列时在尝试在主标题中使用 UTF 8 字符时遇到问题 library dygraphs dygraph AirPassengers main T tulo 这
无法将“gather”输出的列名称更改为默认名称以外的任何名称

我正在尝试使用gather in the tidyr包但我无法更改默认名称的输出列名称例如 df data frame time 1 100 a 1 100 b 101 200 df long df gt gather foo bar
更改 R 中 ggplot geom_polygon 的颜色方案

我正在使用地图库和 ggplot 的 geom polygon 创建地图我只是想将默认的蓝色红色紫色配色方案更改为其他颜色我对 ggplot 非常陌生所以如果我没有使用正确的数据类型请原谅我使用的数据如下所示 gt head
获取包含矩阵行内最大值的列名称，该矩阵在数组内包含单独的最大值

例如给出 dim1 lt c P PO C T dim2 lt c LL RR R Y dim3 lt c Jerry1 Jerry2 Jerry3 Q lt array 1 48 c 4 4 3 dimnames list dim1 di
安装 2.15 后 ggplot2 中的 alpha 通道不起作用

更新到 R 2 15 后 ggplot 中的 alpha 通道似乎不再起作用 plot rnorm 100 rnorm 100 bg cc000055 pch 21 工作得很好但是 qplot rnorm 100 rnorm 100 col
R 中的数据框操作 - 将单元格向左移动并删除 NA

我有一个数据框其列由随机分布的值和 NA 组成如下所示 a lt c S E NA S NA b lt c A NA M G K c lt c I NA NA NA L meh lt dataframe a b c 1 2 3 4 5
如何使用plotmath更新ggplot图例标签

我正在尝试更新ggplot要使用的图例标签plotmath但是当我这样做时它将之前组合的图例分成两部分通过一个例子可能更容易理解 test data and the default plot gives the correct col
闪亮井板宽度

library shiny library shinydashboard ui lt dashboardPage dashboardHeader dashboardSidebar dashboardBody wellPanel tags d
rpart 决策树中的 rel 误差和 x 误差有什么区别？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我有一个来自 UCI 机器学习数据库的纯分类数据框https archive ics uci edu ml datasets Diabet
如何使用 ggplotGrob 创建自定义图例？

我发布了一个question https stackoverflow com questions 29174774 how to create legend text elements being different colours in
使用操作按钮在闪亮的 R 中添加包含现有数据框的新行

我正在构建一个闪亮的表单它将从 textInput 字段获取数据并将这些输入与文本文件将通过文件输入上传组合起来并在主面板中显示输出有一个操作按钮用于第一次更新数据从文本输入中获取数据并与处理后的文本文件合并我添加了另一个操
rPlot 工具提示问题

我有一个使用 rCharts 工具提示的简单示例但似乎不起作用 set seed 1 test lt data frame x rnorm 100 y rnorm 100 rPlot y x data test type point to
在 R 中显示变量的精确值

gt x lt 1 00042589212565 gt x 1 1 000426 如果我想打印的确切值x 我该怎么办呢抱歉如果这是一个愚蠢的问题我尝试在谷歌上搜索 R 和精确或圆形但我得到的只是有关如何舍入的文章先感谢您所
如何使用合并或替换来更新 R 中具有多列的表

我想做一些与这个问题非常相似的事情如何使用 merge 更新 R 中的表 https stackoverflow com questions 3190118 how to use merge to update a table in r
autoplot.microbenchmark 实际绘制了什么？

根据文档 microbenchmark autoplot 使用 ggplot2 生成更清晰的微基准计时图凉爽的让我们尝试一下示例代码 library ggplot2 tm lt microbenchmark rchisq 100 0 r
根据列中的部分字符串匹配选择数据框行

我想根据列中字符串的部分匹配从数据框中选择行例如列 x 包含字符串 hsa 使用sqldf if它有一个like语法我会做类似的事情 select from lt gt where x like hsa 很遗憾 sqldf不支持该语法

随机推荐

Akavache：iOS 应用程序重启后保存的值不可用

我在 iOS 上使用 Akavache 标准方法实际上它是适用于 Android iOS 的 NET Standard 项目但问题仅出现在 iOS 上我在应用程序生命周期中保存了一些价值 await BlobCache Secure
何时对 WCSession 对象调用 activateSession()

我想知道在什么时候人们会在手表和 iOS 设备上的 WCSession 对象上调用 activateSession 在文档中它说在调用任何与会话相关的方法之前始终分配委托并激活会话在发送消息或获取有关连接状态的信息之前必须配置并激活
Dropdown Bootstrap 4 在 Angular 应用程序的生产中不起作用

我在我的角度应用程序中使用 bootstrap 4 下拉功能在开发人员模式下完美运行但在生产模式下我收到此错误未捕获的错误 DROPDOWN 选项 popperConfig 提供类型 window 但预期类型为 null object
查找目录中的所有目录并仅返回名称

我想找到vb net中一个目录中的所有目录我找到了一个脚本 For Each Dir As String In Directory GetDirectories FolderName ComboBox3 Items Add Dir Nex
Rufus 调度程序与 unicorn 一起运行多次，用 :lockfile 修复，但如何消除错误消息？

scheduler Rufus Scheduler new lockfile gt rufus scheduler lock scheduler every 60 do end 环境 Ubuntu rails 4 rufus unicorn
Azure 中的 React 和 AppSettings

我的目标是从 Azure 应用程序设置中检索一些环境密钥例如 api url 我的构建工厂如下用于 tsx 的 webpack 到压缩的 js 使用 VSTS 构建和发布在 Azure Web 应用程序上部署 Azure Web Ap
ipysheet 和数据框。选中复选框时如何修改 ipysheet 中的值

需要你的帮助我创建一个数据框并将其加载为 ipysheet 我用复选框超载了 1 列目的当我单击第 1 列的单元格的复选框时我将 2 列中的相应值乘以 2 不是全部第2栏我尝试了不同的方法但它没有按预期工作参见下面的代码那么
有没有办法对 NSArray （或其他类簇）进行猴子修补或混合？

今天我正在开发一个项目在该项目中我想为所有实例别名一个替代方法NSArray 并且不认为对某些人来说太困难很好的老式方法 http www google com search q method 20Swizzling 我爆发了JRSw
在 Chrome 扩展中获取并存储 auth_token

我正在实现一个 chrome 扩展用户登录电子邮件和密码并从第 3 方获取身份验证令牌的位置我想存储此身份验证令牌以便在向同一方发送另一个请求时我可以使用此令牌有什么好的方法可以做到这一点我应该储存它吗如果是的话怎么办否则
Twitter Bootstrap 的响应式 CSS 适用于调整大小的窗口，但不适用于移动设备

我使用 Twitter Bootstrap 框架来构建我的最新网站我用了boostrap responsive css使其在移动设备上运行但事实并非如此看起来它根本没有看到CSS 当我在 Android 手机上运行它时它就像我的 P
如何在不同选项卡中保存或导出Excel中的多个数据框？

我需要在不同选项卡的 Excel 中导出或保存 pandas 多个数据框假设我的 df 是 df1 Id Name Rank 1 Scott 4 2 Jennie 8 3 Murphy 1 df2 Id Name Rank 1 John
st_normalize.sfc(x, c(x_range[1], y_range[1], x_range[2], y_range[2])) 中的错误：域必须具有正范围

背景我正在使用 ggplot2 geom point 按周绘制动物位置点作为底图我使用计算机中的形状文件这是我的数据的示例 datexample lt data frame animal c A B yearweek c 20202
如何使用内连接和 Case 语句更新表

问题 Table1 CatId Type Qty 8 O 10 8 N 20 8 U 30 30 N 5 30 O 15 30 NULL 25 Table2 catId Old New Useless Other 8 100 70 140
为什么抛出或捕获的类型必须从 System.Exception 派生

因此出于好奇我想看看异常类有什么特别之处允许它与关键字一起使用Throw而标准课程则不然我发现的是 Exception 类实现了以下内容 public class Exception System Object System Run
.NET 程序集绑定，我可以将一个程序集映射到另一个程序集中的版本吗？

早上好是否可以将程序集请求映射到另一个程序集中的版本例如我们的产品使用NHibernate 3 2 我们正在转向 NServiceBus 3 2 2 对于 DBSubscription 存储它使用 NHibernate 并且采用 NH
在 Angular 模板中创建本地绑定上下文

假设我有一个要绑定的深层嵌套对象图 div model rootProperty div div div model some deeply nested property with a donut name div div model s
CMake include() 与 find_package() 的默认搜索路径

我在 Debian 机器上安装了 VTK6 它将所有 CMake 文件放置在 ls usr lib cmake vtk 6 3 VTKConfig cmake vtkModuleAPI cmake 当我做 find package VTK
UWP 显示全屏弹出窗口、ContentDialog 或 Flyout

我需要在我的 UWP 应用程序中显示全屏对话框在应用程序窗口边界中但似乎无法使其工作我尝试过 ContentDialog 仅显示垂直拉伸且 FullSizeDesired True 弹出窗口甚至尝试在其后面的代码中设置宽度和高度也不
在 ScalaCheck 中生成选项[T]

我试图在 ScalaCheck 中生成可选参数但没有成功似乎没有直接的机制可以实现这一点 Gen containerOf Option Thing thingGenerator 失败因为它找不到隐式Buildable Thing Op
有效地广播具有多个变量的大型数据集

我在尝试着dcast大型数据集数百万行我有一行用于到达时间和出发地另一行用于出发时间和目的地有一个id识别这两种情况下的单位它看起来类似于 id time movement origin dest 1 10 06 2011 15

有效地广播具有多个变量的大型数据集

有效地广播具有多个变量的大型数据集 的相关文章

随机推荐

热门标签

有效地广播具有多个变量的大型数据集的相关文章