在 r 中使用 dbplyr 时，last() 函数的结果错误/错误

2024-06-25

我正在尝试跑步sql using r dbplyr并遇到了一个错误/错误结果使用时last()功能与dbplyr代码。我不确定我是否做错了或者是否确实存在错误。

客观的：使用 dbplyr 从表中获取每个员工的最新状态。

我尝试使用下面的代码来复制该问题。

1. Libs

library(tidyverse)
library(lubridate)
library(dbplyr)
library(RSQLite)

2. Data

df_emp_status <- data.frame(
  Emp_id = c(121,321,451,121,451,451,321,755),
  
  TimeStamp = c('29-07-2019 08:55:55','29-07-2019 09:02:55','29-07-2019 09:05:50',
               '29-07-2019 10:05:50','29-07-2019 10:07:50','29-07-2019 10:10:10',
               '29-07-2019 10:20:10','29-07-2019 11:00:00'),
  
  Status = c('IN','IN','IN','OUT','OUT','IN','OUT','IN')
          )

3. 数据库连接和数据

con <- DBI::dbConnect(RSQLite::SQLite(), ":memory:")
df_emp_status_sql <- copy_to(con, df_emp_status, overwrite = TRUE)

4. 目的：为了获得最后一个Status每位员工的

4.1 R代码

using 总结（）

df_emp_status %>% 
  group_by(Emp_id) %>% 
  arrange(Emp_id,TimeStamp) %>% 
  summarise(last_status = last(Status))

# A tibble: 4 × 2
  Emp_id last_status
   <dbl> <chr>      
1    121 OUT        
2    321 OUT        
3    451 IN         
4    755 IN

using mutate

df_emp_status %>% 
  group_by(Emp_id) %>% 
  arrange(Emp_id,TimeStamp) %>% 
  mutate(last_status = last(Status))

# A tibble: 8 × 4
# Groups:   Emp_id [4]
  Emp_id TimeStamp           Status last_status
   <dbl> <dttm>              <chr>  <chr>      
1    121 2019-07-29 08:55:55 IN     OUT        
2    121 2019-07-29 10:05:50 OUT    OUT        
3    321 2019-07-29 09:02:55 IN     OUT        
4    321 2019-07-29 10:20:10 OUT    OUT        
5    451 2019-07-29 09:05:50 IN     IN         
6    451 2019-07-29 10:07:50 OUT    IN         
7    451 2019-07-29 10:10:10 IN     IN         
8    755 2019-07-29 11:00:00 IN     IN

上面的结果是正确的并且给了我预期的结果：

4.2 SQL/DBPLYR复制（给出错误的结果）

since last()不适用于summarise使用时dbplyr所以会用mutate() instead

df_emp_status_sql %>% 
  group_by(Emp_id) %>% 
  arrange(Emp_id,TimeStamp) %>% 
  mutate(last_status = last(Status))

# Source:     SQL [8 x 4]
# Database:   sqlite 3.39.4 [:memory:]
# Groups:     Emp_id
# Ordered by: Emp_id, TimeStamp
  Emp_id  TimeStamp Status last_status
   <dbl>      <dbl> <chr>  <chr>      
1    121 1564390555 IN     IN         
2    121 1564394750 OUT    OUT        
3    321 1564390975 IN     IN         
4    321 1564395610 OUT    OUT        
5    451 1564391150 IN     IN         
6    451 1564394870 OUT    OUT        
7    451 1564395010 IN     IN         
8    755 1564398000 IN     IN

Above results are wrong

4.3 查询交叉检查

df_emp_status_sql %>% 
  group_by(Emp_id) %>% 
  arrange(Emp_id,TimeStamp) %>% 
  mutate(last_status = last(Status)) %>% 
  show_query()

<SQL>
SELECT
  *,
  LAST_VALUE(`Status`) OVER (PARTITION BY `Emp_id` ORDER BY `Emp_id`, `TimeStamp`) AS `last_status`
FROM `df_emp_status`
ORDER BY `Emp_id`, `TimeStamp`

我尝试单独运行上面的查询，这也会抛出错误的结果.

4.4 正确查询我能够找到适用于所需结果的正确查询如何在sql中使用last_value() https://www.sqlservertutorial.net/sql-server-window-functions/sql-server-last_value-function/:

dbGetQuery(con,'
  SELECT
  *,
  LAST_VALUE(`Status`) OVER (
                            PARTITION BY `Emp_id` 
                                ORDER BY `Emp_id`, `TimeStamp`
                                RANGE BETWEEN 
                                  UNBOUNDED PRECEDING AND 
                                  UNBOUNDED FOLLOWING) AS `last_status`
FROM `df_emp_status`
ORDER BY `Emp_id`, `TimeStamp`
')

  Emp_id  TimeStamp Status last_status
1    121 1564390555     IN         OUT
2    121 1564394750    OUT         OUT
3    321 1564390975     IN         OUT
4    321 1564395610    OUT         OUT
5    451 1564391150     IN          IN
6    451 1564394870    OUT          IN
7    451 1564395010     IN          IN
8    755 1564398000     IN          IN

5、结论：

RANGE BETWEEN 
                                  UNBOUNDED PRECEDING AND 
                                  UNBOUNDED FOLLOWING

上面的代码对于获得正确的结果似乎很重要sql query with last_value所以 dbplyr 翻译还应该在它们的中包含上面的代码r to sql translation否则会给出错误的结果。

我不记得在哪里，但我记得看到过一些关于默认设置的内容PRECEDING and FOLLOWING。这些似乎是在使用 dbplyr 时隐式确定的，因此您可能无法直接设置它们。

适用于此应用程序的另一种方法是lead。尝试如下操作：

df_emp_status_sql %>% 
  group_by(Emp_id) %>% 
  arrange(TimeStamp) %>% 
  mutate(next_status = lead(Status)) %>%
  filter(is.na(next_status)) %>%
  select(-next_status)

这个想法是使用lead函数向每条记录添加下一个状态。每个的最后一条记录id将会缺少一个 (NA or NULL取决于语言的选择）值，因此您可以过滤该值。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

dbplyr

在 r 中使用 dbplyr 时，last() 函数的结果错误/错误的相关文章

R/ggplot2：如何匹配重叠区域图中的图例和绘图颜色？

我有两个面积图称为蓝色和绿色其中green大部分是在blue情节但在极少数点上它高于blue阴谋我想使用透明度说alpha 0 2对于两者并且还能够为每个指定颜色我现在的问题是自从green情节主要是在blue地块其
在ggplot2中添加水平线到绘图和图例

这段代码创建了一个漂亮的图但我想在 y 50 处添加一条水平黑线并让图例显示一条黑线并在图例中显示文本 cutoff 但在图例中保留源点我可以使用 geom line 添加该行但无法在图例中获取该行 library ggplot2
用于检查和批量线性模型的数据表选项

我想知道是否有data table用于从数据集中批量处理线性模型并首先进行检查的选项我需要对每个唯一标识符运行一堆线性模型但首先我需要进行检查对于每个唯一的 id 和年份我需要检查是否有至少 24 个月的先前每月数据但不超过 60
在 dfm 中查找非英语标记并将其删除

在 dfm 中如何检测非英语单词并将其删除 dftest lt data frame id 1 3 text c Holla this is a spanish word English online here Bonjour commen
使用 ggplot2 进行分面 qqplots

假设我有以下数据 datapoints1 data frame categ c rep 1 n rep 2 n vals1 c rt n 1 2 rnorm n 3 4 datapoints2 data frame categ c rep
从 R 中的 glm 中提取系数

我进行了逻辑回归结果如下 ssi logit single age coefficients coefficients Intercept age 3 425062382 0 009916508 我需要选取系数age 目前我使用以下代码
将鼠标悬停在 ggplot 上时更新 CSS 和渲染工具提示以错误的顺序发生

我在这里构建了一个虚拟应用程序它为 ggplot 生成悬停消息并确保它们保持在屏幕边界内我编写了一些计算来确定所需的 CSS 更正并将其发送到服务器它基于将悬停消息保留在此处的第一次尝试 SO问题 https stackoverfl
ggplot2 黑白配色方案的建议

我正在使用 ggplot2 生成许多结构如下的图表有没有一种简单的方法可以制作出黑白效果很好的东西我确实读过这个question https stackoverflow com questions 2895319 how to add
两个数据框之间逐元素的百分比变化

我有 2 个数据框它们具有相同数量的匹配列和行例如 df 2010 lt data frame col1 c Connecticut Delaware District of Columbia Florida Georgia col2
使用 R 绘图将目录添加到 PDF

我正在 R 中创建大量绘图并将它们保存为 PDF 使用 grDevices pdf 有没有一种简单的方法可以在创建 PDF 时将元数据目录添加到 PDF 中我并不是想添加一个单独的页面而是添加一个 TOC 像 Preview app
从 r 中的数据帧中删除每第 n 列

我试图通过删除每第三列来减小数据框的大小这是我的示例数据框 example data frame x c 1 2 3 4 y c 1 2 3 4 z c 1 2 3 4 w c 1 2 3 4 p c 1 2 3 4 q c 1 2 3
如何在 dbplyr 中使用自定义 SQL 函数？

我想计算数据库中的 Jaro Winkler 字符串距离如果我将数据带入 R 使用collect 我可以轻松地使用stringdist函数从stringdist包裹但我的数据非常大我想过滤 Jaro Winkler 距离before将
在 dplyr tbl_df 中获取删除列的最佳实践

我记得 2001 年 r help 上的一条评论说drop TRUE in data frame是 R 历史上最糟糕的设计决策 dplyr纠正这一点并且不会隐式删除当尝试将旧代码转换为dplyr风格这会引入一些讨厌的错误d 1 or d
R ggplot结合颜色图例和不同因子长度的填充

我正在使用不完整因子设计的数据绘制图表由于设计的原因我的颜色手动比例和填充手动比例的长度不同因此我得到了两个传说我怎样才能删除其中之一或者更好地将它们组合起来我看过这些问题合并单独的大小并填充 ggplot 中的图例 http
如何根据子字符串匹配选择 R data.table 行（类似于 SQL）

我有一个带有字符列的 data table 并且只想选择其中包含子字符串的行相当于SQLWHERE x LIKE substring E g gt Months data table Name month name Number 1 12
我们可以有更多错误（消息）吗？

在 R 中如果函数使用变量有没有办法弹出错误消息未在函数体内声明即我希望有人标记这种类型的函数 aha lt function p return p n 看如果某个地方碰巧有一个 n 变量 aha p 2 会给我一个答案因为
在子目录中构建共享库

我正在尝试构建一个使用一些 C 代码的 R 包我有一个编译为可执行文件的 C 库可以从命令行调用有一个与之关联的 Makefile 我正在尝试获取信息here http cran r project org doc manuals R
通过环境.yml 文件使用 conda 安装 R 包

通常我会创建 conda 环境例如 conda env create f environment yml conda activate env name 通常我使用 Python 工作典型的environment yml简单的文件可能看
如何为 R 中接下来的 2 个单元格复制相同的列值[重复]

这个问题在这里已经有答案了我正在尝试使用 R 为列中接下来的 2 个单元格复制相同的列值我有以下形式的数据框 Time World Cate Data 1994 Africa A 12 1994 B 17 1994 C 22 1994
为什么 NaN^0 == 1

受到早期高尔夫代码的提示为什么会 gt NaN 0 1 1 这非常有道理NA 0为 1 因为NA缺少数据并且any数字提高到 0 将得到 1 包括 Inf and Inf 然而NaN应该代表非数字那么为什么会这样呢当帮助页面出现时

随机推荐

赋值从指针生成整数，无需强制转换

在下面的代码中我在分配时遇到错误len1排列a错误是 assignment makes integer from pointer without a cast 请帮我 void main int i 0 char a 7 0x00 0xd
未知发布者小程序浏览器、签名 jar

我无法理解在部署我的项目时在浏览器中运行小程序的问题出在哪里 http docs oracle com javase tutorial deployment applet deployingApplet html http docs ora
&&' aria-label='std::ostream {又名 std::basic_ostream} Ivalue 为 'std::basic_ostream&&'> std::ostream {又名 std::basic_ostream} Ivalue 为 'std::basic_ostream&&

在此代码中我尝试将迭代器移动 10 个元素 include
ImportError：无法从“azure.storage.blob”导入名称“BlockBlobService”

我正在尝试将 Azure blob 容器中的文本文件从 ANSI 编码转换为 UTF 8 编码而不使用 python 在本地下载文件当我尝试导入时出现以下错误块Blob服务在我的 Python 代码中处理 Azure Blob 存储我
循环遍历多维数组

我正在使用 php 和 dropbox api 开发一个应用程序并尝试循环遍历多维数组并输出到表中到目前为止这是我的代码
在使用 Phoenix 4.5 的 CDH 5.4 上运行 Spark 作业时未找到 PhoenixOutputFormat

我通过重新编译源代码设法在 Cloudera CDH 5 4 上配置 Phoenix 4 5 sqlline py效果很好但火花有问题 spark submit class my JobRunner master yarn deploy
UICollectionView 和补充视图（标题）

尝试将补充视图添加到我的UICollectionView作为标题我在让它工作时遇到问题我用的是自定义的UICollectionViewFlowLayout返回一个contentSize总是比框架大至少 1 像素我使用的是UIFresh
SAS 显示管理器命令

SAS 显示管理器是 SAS 系统的命令行界面它作为遗留设施保留在 Base SAS 中然而关于如何使用此功能的在线文档充其量也很少而且谷歌搜索也没有什么成果常见的 DM 命令是 CLEAR LOG 清晰的输出 WPGM 我的问题
各种 ISubject 实现的作用是什么以及何时使用它们？

我非常清楚Subject类的作用以及何时使用它但我刚刚浏览了msdn上的语言参考发现还有各种其他ISubject实现例如异步主题行为主体重播主题由于文档非常薄弱因此每种类型的意义是什么在什么情况下您会使用它们这些主题都有
Structure 中的无参数构造函数

继从这个问题 https stackoverflow com q 32122660 592111关于在中使用不同的 Visual Basic 版本Visual Studio 2015 http en wikipedia org wiki M
如何在 SignalR 客户端中将 async/await 与 hub.On 一起使用

我有一个与 SignalR Hub 服务器通信的 Net Windows 服务客户端大多数客户端方法都需要时间才能完成当收到来自服务器的调用时我如何或需要包装目标方法 hub On以避免警告由于不等待此调用因此在调用完成之
heroku 上的 Sidekiq - 错误 R14（超出内存配额）

我有一个在 heroku 上运行的 sidekiq 进程在运行一段时间后崩溃并显示以下错误消息错误 R14 超出内存配额谁能给我任何关于如何开始诊断正在发生的事情的指示没有任何明显的原因可能导致这种情况尝试降低并发数 Sideki
类型定义：期望UnionAll，得到TypeVar

在 v0 6 的 Julia 手册中我发现以下内容 abstract type Pointy T end struct Point T lt Pointy T x T y T end 这工作得很好我认为以下也应该 abstract ty
替换VBA中的变量字符串

我需要替换字符串中的某些内容但替换的内容可能会有所不同有可能 XY test XXxY test XXyyXx TEST yXyy Test 以及几乎任何其他空格和上述情况的组合我需要替换 test 部分并保留 XXX 所以当使用简
jtwitter 的 getPublicTimeline 替代方案

编辑从 MANIFEST MF 文件粘贴 Main Class winterwell jtwitter Twitter Implementation Version 2 9 0 Implementation Title JTwitter
Python - 单击 JavaScript 按钮

我在页面上有一个按钮需要单击该按钮才能按顺序转到下一页我想知道如何使用 Python 实现这一点该按钮似乎是 HTTP POST 请求和 Javascript 的混合体以下是该按钮的代码
如何修复错误消息“__builtin_avr_delay_cycles 需要编译时整数常量 make”？

我的程序没有使用 GCC AVR 编译器进行编译这是一款微处理器和液晶屏上的小游戏 move delay 200 delay ms move delay 它不喜欢这个 delay ms 是一个变量但它需要是一个变量因为我可以通过 AD
使用 Android 精确定位室内位置 - 不够准确

我正在尝试寻找一种在室内进行精确定位的解决方案特别是在大型拥挤的地方例如购物中心我尝试构建一个简单的应用程序尝试仅使用网络服务或 Wifi 网络来精确定位手机通常当Wifi开启时精度可以达到40 60米而当Wifi关闭且仅使用
如何使 ion-grid 像 Ionic 2 中的按钮一样可点击

我使用 ion grid 设计了表格但我的问题是要使其像按钮一样可点击我只能使用 click functionX 来调用函数例如这是我的网格
在 r 中使用 dbplyr 时，last() 函数的结果错误/错误

我正在尝试跑步sql using r dbplyr并遇到了一个错误错误结果使用时last 功能与dbplyr代码我不确定我是否做错了或者是否确实存在错误客观的使用 dbplyr 从表中获取每个员工的最新状态我尝试使用下面的代码来复

在 r 中使用 dbplyr 时，last() 函数的结果错误/错误

在 r 中使用 dbplyr 时，last() 函数的结果错误/错误 的相关文章

随机推荐

热门标签

在 r 中使用 dbplyr 时，last() 函数的结果错误/错误的相关文章