data.table join + update with mult='first' 给出了意想不到的结果

2023-12-24

在下面的示例中，我有一个用户表和一个事务表，其中一个用户可以有 0 个、1 个或多个事务。我执行连接+更新mult='first'在 users 表上尝试插入一列，指示每个用户第一次发生事务的日期。

library(data.table)  # v1.10.4

# Download data
users <- fread("https://raw.githubusercontent.com/ben519/DataWrangling/master/Data/users.csv")
transactions <- transactions <- fread("https://raw.githubusercontent.com/ben519/DataWrangling/master/Data/transactions.csv")

# Convert date columns to Date type
    users[, `:=`(Registered = as.Date(Registered), Cancelled = as.Date(Cancelled))]
    transactions[, TransactionDate := as.Date(TransactionDate)]

users
   UserID     User Gender Registered  Cancelled FirstTransactionDate
1:      1  Charles   male 2012-12-21       <NA>           2012-08-26
2:      2    Pedro   male 2010-08-01 2010-08-08           2013-12-23
3:      3 Caroline female 2012-10-23 2016-06-07           2016-05-08
4:      4  Brielle female 2013-07-17       <NA>                 <NA>
5:      5 Benjamin   male 2010-11-25       <NA>                 <NA>

transactions
    TransactionID TransactionDate UserID ProductID Quantity
 1:             1      2010-08-21      7         2        1
 2:             2      2011-05-26      3         4        1
 3:             3      2011-06-16      3         3        1
 4:             4      2012-08-26      1         2        3
 5:             5      2013-06-06      2         4        1
 6:             6      2013-12-23      2         5        6
 7:             7      2013-12-30      3         4        1
 8:             8      2014-04-24     NA         2        3
 9:             9      2015-04-24      7         4        3
10:            10      2016-05-08      3         4        4

##### For each user, insert the TransactionDate of the first matching row
users[transactions, FirstTransactionDate := i.TransactionDate, on="UserID", mult="first"]

# Unexpected result
users[UserID == 2]
   UserID  User Gender Registered  Cancelled FirstTransactionDate
1:      2 Pedro   male 2010-08-01 2010-08-08           2013-12-23  # <- shouldn't this be 2013-06-06?

为什么 FirstTransactionDate2013-12-23当交易表中较早的交易与用户 2 绑定时，是否为该用户设置？这是一个错误吗？

阅读文档data.table's mult更仔细地说，它说：

When i is a list (or data.frame or data.table) 和多行x与中的行匹配i, mult返回的控件："all"（默认），"first" or "last".

所以如果有多行x（“用户”）匹配i（“交易”），那么mult将返回第一行x。但是，在您的情况下，中没有多行x匹配到i，而是有多行i匹配到x.

正如@Arun建议的，最好的选择是改变你的周围，这样mult = "first"是相关的：

users[, FirstTransactionDate := transactions[users, TransactionDate, on="UserID", mult = "first"]]

users
#   UserID     User Gender Registered  Cancelled FirstTransactionDate
#1:      1  Charles   male 2012-12-21       <NA>           2012-08-26
#2:      2    Pedro   male 2010-08-01 2010-08-08           2013-06-06
#3:      3 Caroline female 2012-10-23 2016-06-07           2011-05-26
#4:      4  Brielle female 2013-07-17       <NA>                 <NA>
#5:      5 Benjamin   male 2010-11-25       <NA>                 <NA>

另一种选择是稍微改变你的合并：

users[transactions[,FirstTransactionDate := min(TransactionDate), by = UserID],
      FirstTransactionDate := FirstTransactionDate, on="UserID"]

我只是在其中创建第一个交易日期transactions数据集。这会被合并多次，但应该没问题，因为它始终是相同的值UserID.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

dataTable

data.table join + update with mult='first' 给出了意想不到的结果的相关文章

收集四列，其中两个键中包含值

已经提出了类似的问题但它们都涉及在一个关键列中收集多个列我需要两个键中的多个列这是我的数据框 ID measure A 1 measure A 2 measure B 1 measure B 2 1 8 25 23 5 4 5 2 8
将函数应用于矩阵列表

我有一个矩阵列表注意它们的维度与此示例不同 x lt matrix 1 10 ncol 2 y lt x 300 mylist lt list x y 我想运行一个函数networklevel在矩阵列表中的每个矩阵上该函数有各种可以计
R：如何将描述小时、分钟和秒的非直观字符串转换为可行的 POSIXct 格式以执行标准算术？

我在 R 中有一个数据集其值采用小时分钟和秒格式然而有些值只有小时和分钟有些值只有分钟和秒有些值只有分钟有些值只有秒它的格式也不是很有利样本数据如下 example lt as data frame c 22h28m 17
关于子组的新列和另一列中的百分比范围

我有一个如下所示的示例 df df test lt data frame Group Name c Group1 Group2 Group1 Group2 Group2 Group2 Group1 Sub group name c A A
mlogit：需要 TRUE/FALSE 时缺少值

我有来自离散选择实验 DCE 的数据该实验研究了来自不同行业的个人的招聘偏好我已经格式化为长格式我想使用 mlogit 进行建模我已导出数据并且可以使用 asclogit 命令在 Stata 中成功运行模型但在 R 中运行时遇到
如何使用 ggplot2 对曲线下的区域进行着色

我一直在尝试使用 ggplot2 生成类似于此 R 图形的绘图 xv lt seq 0 4 0 01 yv lt dnorm xv 2 0 5 plot xv yv type l polygon c xv xv lt 1 5 1 5 c y
使用 2 个向量参数翻转函数

我想对需要 2 个向量参数的函数应用滚动这是使用 data table 的示例不起作用 library data table df lt as data table cbind data frame x 1 100 y 101 200
如何在R中将英尺转换为厘米？

我得到了一个高度的字符向量如下所示 859 5 10 5 8 5 11 6 0 5 10 6 2 5 11 6 2 6 2 5 7 5 9 5 7 6 1 6 0 5 11 6 0 6 5 6 1 6 1 5 10 5 11 5 11 6
在防风草模型上使用 VIP 包计算重要性度量

我正在尝试使用 vi firm 在防风草中制作的逻辑回归模型上计算特征重要性对于正则表达式我将使用 iris 数据集并尝试预测观察结果是否为 setosa iris1 lt iris gt mutate class case when
如何在 R Markdown 中的内联 LateX 方程中输出 R 变量的值（即动态更新）

我无法找到一种方法将 r 代码实现到 R markdown 中的内联 LateX 方程中目标是如果变量值发生变化则不必对它们的值进行硬编码 Given values lt c 1 4 2 5 7 9 avg lt sum value
R中使用余弦距离的层次聚类

我想通过使用余弦相似度与 R 编程语言对文档语料库进行层次聚类但出现以下错误 if is na n n gt 65536L stop 大小不能为 NA 或超过 65536 需要 TRUE FALSE 时缺少值我应该怎么办为了重现它
跨类别和列自动化卡方

我有一个调查数据框其中包含几个问题列编码为 1 同意 0 不同意受访者行根据年龄年轻中年老年地区东中西等指标进行分类大约有30个类别总共 3个年龄 3个地区 2个性别 11个职业等在每个指标中类别不重叠且
在 R 的替换命令中取消引用字符串

我想知道是否可以unquote通过替换命令传递给表达式的字符串具体来说我使用 dplyr 从数据框中过滤和选择 gt w subject sex response 1 1 M 19 08 2 2 M 16 46 6 6 M 23 60
Shiny：从DT数据表中选定的行获取信息

我们正在尝试重新创建示例 https demo shinyapps io 029 row selection https demo shinyapps io 029 row selection 使用DT包来渲染数据帧而不是shiny包 DT
按组复制数据框

我有以下数据框 df structure list Group c 1 1 1 1 2 2 2 2 2 2 3 3 3 index c 1 2 3 4 1 2 3 4 5 6 1 2 3 row names c NA 13L class c
Shiny ：针对所有错误显示一条消息

我在 R 的 Shiny 中有一个应用程序我想处理消息以便用户看不到发生了什么错误我知道通过 tags style type text css shiny output error visibility hidden shiny ou
构造奎因（自我复制功能）

有没有人构建过 quine 生成自己源文本的副本作为其完整输出的程序 http www nyx net gthompso quine htm http www nyx net gthompso quine htm 在 R 中 quine 标
如何对范围内的行进行分组并考虑第三列？

我有一个遗传数据集我想对基因组中物理上靠近的遗传变异行进行分组我想对每条染色体基因组中某些点范围内的基因进行分组 chrom 我的点数据集包含变体行需要在一定范围内的位置如下所示 chrom low high 1 500 17
使用 data.table 左连接

假设我有两个数据表 s dataA A B 1 1 12 2 2 13 3 3 14 4 4 15 dataB A B 1 2 13 2 3 14 我有以下代码 merge test merge dataA dataB by A all d
在 R 中读入原始二进制数据并将其转换为整数

我有一个二进制文件其中包含编码为不同长度主要是 2 4 字节的有符号或无符号整数的数值为了处理这些数据我将文件的所需部分读取为raw向量与readBin 然后尝试将其转换为十进制问题是 R的内置函数有限制我不太明白比如没有l

随机推荐

尝试使用 HttpWebRequest 获取身份验证 cookie

我必须从安全站点抓取表格但无法登录该页面并检索身份验证令牌和任何其他关联的 cookie 我在这里做错了什么吗 public NameValueCollection LoginToDatrose var loginUriBuilder n
禁用 ASP.NET Web API 2 中的“所有”异常处理（为我自己的异常处理腾出空间）？

我想在中间件组件中连接异常处理如下所示 public override async Task Invoke IOwinContext context try await Next Invoke context catch Exceptio
如何在我的 C# 项目中安装“Html Agility Pack”？

我是一名 PHP 程序员对 C 完全陌生我已经从以下位置下载了 Html Agility Pack http html agility pack net http html agility pack net现在我需要将程序集添加到项目中
Thread 与 CompletableFuture

与使用 CompletableFuture 相比直接将代码传递给线程有什么优势 Thread thread new Thread gt do something thread start VS CompletableFuture
Phantomjs 使用 fs.write 追加到文件

如何使用附加到文件fs write 在同一文件上使用 fs write 会覆盖内容 var fs require fs try fs write file txt Hello World w fs write file txt Hello
Play 2.0 RESTful请求后处理

关于这个问题 https stackoverflow com questions 11060761 how can my play 2 app respond to different accept headers from the cli
没有模块命名常量

我想用 Tastypie 框架做示例应用程序我将 Tastypie 添加到已安装的应用程序并进行了修改urls py根据需要添加from tastypie api import Api 但当我打开http localhost 8000
iPhone 应用程序中出现奇怪的不需要的动画

我不想发布这个但我在我正在开发的 iPhone 应用程序中看到了不需要的动画我以前从未在我的应用程序或任何其他应用程序中见过这种情况此应用程序仅适用于 iOS 4 2 和 iPhone 即使在 iPhone4 上也会发生这种奇怪的情况
元组函数的 N 元版本

是否有一个库具有 n 元版本的元组函数例如first 等通过 Template Haskell 或使用其他方法理想情况下我想说 select 3 0 1 我们用它来表示 lambda x y z gt x y 对于一个通用的对于功能
如何在 Internet Explorer 中的全高表格中制作全高单元格

我有下一个html代码 table style width 100 height 100 tr td td tr table
我如何教 ProGuard 删除它保留但我不使用的东西？

我有一个 Android 项目proguard rules pro文件为app模块仅包含以下内容 ProGuard rules dontobfuscate dontwarn android arch util paging CountedD
获取特定格式日期的唯一 ID？

我有可以生成随机唯一 ID 的代码但是有没有办法可以编辑此代码以便它以特定方式如 yyyy mm dd 0001 获取日期我希望每次单击generateid按钮时最后4位数字加1 所以它将更改为 0002 这是我当前的代码有没有可
如何在 Java 中识别/处理文本文件换行符？

我从不同的系统获取不同格式的文件我需要将它们导入到我们的数据库中导入过程的一部分是检查行长度以确保格式正确我们似乎在处理来自添加了一个字符的 UNIX 系统的文件时遇到了问题我怀疑这是由于 UNIX 和 Windows 平台上的回车
Airflow：如何删除 DAG？

我已经启动了 Airflow 网络服务器并安排了一些 dags 我可以在 Web GUI 上看到这些 dags 如何删除正在运行并在 Web GUI 中显示的特定 DAG 有 Airflow CLI 命令可以做到这一点吗我环顾四周但找不
在 AMP 中运行 JavaScript

我对 JavaScript 应该如何在 AMP 页面中运行感到有点困惑据我了解我的 JavaScript 必须在 iframe 中执行此类 iframe 必须放置在页面下方至少从顶部起 75 并且必须通过 https 提供服务这确
std::runtime_error::runtime_error(const std::string&) 如何满足 std::Exception 对 throw() 的要求？

std exception要求它的构造函数是throw Yet std runtime error接受一个std string作为它的参数这表明它正在存储一个std string某处因此作业或复制构造必须在某个地方进行而对于std
http.sslVerify=false 不会在 git config 中禁用 ssl 验证

Issue 我一直在尝试通过来自企业 GitHub 服务器的 http 代理在 git 全局配置中设置从 Ubuntu AWS 实例克隆 git 存储库从代理克隆可以工作但是从实例克隆通过代理我收到以下错误致命无法访问 ht
在 Visual Studio 中调试 JavaScript 时出现“没有为当前文档加载符号”

我正在开发一个 NET 3 5 网站一个解决方案下有三个项目我在这个项目中使用 jQuery 我想使用 Visual Studio JavaScript 调试器来单步执行我的 JavaScript 代码如果我在任何 js 文件中设置断
QLabel Qt/c++ 文本的渐变颜色

我尝试为 QLabel 文本设置渐变颜色我正在尝试使用 setStyleSheet 函数但它不起作用我阅读这篇文章 https www qtcentre org threads 32781 don t work qlineargrad
data.table join + update with mult='first' 给出了意想不到的结果

在下面的示例中我有一个用户表和一个事务表其中一个用户可以有 0 个 1 个或多个事务我执行连接更新mult first 在 users 表上尝试插入一列指示每个用户第一次发生事务的日期 library data table v1

data.table join + update with mult='first' 给出了意想不到的结果

data.table join + update with mult='first' 给出了意想不到的结果 的相关文章

随机推荐

热门标签

data.table join + update with mult='first' 给出了意想不到的结果的相关文章