使用 2 个表创建新功能

2024-06-10

table1 <- data.frame(user_id=c(1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2),
                 product_id = c(14, 24, 38, 40, 66, 2, 19, 30, 71, 98, 7, 16),
                 first_order = c(1, 2, 1, 4, 5, 3, 2, 4, 2, 4, 2, 3),
                 last_order = c(4, 7, 5, 8, 8, 3, 4, 7, 5, 9, 4, 5))
table2 <- data.frame(user_id=c(1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2),
                 order_number=c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 1, 2, 3, 4, 5, 6),
                 days_cumsum = c(0, 7, 15, 26, 34, 43, 53, 59, 66, 74, 82, 91, 5, 11, 17, 24, 29, 35))

我想使用 table2 向 table1 添加新功能。 新功能是每个用户对每种产品的订购间隔。

例如，让我们看一下表1。第一行有（user_id==1）、（product_id==14）、（第一个订单==1）和（最后一个订单==4）。这意味着产品 14 是按订单 1、2、3、4 订购的。我们可以在表 2 中找到该订单号。新功能是关于第一个订单和最后一个订单之间的订单间隔。我们可以在表 2 中使用“days_cumsum”得出它，它是先前订单后天数的累积总和。第一行的新特征值为26(=26-0)。

我认为这可以通过 join 完成，但是我无法使用加入因为实际上每张桌子都很大。

所以我在 for 循环中使用下面的这个函数：

f <- function(i){
  a <- table2 %>% 
    filter(user_id==table1[i, 1]) %>% 
    filter(order_number==table1[i, 3] | order_number==table1[i, 4])

  ifelse(nrow(a)==2, a[2, 3] - a[1, 3], 999999) # first_order==last_order
}

它逐行计算每个新的特征值，但速度很慢并且需要大量计算。我经常遇到这个问题（使用两个表创建新功能），但每次我都会遇到困难。

有更好的代码吗？我正在等待你的帮助。

您能否分享运行时/计算时间比较join以及使用你的循环的版本？

下面是使用连接的解决方案。

library(tidyverse)

df1 <- as.data.frame(table1)
df2 <- as.data.frame(table2)


df1 %>%
  left_join(df2, by = c("user_id"="user_id", "first_order" = "order_number")) %>%
  rename(dayMin = days_cumsum) %>%
  left_join(df2, by = c("user_id"="user_id", "last_order" = "order_number")) %>%
  rename(dayMax = days_cumsum) %>%
  mutate(newVar = dayMax-dayMin) %>%
  select(user_id, product_id, first_order, last_order, newVar)

这使：

   user_id product_id first_order last_order newVar
     <dbl>      <dbl>       <dbl>      <dbl>  <dbl>
 1       1         14           1          4     26
 2       1         24           2          7     46
 3       1         38           1          5     34
 4       1         40           4          8     33
 5       1         66           5          8     25
 6       1          2           3          3      0
 7       1         19           2          4     19
 8       1         30           4          7     27
 9       1         71           2          5     27
10       1         98           4          9     40
11       2          7           2          4     13
12       2         16           3          5     12

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

dplyr

sqldf

使用 2 个表创建新功能的相关文章

评估 R 中字符串指向的函数

假设我有以下内容 x lt 1 10 squared lt function x x 2 y lt squared 我希望能够使用 y 定义的字符串来评估该函数像 eval y 这样的东西我知道这是错误的但会返回 1 1 4 9 16
将线条剪裁到绘图区域并在绘图区域外显示文本

我想限制绘图的可见 y 范围为了保留超出此范围的值我需要设置oob 出界 to rescale none这效果很好不过我还想在图外的页边空白处添加一些文本为了做到这一点我需要关闭剪辑这会导致超出范围的值被绘制在绘图区域之外的边
删除 R 中的胡须和异常值

我有连续的数据我想用它来绘制R s plotly with a box or violin没有异常值和胡须的绘图 set seed 1 df lt data frame group c rep g1 500 rep g2 700 rep
是否可以使用像“tz=NULL”这样的东西？...“as.POSIXct”默认为依赖于语言环境的时区（与“as.Date”不同），这会导致问题

我知道这是一个长期存在根深蒂固的问题但这是我经常遇到的问题而且我看到初学者R经常与此斗争我希望有一个令人满意的解决方案到目前为止我的谷歌和 SO 搜索都是空的但如果在其他地方重复请指出正确的方向 TL DR 有没有办法使用类
抑制 r markdown 中的控制台输出，但保留绘图

嗨我有以下降价块 r echo FALSE warning FALSE message FALSE error FALSE lapply obj function x plot x main some plot box axis 1 at
corr.test 与 cor.test p 值

我正在尝试使用 psych 包 psych 1 6 9 中的 corr test 但在使用 method spearman 时它似乎给出了与 cor test 不同的 p 值相关系数相同但 p 值不同我整理了一些示例代码和输出如下
使用 roxygen2 记录数据集

我正在尝试使用 roxygen2 记录 R 包中的一些数据集仅考虑其中之一 I have mypkg data CpG human GRCh37 RDa 其中包含一个名为的对象CpG human GRCh37 和一个名为 mypkg R
使用 dplyr 和 ggplot 绘制包括负值的多面水平发散堆积条形图

我希望这个例子能够让人清楚我想要堆叠条形其中中间条形跨越 0 因为它代表中性值这与李克特量表一起使用为了重现性我使用钻石数据集以下示例与我的用例足够接近并演示了我很难以正确的顺序获取好或正数据因此中性最接近 0 这是
如何使用 ggplot 绘制矩阵图

我想可视化一个矩阵 MAT lt matrix c 100 7 0 0 49 0 0 0 49 nrow 3 ncol 3 gt MAT 1 2 3 1 100 7 0 2 0 49 0 3 0 0 49 然而标准方法不能正确地对小数字进
R 中的 For 循环分配给数据框

运行 for 循环后我在分配给数据帧时遇到问题当我使用 print 时它给出了我的价值有什么解释吗 salesdate lt rep seq from as Date 2013 12 19 to as Date 2013 12 23
R 包“raster”在搜索“terra”最新版本时无法上传

我正在 Windows 10 中使用 RStudio 2021 09 2 中的 R 4 1 2 工作我正在处理空间数据包括矢量和栅格但三天前命令库栅格开始向我发出此警告错误 loadNamespace i c lib loc l
根据感兴趣的特定单词绘制高度相关的单词[关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案我正在尝试绘制一个单词的最高相关性例如我想绘制鲸鱼一词的最高十个相关性的图表有人可以帮我执行类似的命令吗如果有帮助的话我已经安装
对 R/Sweave 进行编程以获得正确的 \Sexpr 输出

我在为 Sweave 进行 R 编程时遇到了一些问题 rstats twitter 小组经常指出这里所以我想我应该把这个问题向大家提出我是一名分析师而不是程序员所以在我的第一篇文章中请放轻松问题是我正在使用 R 在 Sweave
是否可以在 R 中创建自定义 pch 形状？

R 中的许多绘图函数都使用图形参数pch指定数据点的形状根据R 文档 https www rdocumentation org packages graphics versions 3 6 2 topics points 有 26 个矢量
将英寸高度的字符向量转换为厘米？

我得到一个字符向量 tibble H c 6 2 5 10 5 5 5 1 5 5 5 4 我想将其转换为厘米请告知我该怎么做有几种方法可以使用 1 阅读与fread粘贴到单个字符串后 library data table fread
在R中提取其他两个字符串之间的字符串

我试图找到一种简单的方法来提取出现在两个已知子字符串之间的未知子字符串可以是任何内容例如我有一个字符串 a lt anything goes here STR1 GET ME STR2 anything goes here 我需要提取
R 中的频率加权，与 Stata 的结果比较

我正在尝试分析明尼苏达大学 IPUMS 数据集中的数据1990 年美国人口普查 http usa ipums org usa sampdesc shtml us1990a in R 我正在使用survey http faculty wash
在ggplot2中添加水平线到绘图和图例

这段代码创建了一个漂亮的图但我想在 y 50 处添加一条水平黑线并让图例显示一条黑线并在图例中显示文本 cutoff 但在图例中保留源点我可以使用 geom line 添加该行但无法在图例中获取该行 library ggplot2
动态显示仪表板页面

我有一个实用的闪亮应用程序它使用shinydashboard包裹新功能需要特定于用户的行为例如针对不同的用户名使用不同的数据集因此我打算显示登录表单验证凭据并设置反应值LoggedIn to true如果成功的话显示实际情况
R 中的微秒时间戳

在 CSV 文件中我有几列其中一列有时间戳其中每个时间戳是今天午夜经过的微秒每个 csv 文件仅包含一天内的数据因此这并不含糊我的问题是如何将这些微秒时间戳解析为 R 多谢我的 CSV 文件的一部分 34201881666

随机推荐

NSRegularExpression 中的命名捕获组 - 获取范围组的名称

苹果表示 NSRegularExpression 基于 ICU 正则表达式库 https developer apple com library ios documentation Foundation Reference NSRegula
Python 多进程池。当其中一个工作进程确定不再需要完成工作时如何退出脚本？

mp set start method spawn total count Counter 0 pool mp Pool initializer init initargs total count processes num proc po
如何使用 netcat 发送文件并保持连接？

我发出命令 netcat serveraddress myport lt MY FILE 问题是一旦文件发送完毕 netcat 就会发送一条消息来关闭连接发送该文件后我需要从控制台写入消息我记得对标准输入做了一些事情是这样的吗 n
是什么决定了 getdents 返回目录条目的顺序？

背景是我有一个现有的应用程序其中列出了目录条目 strace 显示它只是调用 getdents 并按返回的顺序列出它们我希望它们以与不带参数调用 ls 相同的顺序显示是否可以通过某种方式更新目录数据来实现此目的 FS 是 ext4 如
CMake 错误：“add_subdirectory 未给出二进制目录”

我正在尝试将 Google Test 集成到更大项目的子项目中但找不到令我满意的解决方案我有两个限制 Google Test 的源代码已经位于项目结构中的某个位置因此不能使用 URL 从 git 存储库下载它 Google Test
iOS计算带有嵌入推文的html字符串的正确WKWebview高度

我正在使用 wkwebview 使用 loadHTMLString 方法加载给定的 HTML 字符串在 wkwebview didFinishNavigation 之后我通过评估 javascript document height 将
在Python中将多个zip文件合并为一个zip文件

我有多个具有相同结构的 zip 文件它们在根级别包含 XML 文件每个 zip 文件中的所有文件都是唯一的 zip 文件中没有重复项我需要将所有 zip 文件中的所有 XML 文件合并到一个 zip 文件中与原始 zip 文件具有相
MySQL全文后缀搜索（布尔模式）-(*apple)

在布尔模式下apple 会发现apple apples applestore 但它不会找到我废话 Mapple Trapple 所以我尝试使用 apple但这行不通是不是无法通过全文搜索找到以 apple 结尾的单词或者我从文档中遗漏
Python：for 循环 - for i in range(0,len(list) 与 for i in list

这是一个非常简单的Python 力学问题为什么我不能只说 for i in range original list 而不是 for i in range 0 len original list 人们通常使用范围而不是前者吗谢谢 If I
Node.js 问题 :: Angular 未定义 :: 找不到 Bower 包 :: Node gyp 和 Python

Issue 在浏览器中生成并启动新的 jHipster API 后我遇到了以下问题未捕获的引用错误角度未定义 Before我安装的最新一代 node js yo bower grunt cli 根据指导方针 https jhipste
如何使用jquery验证器来确定一个字段的值大于另一字段？

我的表单中有两个字段我想为它们添加一条规则 id2 的值不能小于 id1
Android 6 上的 Fabric Beta 中出现错误“软件包似乎已损坏”

我所有使用 Android 6 的 Beta 测试人员在从 Beta 安装我的应用程序时都会遇到此错误应用程序未安装该软件包似乎已损坏对于 Android 7 的用户来说没有问题该APK可以直接安装在所有设备上包括Beta中出现错
使用 simplexml 获取子属性

xml 数据如下所示
maven：没有主要清单属性

我正在开发我的 web java 项目当我尝试运行由 maven 构建的 java jar 文件时出现错误 no main manifest attribute in project name 我认为原因是maven找不到我的主类我创
CSS mix-blend-mode 可以与转换一起使用吗？

显然 mix blend mode 不能很好地配合transform translate and z index 将其中任何一个应用到某些文本元素将立即取消混合混合模式效果问题这是一个已知的限制吗有没有基于 CSS 的解决方法我知道
使用 jquery tokeninput 和acts_as_taggable_on

我已经实现了这篇文章中概述的框架如何使用 jquery Tokeninput 和 Acts as taggable on https stackoverflow com questions 6674127 how to use jquer
引用自己的对象属性

执行以下操作是否有问题 var myObject name Johnny init function body mousemove this setStatus setStatus function ev body append div M
php、curl、标题和内容类型

我在处理服务器返回的curl 和标头时遇到一些问题 1 my website com index php 上的 php 文件如下所示修剪版本 my content
React jest 和 MSAL 收到 BrowserAuthError

我正在尝试测试一些使用 MSAL 进行身份验证的组件到目前为止我有一个简单的测试测试我的组件是否可以渲染如下所示 let container beforeEach gt container render
使用 2 个表创建新功能

table1 lt data frame user id c 1 1 1 1 1 1 1 1 1 1 2 2 product id c 14 24 38 40 66 2 19 30 71 98 7 16 first order c 1 2

使用 2 个表创建新功能

使用 2 个表创建新功能 的相关文章

随机推荐

热门标签

使用 2 个表创建新功能的相关文章