我遇到了麻烦arulesSequences
R 中的库
我有一个带有时间信息的事务数据集(在这里,我们使用默认的zaki
数据集)。我用黑桃(cspade
函数)来查找数据集中的频繁子序列。
library(arulesSequences)
data(zaki)
frequent_sequences <- cspade(zaki, parameter=list(support=0.5))
现在,我想要的是为每个序列(即每个客户)找到它支持的频繁子序列。我尝试了各种组合%in%
and subset
没有取得多大成功。
例如,对于第二个客户,初始交易inspect(zaki[zaki@itemsetInfo$sequenceID==2])
are:
items sequenceID eventID SIZE
5 {A,B,F} 2 15 3
6 {E} 2 20 1
整个数据集中的频繁序列inspect(frequent_sequences)
are:
items support
1 <{A}> 1.00
2 <{B}> 1.00
3 <{D}> 0.50
4 <{F}> 1.00
5 <{A, F}> 0.75
6 <{B, F}> 1.00
7 <{D}, {F}> 0.50
8 <{D}, {B, F}> 0.50
9 <{A, B, F}> 0.75
10 <{A, B}> 0.75
11 <{D}, {B}> 0.50
12 <{B}, {A}> 0.50
13 <{D}, {A}> 0.50
14 <{F}, {A}> 0.50
15 <{D}, {F}, {A}> 0.50
16 <{B, F}, {A}> 0.50
17 <{D}, {B, F}, {A}> 0.50
18 <{D}, {B}, {A}> 0.50
我希望看到的是,客户 2 支持频繁序列 1、2、4、5、6、9 和 10,但不支持其他序列。
我也可以满足相反的信息:哪些是支持给定频繁子序列的基本序列? R 以某种方式知道这个信息,因为它使用它来计算频繁序列的支持度。
在我看来,这应该很容易(而且可能是!),但我似乎无法弄清楚......
任何想法 ?