先验算法

2023-11-22

我之前曾多次听说过 Apriori 算法，但从未有时间或机会深入研究它，有人可以用简单的方式向我解释该算法的工作原理吗？另外，一个基本的例子会让我更容易理解。

先验算法

它是一种用于数据集中频繁模式挖掘的候选生成和测试方法。有两件事你必须记住。

Apriori 剪枝原理 -如果任何项集不常见，则不应生成/测试其超集。

阿普里财产 -给定的(k+1)-itemset是候选人(k+1)-itemset只有当它的每个人k-itemset子集是频繁的。

现在，这是分 4 个步骤的先验算法。

最初，扫描数据库/数据集一次以获取频繁的1-itemset.
Generate length k+1 候选人长度项集k频繁项集。
Test针对数据库/数据集的候选人。
当无法生成频繁集或候选集时终止。

解决的例子

假设有一个交易数据库如下，有 4 笔交易，包括交易 ID 和购买的商品。假设最小支持 -min_sup is 2。术语“支持”是指存在/包含某个项目集的事务数量。

交易数据库

tid  | items
-------------
10   | A,C,D
20   | B,C,E
30   | A,B,C,E
40   | B,E

现在，让我们创建候选人1-itemsets通过数据库的第一次扫描。它被简单地称为C_1如下。

itemset | sup
-------------
  {A}   |  2
  {B}   |  3
  {C}   |  3
  {D}   |  1
  {E}   |  3

如果我们测试这个min_sup，我们可以看到{D}不满足min_sup of 2。所以，它不会被包含在频繁的1-itemset，我们简称为集合L_1如下。

itemset | sup
-------------
  {A}   |  2
  {B}   |  3
  {C}   |  3
  {E}   |  3

现在，让我们第二次扫描数据库，并生成候选2-itemsets，我们简称为集合C_2如下。

itemset | sup
-------------
  {A,B} |  1
  {A,C} |  2
  {A,E} |  1
  {B,C} |  2
  {B,E} |  3
  {C,E} |  2

如你看到的，{A,B} and {A,E}项集不满足min_sup of 2因此它们不会被包含在频繁的2-itemset, L_2

itemset | sup
-------------
  {A,C} |  2
  {B,C} |  2
  {B,E} |  3
  {C,E} |  2

现在让我们对数据库进行第三次扫描并获取候选者3-itemsets, C_3如下。

itemset  | sup
-------------
 {A,B,C} |  1
 {A,B,E} |  1
 {A,C,E} |  1
 {B,C,E} |  2

你可以看到，{A,B,C}, {A,B,E} and {A,C,E}不满足min_sup of 2。所以他们不会被频繁列入3-itemset, L_3如下。

itemset  | sup
-------------
 {B,C,E} |  2

现在，我们终于可以计算出support (supp), confidence (conf) and lift (interestingness value)的价值观关联/相关规则可以由项集生成{B,C,E}如下。

         Rule       | supp  |  conf   |  lift
    -------------------------------------------
     B ->  C & E    |  50%  |  66.67% |  1.33
     E ->  B & C    |  50%  |  66.67% |  1.33
     C ->  E & B    |  50%  |  66.67% |  1.77
     B & C ->  E    |  50%  |  100%   |  1.33
     E & B ->  C    |  50%  |  66.67% |  1.77
     C & E ->  B    |  50%  |  100%   |  1.33

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Algorithm

apriori

先验算法的相关文章

使用主方法求解 T(n) = 2T(n/2) + n/log n 和 T(n) = 4T(n/2) + n/log n 之间的差异

我最近偶然发现了一个资源其中 2T n 2 n log ntypeMM 宣布复发无法解决我接受它作为一个引理直到今天另一种资源被证明是矛盾的在某种意义上根据资源下面的链接其中的 Q7 和 Q18 是建议分别在问题中的1和2
通过分布式数据库聚合作业优化网络带宽

我有一个分布式联合数据库结构如下数据库分布在三个地理位置节点每个节点集群有多个数据库关系数据库是 PostgreSQL MySQL Oracle 和 MS SQL Server 的混合体非关系数据库是 MongoDB 或 Ca
如何从一组重叠的圆计算多边形集？

这个问题是一些计算细节的扩展这个问题 https stackoverflow com questions 1667310 combined area of overlapping circles 假设有一组可能重叠的圆并且希望计算这组
固定大小集以包含给定集的最大数量

我有大约 1000 组尺寸 1 4 1 3 3 5 6 4 5 6 7 5 25 42 67 100 是否有可能找到包含最大数量的给定集合的大小为 20 的集合检查每一个100 80 20 集效率低下我不太确定这是 NP 完全的考虑
我需要一个支持高效随机访问和 O(k) 插入和删除的容器

我再次尝试问同样的问题question https stackoverflow com questions 3808708 delete parts of a dynamic array and grow other 但我最终提出了一个不同
寻找将集合映射到整数的双射函数

对于任意两个序列 a b 其中 a a1 a2 an 且 b b1 b2 bn 0a b具有相同的元素而不关心它们的顺序例如如果 a 1 1 2 3 b 2 1 3 1 c 3 2 1 3 则 f a f b f a f b 我知道有
数组中连续元素的最大乘积

我在现场面试的时候被问到了这个算法问题由于没有要求我签署保密协议我将其发布在这里寻求答案给定一个数组REAL不包含 0 的数字找到产生最大乘积的连续元素该算法应在线性时间内运行我考虑过以下方法使用两个数组第一个是利用DP思想
7 张牌扑克手牌评估器

有谁知道评估 7 张牌扑克牌的快速算法吗这比简单地暴力检查 7 张牌中每 21 个 5 张牌的组合更有效 Cheers Pete 我写了一篇JavaScript 核心评估方法仅使用位操作因此速度非常快考虑到这一点查看 21 种组合还
如何有效地找到距给定点最远的点（从一组点中）？

我正在寻找一种算法或数据结构来解决以下问题给你一组点 S 然后你会得到另一个点形式的 Q 查询对于每个查询找到集合中距离给定点最远的点集合中最多有 10 5 个点和 10 5 个查询所有点的坐标都在 0 到 10 5 范围内我想
Florian 的 Grisu2 算法如何工作？

我遇到了一个关于将 double 转换为 ascii 的问题经过搜索我得到了 Florian 的论文使用整数快速准确地打印浮点数 http www cs tufts edu nr cs257 archive florian loits
实施二分查找有哪些陷阱？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案二分查找比看起来更难实现虽然二分搜索的基本思想相对简单但细节可能出人意料地棘手 Donald Knuth 新的二分搜索实现中最有可
举例解释bpe（字节对编码）？

有人可以帮忙解释一下背后的基本概念吗BPE模型除了这张纸 https arxiv org abs 1508 07909 目前还没有那么多解释到目前为止我所知道的是它通过将罕见和未知的单词编码为子词单元序列来实现开放词汇表上的 NMT
用于开始和/或包含搜索的最快字符串集合结构/算法是什么

我有以下情况我有一个大的字符串集合比如说 250 000 平均长度可能是 30 我要做的就是在这些搜索中进行许多搜索大多数搜索都是 StartsWith 和 Contains 类型的该集合在运行时是静态的这意味着选择的集合的初始读
二维滑动窗口最小值/最大值

假设我们得到一个大小为 NxN 的像素整数矩阵和一个整数 k 窗口大小我们需要使用滑动窗口找到矩阵中的所有局部最大值或最小值这意味着如果某个像素与其周围窗口中的所有像素相比具有最小最大值则应将其标记为最小最大有一种著名的滑
需要解释搜索最小大和的算法

我正在解决 Codility 问题作为练习但无法回答其中一个问题我在互联网上找到了答案但我不明白这个算法是如何工作的有人可以引导我逐步完成它吗这是问题 You are given integers K M and a non em
如何对对象进行排序？（画家算法）

所以我有 4 个矩形形状我正在尝试应用排序算法画家算法 https en wikipedia org wiki Painter 27s algorithm 来知道我需要先绘制哪些形状在 3d 中然后绘制哪个形状 Note 相机位于右
高效列出目录中的所有子目录

请参阅迄今为止所采取的建议的编辑我正在尝试使用 WinAPI 和 C 列出给定目录中的所有目录文件夹现在我的算法又慢又低效使用 FindFirstFileEx 打开我正在搜索的文件夹然后我查看目录中的每个文件使用 FindNex
将名称字符串编码为唯一的数字

我有一大堆名字数以百万计他们每个人都有一个名字一个可选的中间名和一个姓氏我需要将这些名称编码为唯一代表这些名称的数字编码应该是一对一的即一个名称只能与一个数字相关联一个数字只能与一个名称相关联对此进行编码的明智方法是什么我
列出所有 k 元组，其条目总和为 n，忽略旋转

有没有一种有效的算法来查找所有序列k总和为的非负整数n 同时避免旋转如果可能的话完全避免顺序很重要但对于我正在解决的问题来说轮换是多余的例如与k 3 和n 3 我想要得到一个如下所示的列表 3 0 0 2 1 0 2 0 1
应用对数来导航树

我曾经知道一种使用对数从树的一片叶子移动到树的下一个有序叶子的方法我认为它涉及获取当前叶子的位置值排名并将其用作从根向下到新目标叶子的新遍历的种子一直使用对数函数测试来确定是否沿着右或左节点向下到达叶子我已经不记得如何运用

随机推荐

Laravel 5.3 -VerifyCsrfToken.php 第 68 行中的 TokenMismatchException：

当我登录我的应用程序并在输入后立即返回然后尝试注销时我从标题中收到错误消息我该如何解决该问题我在 laravel 5 4 中遇到了同样的问题然后以下命令对我有用 chmod 777 存储框架会话在此之前它是 chmod 7
使用postman发送json api对象

我正在使用 JSONAPI 规范http jsonapi org format status 我有如下数据 data type tag id 1 attributes name Test 如何使用 postman chrome 扩展向端点发
有没有办法在安装核心服务（Spark 等）后设置引导操作在 EMR 上运行？

有没有办法在安装核心服务 Spark 等后设置引导操作在 EMR 上运行我正在使用 emr 5 27 0 您可以提交一些脚本作为step 不是引导程序例如我制作了一个SSL证书更新脚本并通过步骤将其应用到EMR中这是我用 Pyt
BadPaddingException 解密 Android 中的加密数据

我对 Android 安全概念不熟悉我一直在阅读一些博客以了解我们可以使用公钥加密数据并可以使用相应的私钥解密数据加密似乎没有任何问题但是当我尝试解密它时它会抛出 javax crypto BadPaddingException
我的应用程序如何发送带有照片的彩信？

我想从我的应用程序撰写一条消息其中可以包含照片例如我在 iPhone 中输入了我的相册并打开了一张照片我可以单击选项然后单击彩信选项卡照片将添加到消息中然后我可以将其发送给我想要的任何联系人我想要的是当我单击应用程序上的按钮时
使用 gtools::mixedsort 或 dplyr::arrange 的替代方案

我正在尝试通过使用来订购数据框dplyr arrange 问题是我尝试排序的列包含一个固定字符串后跟一个数字例如由下面的虚拟代码生成的 dummydf lt data frame values rnorm 100 sortcol past
为什么 a[c] 覆盖 a[b]？ [复制]

这个问题在这里已经有答案了我不明白为什么输出是456 我认为a b 中的b是一个对象的属性而c是a的另一个属性它们与 var b 和 c 完全无关但为什么 a c 会覆盖 a b 呢 var a b key b c key c a
错误：“:”不是有效的资源名称字符

我已将 Eclipse 项目导入到 android studio 我用 google 搜索但没有得到正确的答案发生这些错误 D app src main res values strings xml Error Error is not
测量 Android 上的数据漫游流量？

刚从冰岛度过一个愉快的假期回来正在等待我的电话公司的数据漫游账单我希望尽可能限制我的流量但我想提前知道我使用了非常好的应用程序网络计数器但它根本没有测量漫游数据流量所以我想构建自己的应用程序仅测量漫游数据流量我有一些布尔值要开
使用 == 比较 numpy 数组的规则是什么？

例如尝试理解这些结果 gt gt gt x array 0 1 2 3 4 5 6 7 8 9 gt gt gt x np array 1 2 astype np float32 array 0 1 0 0 0 0 0 0 0 0 0 0
npm run 分段错误：11

我正在尝试 npm run HOT 1 node node modules bin react native webpack server start hot 收到此错误 gt email protected hot Users user
Chartkick 柱形图多种颜色

我在用着图表踢在我的 RoR 项目中生成图表效果非常好与谷歌图表一起我创建了一个柱形图 with 只有 2 个酒吧男性和女性现在客户希望每个条形都有不同的颜色那可能吗我看过这个帖子如何更改使用 Chartkick 创建的柱形
如何显示 bash 会话的当前进程树？

我想创建一个 bash 别名它为我提供从我正在使用的当前 bash 会话到 init 的进程树用例是为了知道我是否使用过bash or vi s shell命令我正在使用 MacOS X 我听说过pstree 但是好像只显示子进程而
在 Typescript 中向数组添加属性

我正在尝试向 Typescript 中的 Array 对象添加一个方法我已经在 SO 上找到了其他解决方案但这些解决方案都不适合我我的代码如下所示 interface Array average gt number Array pro
需要根据元素升序将列表划分为列表（Haskell）

假设我有这样的列表 4 5 6 7 1 2 3 4 5 6 1 2 我需要一个 Haskell 函数来将该列表转换为一个列表列表该列表由原始列表的片段组成这些片段按升序形成一系列所以结果应该是这样的 4 5 6 7 1 2 3 4 5
在不可变类中，为什么字段被标记为私有？

创建不可变类时将字段设为私有有什么好处我见过为什么在创建不可变类时字段被声明为私有但我没有从这篇文章中理解任何内容有人可以向我解释一下吗最好的解释方法是举个例子 public class Immutable private fin
如何使用 WMI 和 Python 弹出 CD？

使用 Windows 的 WMI 库如何弹出安装在特定 CD DVD 驱动器中的 CD ROM 由于我在 Python 上使用 wmi py 库因此我要求获取 WMI 文档或示例的源代码如果解决方案能够满足比 Windows 2000
scala - 将超过22个元素的json解析为案例类

这个问题或类似的问题之前曾发布过但是没有一个解决方案适用于最新的库经过广泛的搜索到目前为止我没有发现任何证据表明最流行的库的最新版本spray json or play json 或其插件可以处理这种情况有没有什么东西可以将超过
为什么java内部函数仍然有代码？

Java API 中有许多方法是内在函数但在查看源代码时仍然具有与其关联的代码例如 Integer bitCount 是一个内在函数但如果您打开 Integer 类文件您可以看到包含它的代码如果编译器 jvm 不一定使用该代码那
先验算法

我之前曾多次听说过 Apriori 算法但从未有时间或机会深入研究它有人可以用简单的方式向我解释该算法的工作原理吗另外一个基本的例子会让我更容易理解先验算法它是一种用于数据集中频繁模式挖掘的候选生成和测试方法有两件事你必须记住

先验算法

先验算法

解决的例子

先验算法 的相关文章

随机推荐

热门标签

先验算法的相关文章