数据挖掘之关联规则挖掘的一些定义

2023-11-04

一、算法定义

关联规则挖掘用于发现隐藏在大型数据集中的令人感兴趣的联系,所发现的模式通常用关联规则频繁项集的形式表示。

关联规则反映了一个事物与其他事物之间的相互依存性关联性

如果两个或多个事物之间存在一定的关联关系,那么,其中一个事物发生就能够预测与之相关联的其他事情的发生。

关联规则挖掘用于知识发现而非预测,所以是属于无监督的机器学习算法。

二、经典例子

最为经典的栗子是啤酒与尿布。

沃尔玛在对商品销售数据进行数据挖掘分析时,发现啤酒和尿布经常被一起购买,这个关联关系的原因在于:过来买啤酒的爸爸总是会顺手再买尿布。将两者货架摆放在一起,其销量果然上升。

关联规则挖掘算法不仅被应用于购物篮分析,还被广泛的应用于网页浏览偏好挖掘入侵检测连续生产生物信息学领域

三、定义阐述

1、项集(Itemset)

指包含0个或多个项的集合,如包含k项则称为k-项集。

比如说一个顾客买了一袋子商品,那么这一袋子商品就是一个项集,其中的每一个商品就是一个项。

2、事务T与事务集D

一个事务T就是一个项集,每一个事务T均与一个唯一标识符Tid相联系。

不同的事务一起组成了事务集D,它构成了关联规则发现的事务数据库个数。

上边举得栗子中,每个顾客的一袋子商品(所有商品放到一个袋子里面)就是一个事务,那么以每个袋子单位,今天的销售量就是一个事务集。

3、支持度计数(Support count)

包含特定项集的事务个数,用符号 σ 表示,如 σ({milk,beer,bread})=2 ,表示今天同时有买这3种商品的人次有2个。

4、支持度(Support)

指包含特定项集的事务数与总事务数的比值,用符号 s 表示,如 s({milk,beer,bread})=2/5 ,表示今天有2/5的顾客一次性同时购买了这3种商品。

5、频繁项集(Frequent Itemset)

指满足最小支持度阈值(minsup)的所有项集。

这个最小支持度阈值是给定的。

6、关联规则

关联规则是指形如 X→Y 的蕴含表达式,其中X和Y是不相交的项集。

如{milk,diaper}和{beer}。

7、置信度(Confidence)

指包含指定{Y,X}的事务数与包含{Y}或{X}的事务数的比值,用符号 s 表示。

jug举个栗子。

8、关联规则挖掘问题

是指给定事务的集合T,关联规则发现是指找出支持度大于等于minsup并且置信度大于等于minconf所有规则,minsup和minconf是对应的支持度和置信度。

举个栗子。

给定最小支持度minsup为50%,最小置信度minconf为50%,挖掘关联规则 A→C .

支持度=support({A}&{C})=50%,

指定关联规则挖掘成功。

四、挖掘关联规则(Mining Association Rules)

大多数关联规则挖掘算法通常采取的一种策略是,将关联规则挖掘任务分解成如下两个主要的子任务:

1、频繁项集产生(Frequent Itemset Generation):

任务目标是发现满足最小支持度阈值的所有项集,这些项集称为频繁项集。

2、规则的产生(Rule Generation):

任务目标是从上一步发现的频繁项集中提取所有高置信度的规则,这些规则称为强规则(Strong Rule)。

五、关联规则挖掘过程

在挖掘出频繁项集之后,再利用频繁项集生成关联规则,具体步骤如下:

先给定最小置信度。

1、根据每个频繁项集,找到它所有的非空真子集。

2、根据这些非空真子集,两两组成所有的关联规则。

3、计算所有的关联规则的置信度,移除小于最小置信度的规则,得到强关联规则。

注意,如果一个频繁项集是{A,B},那么可能的一个关联规则是A->B,说明某人买了A,大概率也会买B,但顺序反过来是不成立的。

关联规则挖掘的定义:给定一个交易数据集T,找出其中所有支持度support >= min_support、自信度confidence >= min_confidence的关联规则。

  有一个简单而粗鲁的方法可以找出所需要的规则,那就是穷举项集的所有组合,并测试每个组合是否满足条件,一个元素个数为n的项集的组合个数为2^n-1(除去空集),所需要的时间复杂度明显为O(2^N),对于普通的超市,其商品的项集数也在1万以上,用指数时间复杂度的算法不能在可接受的时间内解决问题。怎样快速挖出满足条件的关联规则是关联挖掘的需要解决的主要问题。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

数据挖掘之关联规则挖掘的一些定义 的相关文章

随机推荐

  • Tomcat 目录列表···webloigc 目录列表···Weblogic修改端口号

    Tomcat web xml
  • PyCharm专业版破解

    0x01 下载JetbrainsCrack的jar包 下载链接 链接 百度云链接 提取码 8u4c 0x02 把JetbrainsCrack的jar包放入pycharm文件下的bin目录中 0x03 加上必要的文件代码 在bin目录下使用记
  • 题11:最短摘要的生成

    题目 Alibaba笔试题 给定一段产品的英文描述 包含M个英文单词 每个英文单词以空格分隔 无其他标点符号 再给定N个英文单词关键字 请说明思路并编程实现方法 String extractSurmary String descriptio
  • crout分解计算例题_化学方程式计算你真学会了吗?

    先看看视频 听听姚老师教的计算步骤吧 例题1 加热分解6 3g高锰酸钾 可以得到多少克氧气 分析 这道题是已知反应物的质量来求生成物的质量 即已知原料的质量求产品的质量 我们一起来看课本中的解题步骤 解 设加热分解6 3g高锰酸钾 可以得到
  • Java学习——String

    在上一篇我们讲到了一个必要重要的知识点 那就是Java中的类和对象 我们可以点击下面的链接来进行复习 CSDNJava学习 类和对象 上 AlwaysBeMyself的博客 CSDN博客CSDN 今天我们来讲下一个知识点 那就是Java中的
  • shift+空格,英文字母间距变大,半角全角转换

    shift 空格半角全角快捷键
  • 一文读懂舵机工作原理并运用(附代码)

    杂谈 自己拿到这一模块是也挺迷茫的 后来看了一些资料 也渐渐积累了些自己的理解 很多博文并没有将舵机讲明白 至少你待把PWM与角度如何换算讲清楚吧 所以笔者写这篇博文供大家学习掌握 如果你拿到一个舵机 该咋办 莫慌 往下看 第一步先要区分这
  • 【机器学习】树模型决策的可解释性与微调(Python)

    一 树模型的解释性 集成学习树模型因为其强大的非线性能力及解释性 在表格类数据挖掘等任务中应用频繁且表现优异 模型解释性对于某些领域 如金融风控 是极为看重的 对于树模型的解释性 我们常常可以通过输出树模型的结构或使用shap等解释性框架的
  • Jave Web 03 Cookie、Session

    1 会话 一个网站 如何证明你来过 客户端 服务端 服务端给客户端一个 信件 客户端下次访问服务端带上信件就可以了 cookie 服务器登记你来过了 下次你来的时候我来匹配你 seesion 2 保存会话的两种技术 1 cookie 客户端
  • Python爬虫入门教程!手把手教会你爬取网页数据

    其实在当今社会 网络上充斥着大量有用的数据 我们只需要耐心的观察 再加上一些技术手段 就可以获取到大量的有价值数据 这里的 技术手段 就是网络爬虫 今天就给大家分享一篇爬虫基础知识和入门教程 什么是爬虫 爬虫就是自动获取网页内容的程序 例如
  • 详解STM32 GPIO口中的推挽输出和开漏输出

    推挽输出 GPIO引脚线路经过两个保护二极管后 向上流向 输入模式 结构 向下流向 输出模式 结构 先看输出模式部分 线路经过一个由P MOS和N MOS管组成的单元电路 这个结构使GPIO具有了 推挽输出 和 开漏输出 两种模式 所谓的推
  • EduCoder_web实训作业--JavaScript学习手册九:字符串的常用方法

    第一关 请在此处编写代码 Begin var c a indexOf b var sum 0 while c gt 0 sum c c a indexOf b c b length return sum End 第二关 请在此处编写代码 B
  • jquery动态给下拉框select添加option

    jquery动态给下拉框select添加option 注意 有的框架如layui 需要额外添加form render 否则会失效
  • 华为ENSP的Stelnet、直连、串口连接、telnet连接登录

    华为ENSP设备登录的几种方式 一 直接打开终端窗口 启动设备后 直接双击设备即可 如下图所示 二 用ENSP中的PC连接线CTL到设备的console登录 步骤1 在左侧的连线中找到CTL线单击 如果没有CTL线说明ENSP的版本太低 如
  • 如何打印2019年每个月的第一个星期天的日期

    这是一个关于日期处理的题目 在这里我主要用了Calendar类的相关属性与方法 首先 我们来分析一下 我们可以从2019年1月1日 用while循环依次遍历 到2019年12月7日结束 每次加一天 利用if判断 满足在第一周且是周日的条件
  • 电脑重装系统后无法连接网络怎么处理

    最近小编的台式电脑重装系统后无法连接网络 发现很多朋友也有同样的情况 那么遇到这种情况我们要如何处理呢 下面小编就来为大家讲解一下台式电脑重装系统后无法连接网络处理方法 方法 步骤 方法一 检查本地连接问题 1 鼠标右键点击系统桌面上的 网
  • DocArray 0.20.0 发布!新增 Milvus 后端支持,更好地嵌套数据搜索,新增 RGB-D 格式的 3D 模型表示

    DocArray 是一个用于处理 传输和存储多模态数据的 Python 工具包 DocArray 提供便捷的多模态数据处理功能 具备基于 Protobuf 提供高性能的网络传输性能 同时也为多种向量存储方案提供统一的 API 接口 GitH
  • CTFShow-Web入门

    目录 爆破 web21 web22 web23 web24 web25 web26 web27 web28 爆破 web21 解题思路 考察burp的intruder模块 访问发现是前端验证 随便输入账号密码抓包发现是Basic认证 Bas
  • 【splishsplash】splishsplash入门使用

    本文的目地为总结splishsplash的入门使用方法 splishsplash是一个C 开源流体引擎 主要用于产生流体动画 它的核心算法是SPH法 资源汇总 github https github com InteractiveCompu
  • 数据挖掘之关联规则挖掘的一些定义

    一 算法定义 关联规则挖掘用于发现隐藏在大型数据集中的令人感兴趣的联系 所发现的模式通常用关联规则或频繁项集的形式表示 关联规则反映了一个事物与其他事物之间的相互依存性和关联性 如果两个或多个事物之间存在一定的关联关系 那么 其中一个事物发