数据挖掘——第一章:概述

2023-11-04

1. 数据分析与数据挖掘

1.1 数据分析

定义:数据分析是指采用适当的统计分析方法对收集到数据进行、概括和总结,对数据进行恰当地描述提取出有用的信息过程

例:连锁超市对上季度各种商品的销售量进行统计和分析,得出各种商品需求量和销售曲线,采购部门依次为依据进行采购策略调整

常见图:排列图,因果图,散布图,直方图,控制图
在这里插入图片描述
在这里插入图片描述

1.2 数据挖掘

数据挖掘 (Data Mining,DM) 是指从海量的数据中通过相关算法来发 现隐藏在数据中的规律和知识过程 。

为什么进行数据挖掘?

  • 数据的爆炸式增长 : 从TB 到PB
  • 数据是丰富的,急需发现知识 数据是丰富的,急需发现知识 !

通常 将数据 挖掘视为中“知识发现 ”的同义词,也可以认为数据挖掘是知识发现中的一个步骤。

1.3 知识发现(KDD)的过程

重点
在这里插入图片描述

1.4 数据分析与数据挖掘的区别

在这里插入图片描述

1.5 数据分析与数据挖掘的联系

  • 数据分析的结果往需要进一步挖掘才能得到更加清晰,而数据挖掘发现知识的过程也需要对先验约束进行一定调整而再次进行数据分析。
  • 数据分析可以将变成信息,而挖掘知识如果需要从数据中发现知识,往需要分析和挖掘相互配合共同完成任务。

2. 分析与挖掘的数据类型

2.1 数据库数据

数据库系统(DataBase System,DBS)由一组内部相关的数据(称作数据库)和用于管理这些数据的程序组成,通过软件程序对数据进行高效的存储和管理。
在这里插入图片描述

2.2 数据仓库数据

数据仓库(Data Warehouse,DW)是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理者决策过程。
在这里插入图片描述

2.3 事务数据

事务数据库的每个记录代表一个事务,比如一个车次的订票、顾客的一个订单等等。
在这里插入图片描述

2.4 数据矩阵

数据矩阵中的数据对象的所有属性都是具有相同性质的数值型数据。
在这里插入图片描述
在这里插入图片描述

2.5 图和网状结构

图和网状结构通常用来表达不同结点之间的联系,比如人际关系网、网站之间的相互链接关系等。
在这里插入图片描述

2.6 其他类型数据

  • 与时间相关的序列数据:不同时刻的气温、股票市场的历史交易数据
  • 数据流数据:监控中的视频数据
  • 多媒体数据:视频、音频、文本和图像数据

3. 数据分析与数据挖掘的方法

3.1 频繁模式

  • 频繁模式:数据中频繁出现的模式
  • 频繁项集:频繁在事务数据集中一起出现的商品集合
    例如:在超市的销售中哪些商品会频繁地一起被购买?
  • 关联与相关性
    例如:典型的关联规则
    尿不湿——啤酒

3.2 分类与回归

  • 分类与标签预测是找出描述和区分数据类或概念的模型或函数,以便能够使用模型预测类标号未知的对象的类标号
  • 分类预测类别(离散的、无序的)标号,回归建立连续值函数模型,也就是用来预测缺失的或难以获得的数值数据值。
  • 典型方法:决策树, 朴素贝叶斯分类,支持向量机,神经网络, 规则分类器, 基于模式的分类,逻辑回归 …
    在这里插入图片描述

3.3 聚类分析

聚类就是把一些对象划分为多个组或者“聚簇”,从而使得同组内对象间比较相似而不同组对象间差异较大。

例如:通信公司根据“工作时间通话时长”、“其他时间通话时长”、“本地通话时长”等属性对用户进行聚类分析,可以将用户划分为“商务用户”、“普通用户”以及“较少使用用户”。

3.4 离群点分析

离群点是指全局或局部范围内偏离一般水平的观测对象。

例如:当发现某个人的信用卡在不经常消费的地区短时间内消费了大量的金额,则可以认定这张卡的使用情况异常,可以作为离群点数据。

4. 数据分析与数据挖掘使用的技术

在这里插入图片描述

4.1 统计学方法

  • 统计学是通过对数据进行收集、整理、分析和描述,来达到对研究对象本质的理解和表示。
  • 在实际生活中,通常有一些过程无法通过理论分析直接获得模型,但可以通过直接或间接测量的方法获得描述目标对象的相关变量的具体数据,用来刻画这些变量之间关系的数学函数称为统计模型。

4.2 机器学习

  • 机器学习主要研究计算机如何像人类学习知识那样自主地分析和处理数据,并作出智能的判断,并通过获得的新的知识对自身进行发展和完善。 在这里插入图片描述
  • 机器学习方法:包括监督学习、无监督学习、半监督学习等。
  • 监督学习需要在有标记的数据集上进行。
    在这里插入图片描述
  • 无监督学习:可以在没有标记的数据集上进行学习,实质上无监督学习是一个聚类的过程。
  • 半监督学习:半监督学习主要考虑如何利用少量有标记的数据和大量未标记的数据来进行学习,其中标记的数据用来学习模型,而未标记的数据用来进一步改进类的边界。
    在这里插入图片描述

4.3 数据库与数据仓库

  • 数据库系统是为了解决数据处理方面的问题而建立起来的数据处理系统,注重于为用户创建、维护和使用数据库。
  • 数据仓库汇集了来自多个不同数据源的数据,通过数据仓库,可以在不同的维度合并数据,形成数据立方体,便于从不同的角度对数据进行分析和挖掘。

4.4 模式识别

  • 模式识别的本质就是抽象出不同事物中的模式,并根据这些模式对事物进行分类或聚类的过程。
  • 研究内容:文字识别、语音识别、图像识别、医学诊断以及指纹识别等。

4.5 高性能计算

高性能计算是指突破单个计算机资源不足的限制,使用多个处理器或多台计算机共同完成同一项任务的计算环境。
在这里插入图片描述

5. 应用场景及存在的问题

5.1 应用场景

  • 商务智能:通过数据挖掘等技术可以获得隐藏在各种数据中的有利信息,从而帮助商家进一步调整营销策略。
  • 信息识别:信息识别是指信息接受者从一定的目的出发,运用已有的知识和经验,对信息的真伪性、有用性进行辨识和甄别。
  • 搜索引擎:根据用户提供的关键词,在互联网上搜索用户最需要的内容。
  • 辅助医疗:对大量历史诊断数据进行分析和挖掘,有助于医生对病人的病情进行有效的判断。

5.2 存在的问题

  • 数据类型的多样性
  • 高维度数据
  • 噪声数据
  • 分析与挖掘结果的可视化
  • 隐私数据的保护
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

数据挖掘——第一章:概述 的相关文章

  • SpringBoot 整合 kafka 遇到的版本不对应问题

    SpringBoot 整合 kafka 需要在SpringBoot项目里增加kafka的jar 而最为关键的一点是版本要对应好 如果你的SpringBoot是2 0 3版本
  • 国际版阿里云/腾讯云:弹性高性能计算E-HPC入门概述

    入门概述 本文介绍E HPC的运用流程 帮助您快速上手运用弹性高性能核算 下文以创立集群 在集群中安装GROMACS软件并运转水分子算例进行高性能核算为例 介绍弹性高性能核算的运用流程 帮助您快速上手运用弹性高性能核算 运用流程如下图所示
  • Jmeter —— 录制脚本

    1 第一步 添加http代理服务器 在测试计划 添加 非测试元件 http代理服务器 2 第二步 添加线程组 这个线程组是用来放录制的脚本 不添加也可以 就直接放在代理服务器下 测试计划 添加 线程 线程组 顺便讲一下线程组执行顺序 set
  • Idea快捷键(快速开发)

    Idea快捷键 快捷键 功能 Alt Enter 快速修复选择 Alt Insert 生成代码 如set get 构造方法等 Alt 切换到左侧视图 Alt 切换到右侧视图 Shift Shift 搜索文件 Ctrl D 复制当前一行 插入

随机推荐

  • CH8-排序

    文章目录 1 基本概念和排序方法概述 1 1 排序方法的分类 1 2 存储结构 顺序表 2 插入排序 2 1 插入排序的种类 直接插入 折半插入 希尔排序 3 交换排序 3 1 冒泡排序 3 2 快速排序 4 选择排序 4 1 直接排序 4
  • 【Spring Security】UserDetails 接口介绍

    文章目录 UserDetails 的作用 UserDetails 接口中各个方法详解 UserDetails 的作用 UserDetails 在 Spring Security 框架中主要担任获取用户信息的接口 通过该接口就能拿到用户的信息
  • Android Studio 优先源码编译的framework.jar(使用系统隐藏的api)

    引言 场景 做系统开发或者想使用隐藏的api时 通常只能使用反射的方式 缺点 需要使用的api或变量太多时不方便使用 解决办法 将需要在编译时使用的jar包参与编译 不编译到产品apk里 使app运行时调用的是系统api 步骤 每一步都必须
  • 【DirectX12】2.示例三角形绘制

    示例三角形绘制 1 效果 下面只贴出关于dx的代码 有时间再详细说明 2 标头 h pragma once include pch h include LVEDebug h include LVESystem h include
  • bootstrap点击删除按钮弹出确认框实现

  • orge工具

    tortoisehg 3 2 1 x64 msi mercurial 3 2 1 x64 msi
  • 微信支付宝大规模补贴抢占刷脸支付入口

    刷脸支付相较于二维码 优势在于去掉了手机这一介质 但介质的缺失 也意味着人脸信息的泄露变得更加容易 刷脸支付的基本原理就是将终端硬件采集到的信息与云端的存储的信息进行比对 看信息是否一致 然后解锁完成人脸支付 如果云端生物数据库发生信息泄露
  • 【华为OD统一考试A卷

    华为OD统一考试A卷 B卷 新题库说明 2023年5月份 华为官方已经将的 2022 0223Q 1 2 3 4 统一修改为OD统一考试 A卷 和OD统一考试 B卷 你收到的链接上面会标注A卷还是B卷 请注意 根据反馈 目前大部分收到的都是
  • 微信小程序设置允许转发分享onShareAppMessage(Object object)

    在需要分享的页面js文件中写 Page onShareAppMessage const promise new Promise resolve gt setTimeout gt resolve title 自定义转发标题 2000 retu
  • 基于概率论的分类方法:朴素贝叶斯

    需要分类器做出分类决策 可以使分类器给出各个类别的概率估计值 然后选择概率最高的作为其的类别 在这里使用到了概率论中的贝叶斯公式 P A B P A P B A P B 其中P A B 是后验概率 P A 是先验概率 P B A P B 为
  • Python数据分析与展示第三课

    Matplotlib是python优秀的数据可视化第三方库 数据可视化 将数据以特定的图形图像的形式展现出来 Matplotlib由各种可视化的类构成的 使用方式 import matplotlib pyplot as plt as plt
  • 论文收录引用证明常见问题汇总

    学术论文在毕业 评职称 保研 考博 留学等方面均有重要意义 因此往往需要开具检索证明 然而 开具检索证明的前提是论文必须被收录 1 什么是论文收录引用证明 论文收录引用证明是用来证明作者在科研领域中的实力和成就 当用户需要查询其论文在指定数
  • 单链表实现多项式相加

    这个小项目用C语言实现 代码中有我的注释 思路 用链表的每个节点存储表达式的每一项 因此每个链表就是一个表达式 链表节点类型的定义 struct Node DataType elem 项的系数 Variate ch 常量和变量的标志 规定如
  • rand()每次产生的随机数都一样

    写了个程序 每次产生的随机数都是一样的 在调用之前已经初始化了随机数种子 用的是当前时间 可是还是得到一样的数 for int i 0 i lt 100000 i srand unsigned time NULL cout lt
  • shiro入门

    1 概述 Apache Shiro 是一个功能强大且易于使用的 Java 安全 权限 框架 借助 Shiro 您可以快速轻松地保护任何应用程序一一从最小的移动应用程序到最大的 Web 和企业应用程序 作用 Shiro可以帮我们完成 认证 授
  • Vue中获取input输入框值

  • 一个“制作午餐”的故事,帮助你理解并发和并行(上)

    导读 这是一个关于 午餐时间 的小故事 用于阐述 threading asyncio multiprocessing cloud functions 等内容 为了方便阅读并理解文章的内容 全文分上 下两篇 上篇主要讲解并发 下篇重点讲解并行
  • runtime交换方法的正确姿势

    runtime交换方法的正确姿势 说到Objective C大家就会想到黑魔法runtime 不知道runtime是什么的看这里 runtime是开源的 源码在这里 本文主要讲解如何利用runtime正确的交换方法 将会提到两种方式去交换
  • 在Linux的终端中显示BMPString的内容

    在上一篇博文中 介绍了如何在 Windows 的控制台界面下输出 BMPString 的内容 但是那里的方法在 Linux 下不适用 如果将那里的示例代码放到 Linux 下执行 输出的结果为乱码 产生乱码的原因在于 wchar t 类型的
  • 数据挖掘——第一章:概述

    文章目录 1 数据分析与数据挖掘 1 1 数据分析 1 2 数据挖掘 1 3 知识发现 KDD 的过程 1 4 数据分析与数据挖掘的区别 1 5 数据分析与数据挖掘的联系 2 分析与挖掘的数据类型 2 1 数据库数据 2 2 数据仓库数据