数据挖掘知识点总结

2023-11-19

1.数据挖掘产生的背景?驱动力是什么？
四种主要技术激发了人们对数据挖掘技术的开发、应用和研究的兴趣：
超大规模数据库的出现，如商业数据仓库和计算机自动收集数据记录手段的普及
先进的计算机技术，如更快和更大的计算能力和并行体系结构
对海量数据的快速访问，例如分布式数据存储系统的应用
统计方法在数据处理领域应用的不断深入
大量信息给人们带来方便的同时也带来一大堆问题：
信息冗余、信息真假难以辨识、信息安全难以保证、信息形式不一、难以统一处理等。“数据过剩”、“信息爆炸”和“知识贫乏”等现象相继产生。
数据挖掘首次出现在1989年举行的第十一届国际联合人工智能学术会议上。数据挖掘思想来自于机器学习、数据库系统、模式识别和统计。需要是发明之母。近年来，数据挖掘引起了信息产业界的极大关注，其主要原因是存在大量数据，可以广泛使用，并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用，包括商务管理，生产控制，市场分析，工程设计和科学探索等。
驱动力：DRIP（Data Rich Information Poor）

2.大数据的特点是什么？
high-volume,high-veclocity,high-variety
高容量、高覆盖率、高品种

3.什么是数据挖掘？
数据->知识（规律）
数据挖掘是从数据中发现知识，从大量的数据中挖掘那些令人感兴趣的，有用的，隐含的、先前的、未知的、和可能有用的模式或知识。数据挖掘并非全自动的过程，在各个环节都可能需要人为参与。
数据挖掘可以从技术和商业两个层面上定义。从技术层面上看，数据挖掘就是从大量数据中，提取潜在有用的信息和知识的过程。从商业层面看，数据挖掘就是一种商业信息处理技术，其主要特点是对大量业务数据进行抽取、转换、分析和建模处理，从中提取辅助商业决策的关键性数据。

4、数据挖掘一般流程是什么？以及业界数据整合&分析的过程是什么？举例数据挖掘在各个领域的应用。
一般流程：
在这里插入图片描述
业界数据整合&分析的过程：

如医疗、交通、公共安全、个性化医疗、社交网络、精准消费。

5、数据挖掘的四大主要任务？他们的区别是什么？
1.分类预测：根据一组对象和其类标签，构建分类模型，并用于预测另一组对象的类别标签-有监督
2.聚类分析：聚类是将一组样本分配到子集（簇），这样同一簇中的样本在某种意义上是相似的-无监督
聚类和分类的区别在于聚类不依赖与预先定义的类标签-聚类是一种无监督的数据挖掘任务。
3.关联分析：给定的一组记录，其中每个记录都包含来自给定集合的若干项，关联规则是：生成依赖关系（规则），通过规则预测某一项是否发生。
4.异常检测：发现与正常行为的显著偏差，利用聚类、分类分析的结果
分类：

6、结合分类，介绍数据挖掘中常见的概念
分类边界：能够将问题空间的区域划分开来的超曲面
过拟合：模型复杂度高于实际问题，模型在训练集上表现很好，但在测试集上却表现很差。模型对训练集"死记硬背"（记住了不适用于测试集的训练集性质或特点），没有理解数据背后的规律，泛化能力差。
混淆矩阵：
在这里插入图片描述

TP(True Positive)：将正类预测为正类数，真实为0，预测也为0
FN(False Negative)：将正类预测为负类数，真实为0，预测为1
FP(False Positive)：将负类预测为正类数，真实为1，预测为0
TN(True Negative)：将负类预测为负类数，真实为1，预测也为1
代价敏感学习：代价敏感的学习方法是机器学习领域中的一种新方法，它主要考虑在分类中，当不同的分类错误会导致不同的惩罚力度时如何训练分类器。例如在医疗中，“将病人误诊为健康人的代价”与“将健康人误诊为病人的代价”不同；

7、介绍数据对象与数据属性
属性类型：离散和连续，离散属性以符号、整数作为属性值，注意：二进制属性是离散属性，连续属性，以实数作为属性值，通常表示为浮点变量
非对称属性：只重视少部分非零属性值才有意义，称该属性为非对称属性。

8、什么是维度灾难？如何解释该现象？如何避免维度灾难？
维数是数据集中属性的数目，分析高维数据时容易陷入维度灾难。维度灾难是当增加更多特征维度时，模型的效果反而下降的现象。
解释现象：随着维数的增加，数据在特征空间中越来越稀疏。在高维特征空间中，容易学习到高维线性分类器，高维线性分类器降维变成了低维非线性分类器，分类器学习了噪声和异常值，方法泛化性低，过拟合。
如何避免维度灾难：训练数据的量：理论上说，训练样本无限多，维数灾难就不会发生。也就是说，随着维度增加，训练样本的数量要求随指数增加。模型的类型：非线性决策边界的分类器，如神经网络，KNN，决策树，分类效果好，但是泛化能力差，因此，使用这些分类器时数据维度不能太高，而是需要增加数据量。而如果是泛化能力好的分类器，如贝叶斯，线性分类器，可以使用更多的特征。

9、数据集的一般特性
维数：是数据集中属性的数目，分析高维数据时容易陷入维度灾难，数据预处理的一个重要动机就是减少维度，及时规约。
稀疏性：有的数据集如非对称属性的数据集，非零项还不到1%，这样可以仅存储非零值，将大大减少计算时间和存储空间。有算法专门针对稀疏数据（稀疏矩阵）进行处理。
分辨率：不同采集频率可以获得不同分辨率的数据，例如：几米分辨率的数据，地球很不平坦，但若数十公里分辨率的数据，却相对平坦。数据模式依赖于分辨率。分辨率太小，模式可能不出现。分辨率太大，模式可能看不出。

10.数据集的类型
记录数据（数据矩阵，交易数据，文本数据）
文本数据的编码，词袋模型：每个文档表达为词向量
每个词为向量的一个分量，每个分量的值为该词在文档中出现的次数。
图数据（万维网，分子结构）
序列数据（空间数据，时间序列，图像数据，视频数据）
数据集的常用标准形式是：数据矩阵

11、数据质量
数据质量差会对许多数据处理工作产生负面影响

12、常见数据质量问题
噪声：是无关的数据对象
异常值：是数据对象，但其特征与数据集中大多数对象有显著不同。
重复值：数据来源不同导致数据重复
不一致数据：同一属性的格式编码不一致
不均衡数据：值分类任务中不同类别的训练样例数目差别很大的情况。

13、数据相似性和相异性的度量
相似性度量-[0,1]
相异性度量-[0,+]
二元属性是标称属性的一种，只有两个类别或状态：0或1,其中0通常表示该属性不出现，1表示出现。
二元向量相似度（SMC、Jaccard系数）
在这里插入图片描述

多元向量间的相似度余弦相似度
在这里插入图片描述
相关性-皮尔逊相关系数

马氏距离

14、为什么要进行数据预处理以及数据预处理的主要任务？
数据预处理是数据挖掘中最为艰巨的任务，主要任务：数据清理，数据集成，数据规约，数据变换和离散化。

15、数据清洗
数据清洗包括处理无关数据，冗余属性，缺失数据，异常数据。
缺失数据的方法：忽视，手动填补，自动填补缺失值（平均值或中位数，模型预测或估计，例如贝叶斯公式，决策树）。
异常数据，如何平滑异常值：分箱，回归，聚类

16、数据变换
属性类型：连续型、离散型、序数型、标称型、字符串型等
离散化：连续型->离散型
无监督离散化：等宽离散化、等频率离散化、k-均值离散化
有监督离散化

17、采样
采样就是按照某种规则从数据集中挑选样本数据。通常应用场景数据样本过大，抽取少部分样本来训练或验证，不仅可以节约计算机资源，在特定情况下也会提升实验效果。
下采样、上采样、边缘采样
直接对数据集里数量多的类别样例进行欠采样，去除一些类别多的样例使得各个类别的样例数据接近。
欠采样若随机丢弃样例，可能丢失一些重要信息。
对训练集里数量少的样例进行过采样，即增加一些数量少的类别样例使得各个类别样例的数目接近。
过采样不能简单地对初始（数量少的类别）样本进行重复采样，否则会导致严重的过拟合。

18、什么是不平衡数据集？会产生什么弊端？如何规避？
不平衡数据集指的是数据集各个类别的样本数目相差巨大。以二分类问题为例，假设正类的样本数量远大于负类的样本数量，这种情况下的数据称为不平衡数据。
如果训练集的90%的样本是属于同一个类的，而我们的分类器将所有的样本都分类为该类，在这种情况下，该分类器是无效的，尽管最后的分类准确度为90%。所以在数据不均衡时，准确度（Accuracy）这个评价指标参考意义就不大了。实际上，如果不均衡比例超过4:1，分类器就会偏向于大的类别。
针对不平衡数据, 最简单的一种方法就是生成少数类的样本, 这其中最基本的一种方法就是：从少数类的样本中进行随机采样来增加新的样本。与过采样相反，欠采样是从多数类样本中随机选择少量样本，再合并原有少数类样本作为新的训练数据集。
随机欠采样有两种类型分别为有放回和无放回两种，无放回欠采样在对多数类某样本被采样后不会再被重复采样，有放回采样则有可能。

19、如何判断属性的好坏呢？
定性：类别柱状图（离散型属性）、类别分布图（连续型属性）
定量：熵、信息增益

20、特征子集选择的方法有那些？
穷举
分支定界
贪婪算法：最优的K个单独的属性、顺序正向选择、顺序逆向选择
优化算法

21.两个具有代表性的特征提取方法（降维方法）：
PCA(主成分分析)
LDA(线性判别分析)

22.分类概述
从数据中推导函数的技术，一种有监督的方法
基本方法包括：最近邻、决策树、贝叶斯、支持向量机、神经网络
集成方法：Boosting、随机森林

23.k-最近邻
原理：类比学习
超参数有那些？如何调节超参数？交叉验证？
超参数包括K,距离函数，调节超参数的方法：将数据划分为训练集和测试集，选择在测试集上效果最好的参数。将训练集中划分小部分作为验证集，来帮助我们选择合适的参数。
交叉验证：在训练数据较少的情况下，将训练集划分为多叠，可以通过迭代不同的验证集来获得一个更好的k值，每次选择一叠作为验证集，其余的作为训练集，得到多个准确率最后取平均值。

24.决策树
决策树的特点和优点：自顶向下的树状结构，可以很容易地从构建的树中提取出来规则，一个数据集, 可能生成很多颗树， ID3要造最短的树.
ID3生成树的基本流程？
如何通过剪枝防止过拟合？
属性选择的标准是什么？

25.贝叶斯分类器的前提假设？贝叶斯分类器的计算公式？
前提假设：条件独立
在这里插入图片描述
26.SVM

硬间隔：对于完全线性可分的数据集，分类全部准确，没有错误，此时的线性分类器的核心思想就是找到最大分类间隔。
软间隔：实际工作中的数据没有那么干净，划分数据集时容许一定量的分类错误，此时的分类间隔为软间隔。
对于非线性可分的数据集，引入了核函数，核函数将数据集投射到更高纬的空间，使得数据集线性可分。
SVM三大宝贝：间隔，对偶，核技巧

27.神经网络
在这里插入图片描述
28.分类方法总结

29.什么是聚类？与分类的区别？
聚类：寻找一组对象，使得一组中的对象彼此相似，与其他组对象无关，簇内距离最小化，簇间距离最大化。
无监督学习，没有标签，数据驱动去生成不同的簇
聚类需要解决的问题是将已给定的若干无标记的模式聚集起来使之成为有意义的聚类，聚类是在预先不知道目标数据库到底有多少类的情况下，希望将所有的记录组成不同的类或者说聚类，并且使得在这种分类情况下，以某种度量（例如：距离）为标准的相似性，在同一聚类之间最小化，而在不同聚类之间最大化

30.聚类评价标准
误差平方和(SEE)：
在这里插入图片描述
剪影（Silhouette）

31.K-means聚类

二分K-means，不易受初始化问题的影响

在这里插入图片描述
32.层次聚类和DBSCAN
凝聚和分裂

核心点，边界点，噪声点
抗噪，易受超参影响，MinPts,Eps

33.关联规则
在这里插入图片描述

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

数据挖掘知识点总结的相关文章

Redis Geo：掌握地理空间数据的艺术

欢迎来到我的博客代码的世界里每一行都是一个故事 Redis Geo 掌握地理空间数据的艺术前言 Redis Geo基本概念 Geo模块的目的工作原理地理坐标系统
【计算机开题报告】网上茶叶销售平台设计与开发

一选题依据简述国内外研究现状生产需求状况说明选题目的意义列出主要参考文献 1 研究背景随着社会经济的迅速发展和科学技术的全面进步以计算机与网络技术为基础的信息系统正处于蓬勃发展的时期随着经济文化水平的提高近年来随着科学
【计算机开题报告】图书管理系统

一选题依据简述国内外研究现状生产需求状况说明选题目的意义列出主要参考文献国内外研究现状国外研究现状在很多发达国家图书管理系统的应用和技术发展已经相对完善并且还建立了数字图书馆各方面的情况也非常成熟而图书管理的应用价
ERROR 5025 (HY000): Insert has filtered data in strict mode, tracking_url=http://IP

通过http api批量插入数据的时候报Reason null value for not null column column xxx src line 解决方法检查是否有null值存在增加数据库字段长度如下语句更改长度 ALTER
天猫数据分析工具推荐（天猫第三方数据平台）

在电商迅速发展的大背景下做好天猫数据分析能够在多方面帮助品牌商家更好地运营店铺塑造品牌如通过数据分析了解消费者的需求购买偏好这有利于品牌商家及时调整商品结构产品推广商品宣传等等灵活制定品牌的销售策略那么天猫平台行业品牌
进程间通信

进程间通信进程间通信介绍进程间通信目的数据传输一个进程需要将它的数据发送给另一个进程资源共享多个进程之间共享同样的资源通知事件一个进程需要向另一个或一组进程发送消息通知它它们发生了某种事件如进程终止时要通知父进程
Qt源码分析：Qt程序是怎么运行起来的？

一从 exec 谈起一个标准的Qt gui程序在启动时我们会coding如下几行简洁的代码 include widget h include
AntDB内存管理之内存上下文之内存上下文机制是怎么实现的

4 内存上下文机制是怎么实现的下文将针对内存上下文机制进行代码说明本次以AntDB的代码为例来解析内存上下文的实现方式 4 1 最基础的数据结构 MemoryContextData和MemoryContextMethods是内存上下文
6 - 数据备份与恢复｜innobackupex

数据备份与恢复 innobackupex 数据备份与恢复数据备份相关概念物理备份与恢复逻辑备份推荐使用binlog日志文件实现对数据的时时备份使用日志恢复数据
【计算机毕业设计】个人日常事务管理系统

进入21世纪网络和计算机得到了飞速发展并和生活进行了紧密的结合目前网络的运行速度以达到了千兆覆盖范围更是深入到生活中的角角落落这就促使管理系统的发展管理系统可以实现远程处理事务远程工作信息和随时追踪工作的状态网上管理系统给
【计算机毕业设计】基于web的山东红色旅游信息管理系统

有效的处理想要的相关信息和如何传播有效的信息一直是人类不断探索的动力人类文明火种的传承都是通过了多种媒介作为载体也是随着社会生产力的发展不断的更新随着互联网的到来信息传播与管理都上升了一个新的台阶并且方便应用的同时也要考虑信息传
【计算机毕业设计】线上招聘问答系统

计算机网络发展到现在已经好几十年了在理论上面已经有了很丰富的基础并且在现实生活中也到处都在使用可以说经过几十年的发展互联网技术已经把地域信息的隔阂给消除了让整个世界都可以即时通话和联系极大的方便了人们的生活所以说线上招聘问
【计算机毕业设计】网上拍卖系统

现代经济快节奏发展以及不断完善升级的信息化技术让传统数据信息的管理升级为软件存储归纳集中处理数据信息的管理方式本网上拍卖系统就是在这样的大环境下诞生其可以帮助使用者在短时间内处理完毕庞大的数据信息使用这种软件工具可以帮助管理人员
【计算机毕业设计】Java图书馆智能选座系统

现代经济快节奏发展以及不断完善升级的信息化技术让传统数据信息的管理升级为软件存储归纳集中处理数据信息的管理方式本图书馆智能选座系统就是在这样的大环境下诞生其可以帮助使用者在短时间内处理完毕庞大的数据信息使用这种软件工具可以帮助管
【计算机毕业设计】北工国际健身俱乐部

本系统为会员而设计制作北工国际健身俱乐部旨在实现北工国际健身俱乐部智能化现代化管理本北工国际健身俱乐部管理自动化系统的开发和研制的最终目的是将北工国际健身俱乐部的运作模式从手工记录数据转变为网络信息查询管理从而为现代管理人员的使用提
【计算机毕业设计】微信小程序反诈科普平台

相比于以前的传统手工管理方式智能化的管理方式可以大幅降低反诈科普平台的运营人员成本实现了反诈科普平台的标准化制度化程序化的管理有效地防止了反诈科普平台的随意管理提高了信息的处理速度和精确度能够及时准确地查询和修正反诈科普一
【计算机毕业设计】白优校园社团网站的设计与实现

近些年随着中国经济发展人民的生活质量逐渐提高对网络的依赖性越来越高通过网络处理的事务越来越多随着白优校园社团网站的常态化如果依然采用传统的管理方式将会为工作人员带来庞大的工作量这将是一个巨大考验需要投入大量人力开展对社团
Oracle EBS AP发票导入 API Rejection List 第二部分

Oracle EBS AP发票导入 API Rejection List 第二部分 The report lists the reason the invoice could not be imported and prints a bri
Mysql中设置只允许指定ip能连接访问(可视化工具的方式)

场景 Mysql中怎样设置指定ip远程访问连接 Mysql中怎样设置指定ip远程访问连接 navicat for mysql 设置只有某个ip可以远程链接 CSDN博客前面设置root账户指定ip能连接访问是通过命令行的方式如果通过可视
SAP ERP系统是什么？SAP好用吗？

A公司是一家传统制造企业公司曾先后使用过数个管理软件系统但各部门使用的软件都是单独功能导致企业日常管理中数据流与信息流相对独立形成了信息孤岛随着公司近年业务规模的快速发展以及客户数量的迅速增加企业原有的信息系统在销售预测及生产

随机推荐

云原生服务更换二进制调测方法

当前我们开发的服务基本都是云原生的服务都跑在容器中在开发过程中想更换二进制文件调测就相当麻烦了今天写了一个脚本供大家参考 bin bash set ex appName testApp appPath home appName c
SpringBoot整合Druid-Mybatis&SpringSecurity使用

SpringBoot整合JDBC 创建springBoot项目时首先需要导入JDBC的支持以及MySQL驱动
Vim编辑器常用命令

Vim编辑器常用命令 Vim三种工作模式命令模式输入模式和编辑模式 Vim打开文件 Vim快捷方向键和以单词为单位移动 Vim插入文本 Vim查找文本 Vim替换文本 Vim删除文本 vim复制和粘贴文本 Vim保存退出文本 Vim光标
timestamp相减的函数 java_DB2中TIMESTAMP字段的计算

以下内容是对 DB2 基础日期和时间的使用的内容进行的摘要与精练遗憾的是本文参考的原文已经被IBM DeveloperWorks删掉了暂时还没找到 1 在SQL中使用DB2中的寄存器获取数据库服务器当前时间戳SELECT curr
如何用ps把蓝底照片换成白色的

用ps把蓝底照片换成白色的的具体步骤为 1 打开换白底的照片菜单栏调整替换颜色打开这个工具 2 认真看下图的圆圈所指的地方点一下这个结果色块我们选择一个白色色彩 3 有一个关键的一个点就是一定要保证明度是100的这样才会出现
学习笔记-Spark环境搭建与使用

一 20 04 Ubuntu安装清华源ISO源 https mirrors tuna tsinghua edu cn ubuntu releases 20 04 下载链接 https mirrors tuna tsinghua edu c
【整理八】

1 说说你对Event Loop的理解 Eventloop 是一种在编程语言中常用的编程模型用于处理任务队列中的事件它可以被用来处理各种任务包括网络事件文件读写定时器用户界面事件等Eventloop 的工作原理是它会按顺序处理
通过进入单用户模式解决linux中的rc.local修改后无法启动的问题

问题本想将teamviewer这个软件随linux自启动所以将其启动命令放在rc local中但是重启后发现linux启动不起来了系统前面都是正常启动的就是无法进入帐户登陆界面无法输入root帐号密码不能登陆到系统按了ctr
ROS系列报错与解决方法

6 28 一问题描述 ROS运行roscore命令后发现提示log文件日志文件大小超过1G 需要清理 Checking log directory for disk usage This may take awhile Press C
MYSQL 查看最大连接数和修改最大连接数

MySQL查看最大连接数和修改最大连接数 1 查看最大连接数 show variables like max connections 2 修改最大连接数 set GLOBAL max connections 200 以下的文章主要是向大家介
2021年 centos7.2 openssl3安装全过程

安装关联软件包和编译工具包 yum install perl ExtUtils CBuilder perl ExtUtils MakeMaker 官网下载 https www openssl org source wget https ww
C++里有哪几种数据类型

C 里有哪几种数据类型 1 基本类型布尔型布尔型即bool 它的取值只能是true 真或者false 假分别代表非零与零对布尔型的赋值可以直接用true或者false进行赋值也可以用整型常量对其进行赋值只不过整型常量赋值给布
vue加载ElementUI的el-image图片时不能使用相对路径问题

Vue官方提供的图片控件el image 在加载相对路径时会出现加载失败现象
boost中boost::uint32_t和一般的uint32_t的区别

using boost int8 t using boost uint8 t using boost int16 t using boost uint16 t using boost int32 t using boost uint32 t
word格式问题——英文单词间距太大、文本中嵌入公式导致行距太大、单双栏排版

1 英文单词直接间距太大 1 全选右击鼠标选段落中文版式勾选允许西文在单词中间换行如果不勾选此项可目测换行位置按住Shift打回车手动换行 2 选择左对齐然后用连接被分割的单词 2 文本中嵌入公式导致行距太大在段落
php的$_SERVER['HOSTNAME']

一前言在最新一次更新代码后发现代码中出现了 SERVER HOSTNAME 这个东西关键是 SERVER HTTP HOST 和 SERVER SERVER NAME 我们经常用到一般是用来获取服务器上的相关参数唯独这个HOST
写需求分析必须牢记的5大要点

需求验证的5大要点要做好需求验证必须在思想方法语言人员内容5个要点上做好相应的工作否则就会产生很多负面的影响 1 思想前面已经说过由于Review被翻译成评审导致很多人将其与中国人常说的评审相混淆其实它们之间是有区别
CSDN博文显示图片的方法

感觉官方应该出一个教程的不然新手第一次发博文十有八九会发现自己的博文发表之后没有图片既然官方不给那么自己摸索咯参考 http blog csdn net cherish cx article details 52782644 1 编
利用Mybatis拦截器对数据库水平分表

首先你要知道在哪些sql上面要处理分表你可能需要一个注解 java view plain copy package com dusk domyself stock common split import java lang annotat
数据挖掘知识点总结

1 数据挖掘产生的背景驱动力是什么四种主要技术激发了人们对数据挖掘技术的开发应用和研究的兴趣超大规模数据库的出现如商业数据仓库和计算机自动收集数据记录手段的普及先进的计算机技术如更快和更大的计算能力和并行体系结构对海量数据的

数据挖掘知识点总结

数据挖掘知识点总结 的相关文章

随机推荐

热门标签

数据挖掘知识点总结的相关文章