数据挖掘基础一

2023-11-17

一、数据挖掘，又称为数据库中知识发现（Knowledge Discovery from Database，简称KDD），它是一个从大量数据中抽取挖掘出未知的、有价值的模式或规律等知识的复杂过程。数据挖掘的定义过程描述如下图所示：

从图中可以看出，整个知识挖掘过程是由若干挖掘步骤组成，而数据挖掘仅仅是其中的一个主要步骤。整个KDD的主要步骤有：

1、数据清洗（data cleaning），其作用就是清除数据噪声和与挖掘主体明显无关的数据；

2、数据集成（data integration），其作用就是将来自多数据源中的相关数据组合到一起；

3、数据转换（data transformation），其作用就是将数据转换为易于进行数据挖掘的数据存储形式；

4、数据挖掘（data mining），它是知识挖掘的一个基本步骤，其作用就是利用智能方法挖掘数据模式或规律知识；

5、模式评估（pattern evaluation），其作用就是根据一定评估标准（interesting measure）从挖掘结果筛选出有意义的模式知识；

6、知识表示（knowledge presentation），其作用就是利用可视化和知识表达技术，向用户展示所挖掘的相关知识。

二、一个典型的数据挖掘系统，如下图所示，主要包括以下主要部件：

1、数据库、数据仓库或其他信息库，它表示数据挖掘对象是由一个（或组）数据库、数据仓库、数据表单或其他信息数据库组成。通常需要使用数据清洗和数据集成操作，对这些数据对象进行初步的处理；

2、数据库或数据仓库服务器，这类服务器负责根据用户的数据挖掘请求，读取相关的数据；

3、知识库，此处存放数据挖掘所需要的领域知识，这些知识将用于指导数据挖掘的搜索过程，或者用于帮助对挖掘结果的评估。挖掘算法中所使用的用户定义的阀值就是最简单的领域知识；

4、数据挖掘引擎，这是数据挖掘系统的最基本部件，它通常包含一组挖掘功能模块，以便完成定性归纳、关联分析、分类归纳、进化计算和偏差分析等挖掘功能；

5、模式评估模块，该模块可根据趣味标准（interestingness measures），协助数据挖掘模块聚焦挖掘更有意义的模式知识。当然该模块能够与数据挖掘模块有机结合，与数据挖掘模块所使用的具体挖掘算法有关。显然若数据挖掘算法能够与知识评估方法有机结合将有助提高数据挖掘的效率。

6、可视化用户界面，该模块帮助用户与数据挖掘系统本身进行沟通交流。一方面用户通过该模块将自己的挖掘要求或任务提交给挖掘系统，以及提供挖掘搜索所需要的相关知识；另一方面系统通过该模块向用户展示或解释数据挖掘的结果或中间结果；此外该模块也可以帮助用户李岚数据对象内容与数据定义模式、评估挖掘出的模式知识，以及以多种形式展示挖掘出的模式知识。

三、分类（Classification）就是找出一组能够描述数据集合典型特征的模型（或函数），以便能够分类识别未知数据的归属或类别，即将未知事例映射到某种离散类别之一。分类模型（或函数）可以通过分类挖掘算法从一组训练样本数据（其类别归属已知）中学习获得。分类挖掘所获取的分类模型可以采用多种形式加以描述输出。其中主要的表示方法有：分类规则（IF-THEN）、决策树（decision trees）、数学公式（mathematical formulate）和神经网络。分类通常用于预测未知数据事例的归属类别，如一个银行客户的信用等级时属于A级、B级还是C级。但在一些情况下，需要预测某数据属性的值（连续数值），这样的分类就被称为预测（predication），尽管预测既包括连续数值得预测，也包括有限离散值得分类；但一般还是使用预测来表示对连续数值的预测；而使用分类表示对有限离散值的预测。

四、聚类分析：聚类分析（clustering analysis）与分类预测方法明显不同之处在于，后者所学习获取分类预测模型所使用的数据是已知类别归属（class-labeled data），而聚类分析所分析处理的数据无事先确定的类别归属，类别归属标志在聚类分析处理的数据集中式不存在的。

聚类分析中，首先需要根据“各聚集（clusters）内部数据对象间的相似度最大化；而各聚集（clusters）对象间相似度最小化”的基本聚类分析原则，以及度量数据对象之间相似度的计算公式，将聚类分析的数据对象划分为若干组（groups）。因此一个组中数据对象间的相似度要比不同组数据对象间的相似度要大。每一个聚类分析所获得的组就可以视为是一个同类别归属的数据对象稽核，更进一步从这些同类别数据集，又可以通过分类学习获得相应得分类预测模型（规则）。此外，通过反复不断地对获得的聚类组进行聚类分析，还可获得初始数据稽核的一个层次结构模型。

一个数据库中的数据一般不可能都符合分类预测或聚类分析所获得的模型。那些不符合大多数数据对象所构成的规律（模型）的数据对象就被称为异类（outlier）之前许多数据挖掘方法都在正式进行数据挖掘之前就将这些异类作为噪声或意外而将其派出在数据挖掘的分析处理范围之外。但在一些应用场合，如各种商业欺诈行为的自动监测，小概率发生的事件（数据）往往比经常发生的事件（数据）更有挖掘价值。对异类数据的分析处理通常就成为异类挖掘。数据中的异类可以利用树立统计方法分析获得，即利用已知数据所获得的概率统计分布模型，或利用相似度计算所获得的相似数据对象分布，分析确认异类数据。而偏离监测就是从数据已有或期望中找出某些关键测度显著的变化。

数据演化分析（evolution analysis）就是对随时间变化的数据对象的变化规律和趋势进行建模描述。这一建模手段包括：概念描述、对比概念描述、关联分析、分类分析、时间相关数据（time-related）分析（这其中又包括：时序数据分析、序列或周期模式匹配，以及基于相似性的数据分析）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

数据挖掘基础一的相关文章

【ES6】解构语句中的冒号(:)

在解构赋值语法中冒号的作用是为提取的字段指定一个新的变量名让我们以示例 const billCode code version route query 来说明 billCode code version 表示从 route query
数据库 | 面试官：一次到底插入多少条数据合适啊？.....面试连环炮

数据库面试官一次到底插入多少条数据合适啊面试连环炮数据库插入操作的基础知识插入数据是数据库操作中的基础但是我们程序员将面临随之而来的问题如何快速有效地插入数据并保持数据库性能当你向数据库中插入数据时这些数据直接存储到
如何使用Weka预测结果

我是 Weka 新手对该工具感到困惑我有一个关于水果价格和相关属性的数据集我正在尝试使用数据集预测具体的水果价格由于我是 Weka 新手我不知道如何完成这项任务请帮助我或指导我了解有关如何进行预测以及此任务的最佳方法或算法是什么
List::Util 'shuffle' 实际上是如何工作的？

我目前正在使用 c5 0 构建一个分类器我有一个包含 8000 个条目的数据集每个条目都有自己的 ID 号 1 8000 在测试分类器的性能时我必须进行 5 组 10 90 训练数据测试数据的分割当然任何训练案例都不能再次出现
温室气体排放更敏感的模型（即更高的平衡气候敏感性（ECS））在数年到数十年时间尺度上也具有更高的温度变化（Python代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Python代码数据
为什么单层感知器在没有归一化的情况下收敛得这么慢，即使裕量很大？

在我确认我的结果后这个问题完全被重写了 Python Notebook可以找到here https www dropbox com s pwvfx9hbxzkym5r perceptron py dl 0 用别人写的一段代码可以找到he
如何将 Scikit Learn 分类器应用于大图像中的图块/窗口

给出的是 scikit learn 中经过训练的分类器例如ARandomForestClassifier 分类器已经过对大小样本的训练例如25x25 如何轻松地将其应用于大图像例如 640x480 中的所有图块窗口 What I c
WEKA 工具包中的隐马尔可夫模型相当于什么？

我需要对来自由 8 个加速度计组成的传感器网络的数据流进行分类每个加速度计都会给我一个 X Y 和 Z 值因此在每个样本中我有 8 x 3 24 个加速度值我的采样频率约为 30 Hz 执行时间约为 0 5 秒起初我想为此使用隐
如何在keras中可视化卷积神经网络中间层的输出？

最近我创建了用于猫和狗分类的基本 CNN 模型非常基本如何使用 keras 可视化这些层的输出我使用 keras 的 Tensorflow 后端您可以定义一个模型获取您想要查看的每一层的输出并进行预测假设您有完整的模型 cnnM
聚类和贝叶斯分类器 Matlab

因此我正处于下一步该做什么的十字路口我开始学习一些机器学习算法并将其应用于复杂的数据集现在我已经做到了我从一开始的计划就是结合两种可能的分类器试图建立一个多分类系统但这就是我被困住的地方我选择聚类算法模糊 C 均值在学习了
MATLAB - 从分类器生成混淆矩阵

我有一些测试数据和标签 testZ 0 25 0 29 0 62 0 27 0 82 1 18 0 93 0 54 0 78 0 31 1 11 1 08 1 02 testY 1 1 1 1 1 2 2 2 2 2 2 2 2 然后我对它
朴素贝叶斯：训练的每个特征的类内方差必须为正

当尝试拟合朴素贝叶斯时 training data sample target class K8 train model nb NaiveBayes fit training data target class prediction y n
将朴素贝叶斯训练分类器保存在 NLTK 中

我对如何保存经过训练的分类器有点困惑例如每次我想使用分类器时重新训练它显然非常糟糕且缓慢我如何保存它并在需要时再次加载它代码如下提前感谢您的帮助我正在使用 Python 和 NLTK 朴素贝叶斯分类器 classifier nl
R 中使用插入符号进行分类的预测（模型）和预测（模型$ FinalModel）之间的区别

有什么区别 predict rf newdata testSet and predict rf finalModel newdata testSet 我训练模型preProcess c center scale tc lt trainCon
训练鲁棒级联分类器时要考虑的建议？

我正在训练级联分类器以检测图像中的动物不幸的是我的误报率相当高使用 Haar 和 LBP 超高使用 HOG 可以接受我想知道如何改进我的分类器这是我的问题鲁棒检测所需的训练样本量是多少我在某处读到需要 4000 个正样本和
Keras model.fit log 和 Sklearn.metrics.confusion_matrix 报告的验证准确性指标彼此不匹配

问题是报道的validation accuracy我从 Keras 获得的价值model fit历史显着高于validation accuracy我得到的指标sklearn metrics功能我得到的结果model fit总结如下 Las
使用 Mahout 朴素贝叶斯分类器算法需要哪些步骤？

我正在尝试使用本机贝叶斯分类器来检测欺诈交易我在 Excel 工作表中有大约 5000 个样本数据这是我将用于训练分类器的数据并且我有大约 1000 个测试数据我将在其上应用测试分类器我的问题是我不知道如何训练分类器在将训练数
如何在 Android Studio 中使用预训练的 .model 文件进行预测？

我在 Weka 3 8 Dekstop 版本中训练了一个决策表 ML 模型我已将模型相应保存在资产文件夹中并配置了 wekaSTRIPPED jar 文件此时构建似乎在 Android Studio 上运行良好然而当我尝试在 J
R 中多类分类的 ROC 曲线

我有一个包含 6 个类别的数据集我想绘制多类别分类的 ROC 曲线 Achim Zeileis 给出的第一个答案非常好 R中使用rpart包的ROC曲线 https stackoverflow com questions 30818188
URL路径相似度/字符串相似度算法

我的问题是我需要比较 URL 路径并推断它们是否相似下面我提供了要处理的示例数据 GROUP 1 robots txt GROUP 2 bot html GROUP 3 phpMyAdmin 2 5 6 rc1 scripts setup

随机推荐

js利用google翻译接口把网页翻译成各国语言

网页翻译为德语 Translate Page To German a href 网页翻译为德语 Translate Page To German a 网页翻译为西班牙语 Translate Page To Spanish a href a
[Mysql] 删除数据

为了从一个数据表中删除去掉数据可使用DELETE语句语法 DELETE FROM表名 WHERE 条件 ORDER BY LIMIT row count DELETE FROM要求指定从中删除数据的表名 WHERE子句过滤要删除的行
如何将li的前面那个圆点去掉

只需要将 css样式的 list style type 属性设置为none即可代码如下 list style type none span style font size 18px span 下面的代码位于标签内 span style
虚拟内存基本概念

一传统存储管理方式的特征缺点 1 连续分配单一连续分配固定分区分配动态分区分配 2 非连续分配基本分页存储管理基本分段存储管理基本段页式存储管理 3 特点很多暂时用不到的数据也会长期占用内存导致内存利用率不高一次性作
JS基础_js一元运算符

1 什么是一元运算符只对一个操作数操作就能改变当前操作数的值的运算符号 2 一元运算符有哪些 2 1 正号和负号举例
CP4.矩阵的LU分解

LU分解将矩阵A分解成的形式称作矩阵LU分解 L代指下三角矩阵 U代指上三角矩阵首先用到的是前面讲过的消元法以下为例子通过消元操作最后矩阵A变成了一个上三角矩阵U 那么只要上式左乘一个就可以转化为这里的就是L矩阵了所以也
javac编译时出现GBK报错（错误：编码GBK的不可映射字符）

javac编译时出现GBK报错错误编码GBK的不可映射字符一这里列出我遇到的三种情况代码格式分别为 ANSI UTF 8 无BOM的UTF 8 这里我用的是notepad 进行编写 ANSI格式首先我们先创建一个 java源文件
说说JUC三个类：CountDownLatch，CyclicBarrier和Semaphore

目录 CountDownLatch CyclicBarrier Semaphore 总结在JUC中有三个工具类来辅助我们进行并发编程分别是 CountDownLatch CyclicBarrier和Semaphore CountDow
使用vue-cli来搭建vue项目

使用vue cli来搭建vue项目一创建所需要的文件夹二安装vue cli 三使用脚手架vue cli 2 X版来构建项目前提搭建好NodeJS环境一创建所需要的文件夹 1 首先在Node js的文件夹里面建上 temp
S71200外围设备接线-输入接线

S71200外围设备接线输入端子接线含NPN和PNP 传感器接线作为一个PLC的初学者我觉得第一件事请并不是学习什么TIA Portal软件或者编程指令而是了解PLC的系统参数和外围设备接线上面的一张文章我通过图文的方式简单讲
问题 E: 十进制整数转二进制

十进制整数转二进制的方法是除以2 取出余数商继续除以2 直到得到0为止将取出的余数逆序即可得到对应的二进制数的各位例如 22转二进制的计算过程 22 2 11 余0 11 2 5 余 1 5 2 2 余 1 2 2 1 余 0 1
小程序获取用户信息实现一键登录

文章目录旧版获取用户信息实现登录流程 login页面代码个人中心页面代码全局app vue代码下面是小程序获取用户信息最新调整的方式温馨提示以下小程序登录方式只适用于2 27 1版本库以下使用详情请看微信官方文档调整旧版获取
python中的连续比较是什么_在python中提取连续行之间的差异

你的例子表明你想要在一对线之间进行比较这与将其定义为line n 1 line n 不同后者将给出5个结果而不是3个在结果也取决于你认为的差异它是位置性的还是仅仅基于奇数行中缺失的字母还是两者的差异都适用例如 boat t
优酷 YouTube Twitter及JustinTV视频网站架构设计笔记

本文是整理的关于优酷 YouTube Twitter及JustinTV几个视频网站的架构或笔记对于不管是视频网站门户网站或者其它的网站在架构上都有一定的参考意义毕竟成功者的背后总有值得学习的地方虽然有些文章的发表时间有点久了但是
将第三方库改为我自己想要的

将第三方库改为我自己想要的方法比较常用的给出一些例子 React组合方法高阶组件方法方法修改第三方库以适应自己的需求可以通过多种方法实现下面是一些常见的策略继承通过创建继承自第三方库组件或类的子类你可以重写或扩展其方法
Keil警告和错误语句与消除方法笔记

遇到的keil相关错误警告内容在这里进行更新 Warning 1 D last line of file ends without a newline 文件最后一行不是新行解决保证文件最后一行什么符号也没有 167 D argumen
MySQL索引原理B+树

B 树索引是B 树在数据库中的一种实现是最常见也是数据库中使用最为频繁的一种索引 B 树中的B代表平衡 balance 而不是二叉 binary 因为B 树是从最早的平衡二叉树演化而来的在讲B 树之前必须先了解二叉查找树平衡二叉树 A
shader学习笔记（二）纹理采样

资料参照 Unity Shader入门精要冯乐乐第7章基础纹理技术美术百人计划图形 1 3 纹理的秘密庄懂的技术美术入门课美术向直播录屏第9课 Unity Shader 入门到改行4 最简纹理采样 1 纹理是什么 1 宏观
程序员面试智力题集锦

1 你让工人为你工作7天给工人的回报是一根金条金条平分成相连的7段你必须在每天结束时给他们一段金条如果只许你两次把金条弄断你如何给你的工人付费参考答案 day1 给1 段 day2 让工人把1 段归还给2 段 day3 给1
数据挖掘基础一

一数据挖掘又称为数据库中知识发现 Knowledge Discovery from Database 简称KDD 它是一个从大量数据中抽取挖掘出未知的有价值的模式或规律等知识的复杂过程数据挖掘的定义过程描述如下图所示从图中可以看出

数据挖掘基础一

数据挖掘基础一 的相关文章

随机推荐

热门标签

数据挖掘基础一的相关文章