【数据挖掘】知识点总结

2023-11-09

一、绪论

什么是数据挖掘
就是通过算法从大量的数据中搜索隐藏在其中的信息。
数据挖掘的基本任务
聚类分析、异常检测、关联分析和预测建模
高维性和维灾难
随着维度的增加计算复杂度也随之增加。

二、数据

不同的属性类型
标称：例如，邮政编码。定性数据
序数：矿石的硬度，街道的号码，定性数据
区间：日历日期，摄氏温度，定量数据
比率：绝对温度，年龄，电流。定量数据
什么是维度
是数据集中对象具有的属性数目
精度
同一个量重复测量值之间的接近程度
准确率
被测量的测量值和实际值之间的接近度
离群点
某种意义上具有不同数据集中的其他大部分数据对象的特征的数据对象，或者相对于该属性的典型值来说不寻常的属性值，我们也称为异常。
维规约
就是降低维度
维灾难是指随着数据维度的增加，许多数据分析变得越来越困难，特别是随着数据的增加，数据在它所占据的空间越来越稀疏。
特征子集选择：如果说数据的一个属性对于要预测的属性没有太大的用处的话，我们可以选择将这个属性去除。
数据离散化和多元化及其原因
在数据挖掘中的某些分类算法中，要求数据是分类属性形式。发现关联模式的算法，要求数据是二元属性形式。这样需要将连续属性变换成分类属性(离散化)，并且连续属性和离散属性有时候可能都需要变换成一个或者多个二元属性(多元化)。
欧几里得距离
对应坐标数据的差的平方之和，再开根号。

四和五、分类

什么叫分类
分类的任务就是通过学习得到一个目标函数，分类之前必须要有分类的准则。
预测性建模
用于预测未知记录的类标号。在预测之前首先要建立相应的数学模型。
混淆矩阵
共有150个样本数据，预测为1、2、3类各50个。

每一行中的数据加起来表示类别真实样本数量，每一列加起来表示被预测的样本数量。
举个例子，43表示预测为类1的50个样本中实际属于类1的样本数位43个。
准确率和错误率
正确率：正确预测数和预测总数的比值
错误率：错误预测数和预测总数的比值
决策树归纳的设计问题
如何分裂训练记录
如何停止分裂记录
决策树算法-计算题-课本P97页
信息熵和信息增益的计算
决策树算法只产生二元划分
分类和聚类的区别和联系
监督学习和非监督学习的区别和联系
过分拟合中的训练误差和泛化误差
过分拟合、导致过分拟合的原因以及如何消减过分拟合
训练集、检验集和测试集
如何处理过分拟合
先剪枝
后剪枝
子树提升
子树替换
分类规则的质量可以用覆盖率和准确率来度量。
准确率
覆盖率
基于规则分类器所产生的规则的两个重要性质
互斥规则
穷举规则
了解基于规则的排序方案和基于类的排序方案的区别
重点朴素贝叶斯–课本P141
装袋、提升和随机森林
不平衡问题中的召回率和精度
ROC曲线

六、关联分析

支持度和置信度
关联规则挖掘任务中的频繁项集的产生和规则的产生
Apriori算法
最小支持度

七、聚类分析

聚类分析的基本概念
不同的聚类类型
划分聚类
层次聚类
不同的簇类型
k均值-计算质心
二分k均值

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

机器学习

数据挖掘

算法

挖掘

【数据挖掘】知识点总结的相关文章

天猫数据分析工具推荐（天猫第三方数据平台）

在电商迅速发展的大背景下做好天猫数据分析能够在多方面帮助品牌商家更好地运营店铺塑造品牌如通过数据分析了解消费者的需求购买偏好这有利于品牌商家及时调整商品结构产品推广商品宣传等等灵活制定品牌的销售策略那么天猫平台行业品牌
自动驾驶轨迹预测

目录神经网络轨迹预测综述比较新的轨迹预测网络 Uber LaneRCNN 5 Google VectorNet 6 Huawei HOME 7 Waymo TNT 8 Aptive Covernet 9 NEC R2P2 10 商汤 T
工业异常检测AnomalyGPT-Demo试跑

写在前面如果你有大的cpu和gpu可以使用直接根据官方的安装说明就可以如果没有可以点进来试着看一下我个人的安装经验一试跑环境 NVIDIA4090显卡24g cpu内存33G 交换空间8g 操作系统ubuntu22 04 试跑过
基于机器学习的贷中风险预测模型-江苏银行“随e融”杯-二等奖

文章目录源码下载地址项目介绍界面预览项目备注毕设定制咨询源码下载地址源码下载地址点击这里下载源码项目介绍基于机器学习的贷中风险预测模型江苏银行
华为OD机试真题-求满足条件的最长子串的长度-2023年OD统一考试（C卷）

题目描述给定一个字符串只包含字母和数字按要求找出字符串中的最长连续子串的长度字符串本身是其最长的子串子串要求 1 只包含1个字母 a z A Z 其余必须是数字 2 字母可以在子串中的任意位置如果找不到满足要求的子串如全是
基于粒子群算法的电动汽车充电动态优化策略研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
【需求响应】改进连续时间控制方法用于分散式需求响应的恒温负荷研究（Python代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Python代码及文章
基于GPT4+Python近红外光谱数据分析及机器学习与深度学习建模

详情点击链接基于ChatGPT4 Python近红外光谱数据分析及机器学习与深度学习建模教程第一 GPT4 基础 1 ChatGPT概述 GPT 1 GPT 2 GPT 3 GPT 3 5 GPT 4模型的演变 2 ChatGPT对话初
【自适应滤波】一种接近最佳的自适应滤波器，用于突发系统变化研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
【EI复现】基于深度强化学习的微能源网能量管理与优化策略研究（Python代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 2 1 有无策略奖励 2 2 训练结果1
【路径规划】基于A*算法路径规划研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
【具有延迟反馈的滤波器，其具有负群延迟】对于混沌系统，在可预测性高的阶段，该滤波器具有预测能力(Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
基于卡尔曼的混合预编码技术用于多用户毫米波大规模MIMO系统研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
如何用GPT进行论文润色与改写？

详情点击链接如何用GPT GPT4进行论文润色与改写一OpenAI 1 最新大模型GPT 4 Turbo 2 最新发布的高级数据分析 AI画图图像识别文档API 3 GPT Store 4 从0到1创建自己的GPT应用 5 模型Ge
【固定翼飞机】基于最优控制的固定翼飞机着陆控制器设计研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
史上最全自动驾驶岗位介绍

作者自动驾驶转型者编辑汽车人原文链接 https zhuanlan zhihu com p 353480028 点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心求职交流技术交流群本
用栈实现队列（OJ中报错的处理）

用栈实现队列 ERROR AddressSanitizer myQueueFree函数中栈的释放处现了问题没有调用StackDestory而是直接free了这个是栈初始化时 capacity与malloc申请的空间大小没有匹配请你仅使
【一种新的Burton-Miller型奇异边界方法（BM-SBM）】用于声学设计灵敏度分析，2D和3D声学设计灵敏度分析的奇异边界方法研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 2 1 2D 2 2 3D
5_机械臂运动学基础_矩阵

上次说的向量空间是为矩阵服务的 1 学科回顾从科技实践中来的数学问题无非分为两类一类是线性问题一类是非线性问题线性问题是研究最久理论最完善的而非线性问题则可以在一定基础上转化为线性问题求解线性变换数域 F 上线性空间V中的变
AI 赋能绿色制冷，香港岭南大学开发 DEMMFL 模型进行建筑冷负荷预测

近年来城市化进程加速所带来的碳排放量骤增已经严重威胁到了全球环境多个国家均已给出了碳达峰碳中和的明确时间点一场覆盖全球全行业的绿色革命已经拉开序幕在一众行业中建筑是当之无愧的能耗大户其中又以暖通空调 Heating

随机推荐

C语言数据存储与数据打印的奥秘

尊师 https blog csdn net yyywill 数据存储要记住在计算机中数据都是以二进制来存储的十六进制八进制和十进制只是我们人为定义的一种表现形式数据打印谈到数据打印有人可能会说不就是 printf 吗
leetcode精选

7 LeetCode题目精选 7 1 两数之和问题链接 https leetcode cn com problems two sum 7 1 1 问题描述给定一个整数数组 nums 和一个目标值 target 请你在该数组中找出和为目标
MySQL 读写分离使用驱动com.mysql.jdbc.ReplicationDriver

说明文档 http dev mysql com doc refman 5 1 en connector j reference replication connection html 代码例子 1 import java sql Conne
Python3，多线程爬完B站UP主的视频弹幕及评论，我飘了~ ~ ~

利用线程爬取B站Up主弹幕及评论 1 爬取视频弹幕信息 2 爬取视频评论信息 3 整合代码线程提速 1 爬取视频弹幕信息爬取视频的弹幕信息同样要借助于我们的接口工具这里我们使用Charles 获取到的弹幕的url地址弹幕url h
tensorflow 数据归一化_【TensorFlow实现机器学习方法】KNN（K近邻算法）实现预测房屋价格...

一前言机器学习KNN算法 K近邻算法的总体理论很简单不在这里赘述了二数据集准备这里使用比较古老的数据集是房屋预测的数据集下载地址 https archive ics uci edu ml machine learning d
MATLAB——通过扫频数据反推系统伯德图

1 获取扫频数据导入MATLAB 2 计算控制器离散传函根据扫频数据情况绘制控制器伯德图 3 根据控制器伯德图获取增益相角数据 4 反算系统增益相角数据 5 数据平滑处理得到系统最终伯德图
element table 中sortable排序

在项目中做表格的排序我使用的是自定义的排序也就是通过后台接口进行的排序写个文章记录一下element的三种排序方式在列中设置sortable属性即可实现以该列为基准的排序接受一个Boolean 默认为false 可以通过 Tabl
API接口整理收集常用Get-Post请求供测试使用

百度 api集市免费接口 IP地址查询 http apistore baidu com apiworks servicedetail 114 html 频道新闻API 易源 http apistore baidu com apiworks
【XML】学习笔记第四章-schema

Schema 概述作用与DTD相比Schema的优势基础命名空间模式引用方法通过xsi noNamespaceSchemaLocation引入通过xsi shemaLocation引入 Schema的语法结构定义元素的主要语
shell脚本3个整数从小到大排序

read p 请输入一个整数 num1 read p 请输入一个整数 num2 read p 请输入一个整数 num3 不管谁大谁小最后打印 echo n u m 1 num1 num1 num2
Goby自定义漏洞之EXP

前言自定义漏洞配合EXP 提高漏洞的利用速度简直是爽的飞起自从HVV的时候Goby发布HVV专版羡慕死了就是太菜没傍上红方大佬的腿虽然最终用上了HVV专版但是一些只有你自己知道的漏洞或者比较偏门的漏洞就需要咱们自己来编写P
react小练习-antd Form表单和Table表格的交互-Table动态添加数据

文章目录功能实现效果代码背景代码思路代码实现功能实现效果点击添加按钮输入表单内容表单提交后数据动态添加到Table表格里如图初始数据是在dva的mock文件模拟的死数据点击添加输入数据表单提交后数据添加到表格里
Android签名概述

一 Android签名概述我们已经知道的是 Android对每一个Apk文件都会进行签名在Apk文件安装时系统会对其签名信息进行比对判断程序的完整性从而决定该Apk文件是否可以安装在一定程度上达到安全的目的给定一个Apk文件
JAVA实现蛇形矩阵算法

JAVA实现蛇形矩阵算法蛇形矩阵是一种特殊的二维矩阵其元素按照一定的规律排列成蛇形这种算法可以通过JAVA编程语言来实现本文将介绍如何使用JAVA编写代码来生成蛇形矩阵并给出相应的源代码蛇形矩阵的生成规则如下第一行从左到右依次
多租户系统设计

多租户系统设计 SaaS 的系统分级 SaaS 系统架构成熟度模型的 5 个级别从混乱到乌托邦第 0 级混乱每次新增一个客户都会新增软件的一个实例第 1 级受控的混乱所有客户都运行在软件的同一个版本上而且任何的定制化
当在浏览器中输入一个域名后，会发生什么

今天去哪儿网Geely老师分享了他在校招时的一个面试题当输www qunar com时发生了什么真不是做广告哈因为学的并没有很扎实不能更深更广的分析这个问题遂百度一下发现这篇文章并转载保存下来同时也分享一下希望大家可以更
vue-cli3.0打包时如何忽略某个第三方依赖包

前几天接到了用vue重构某个业务模块的需求常规开发不做讨论但是在打包时需要排除业务中使用的某个第三方依赖包代码如下 main js import Vue from vue import Cesium from cesium Cesiu
解决Win7启动时出现“windows未能启动。原因可能是最近更改了硬件或软件”的问题

搜索资料的时候发现个小问题问题描述在给ThinkPad T490做win7系统时出现了 windows未能启动原因可能是最近更改了硬件或软件的问题一直启动不来在系统盘微PE中甚至还会出现 0x490 找不到元素的问题如何来
cuda安装笔记

更新2023 3 4 我笔记本用vs编译后老是提示no kernel image is available for execution on the device 一直以为是驱动版本太高了或者cudatoolkit版本太高了后来才知道是版
【数据挖掘】知识点总结

一绪论什么是数据挖掘就是通过算法从大量的数据中搜索隐藏在其中的信息数据挖掘的基本任务聚类分析异常检测关联分析和预测建模高维性和维灾难随着维度的增加计算复杂度也随之增加二数据不同的属性类型标称例如邮政编码定性数

【数据挖掘】知识点总结

一、绪论

二、数据

四和五、分类

六、关联分析

七、聚类分析

【数据挖掘】知识点总结 的相关文章

随机推荐

热门标签

【数据挖掘】知识点总结的相关文章