【数据挖掘】知识点总结

2023-11-09

一、绪论

  1. 什么是数据挖掘
    就是通过算法从大量的数据中搜索隐藏在其中的信息。
  2. 数据挖掘的基本任务
    聚类分析、异常检测、关联分析和预测建模
  3. 高维性和维灾难
    随着维度的增加计算复杂度也随之增加。

二、数据

  1. 不同的属性类型
    标称:例如,邮政编码。定性数据
    序数:矿石的硬度,街道的号码,定性数据
    区间:日历日期,摄氏温度,定量数据
    比率:绝对温度,年龄,电流。定量数据
  2. 什么是维度
    是数据集中对象具有的属性数目
  3. 精度
    同一个量重复测量值之间的接近程度
  4. 准确率
    被测量的测量值和实际值之间的接近度
  5. 离群点
    某种意义上具有不同数据集中的其他大部分数据对象的特征的数据对象,或者相对于该属性的典型值来说不寻常的属性值,我们也称为异常。
  6. 维规约
    就是降低维度
    维灾难是指随着数据维度的增加,许多数据分析变得越来越困难,特别是随着数据的增加,数据在它所占据的空间越来越稀疏。
  7. 特征子集选择:如果说数据的一个属性对于要预测的属性没有太大的用处的话,我们可以选择将这个属性去除。
  8. 数据离散化和多元化及其原因
    在数据挖掘中的某些分类算法中,要求数据是分类属性形式。发现关联模式的算法,要求数据是二元属性形式。这样需要将连续属性变换成分类属性(离散化),并且连续属性和离散属性有时候可能都需要变换成一个或者多个二元属性(多元化)。
  9. 欧几里得距离
    对应坐标数据的差的平方之和,再开根号。

四和五、分类

  1. 什么叫分类
    分类的任务就是通过学习得到一个目标函数,分类之前必须要有分类的准则。

  2. 预测性建模
    用于预测未知记录的类标号。在预测之前首先要建立相应的数学模型。

  3. 混淆矩阵
    共有150个样本数据,预测为1、2、3类各50个。
    在这里插入图片描述
    每一行中的数据加起来表示类别真实样本数量,每一列加起来表示被预测的样本数量。
    举个例子,43表示预测为类1的50个样本中实际属于类1的样本数位43个。

  4. 准确率和错误率
    正确率:正确预测数和预测总数的比值
    错误率:错误预测数和预测总数的比值

  5. 决策树归纳的设计问题
    如何分裂训练记录
    如何停止分裂记录

  6. 决策树算法-计算题-课本P97页
    信息熵和信息增益的计算
    决策树算法只产生二元划分

  7. 分类和聚类的区别和联系

  8. 监督学习和非监督学习的区别和联系

  9. 过分拟合中的训练误差和泛化误差

  10. 过分拟合、导致过分拟合的原因以及如何消减过分拟合

  11. 训练集、检验集和测试集

  12. 如何处理过分拟合
    先剪枝
    后剪枝
    子树提升
    子树替换

  13. 分类规则的质量可以用覆盖率和准确率来度量。
    准确率
    覆盖率

  14. 基于规则分类器所产生的规则的两个重要性质
    互斥规则
    穷举规则

  15. 了解基于规则的排序方案和基于类的排序方案的区别

  16. 重点朴素贝叶斯–课本P141

  17. 装袋、提升和随机森林

  18. 不平衡问题中的召回率和精度

  19. ROC曲线

六、关联分析

  1. 支持度和置信度
  2. 关联规则挖掘任务中的频繁项集的产生和规则的产生
  3. Apriori算法
    最小支持度

七、聚类分析

  1. 聚类分析的基本概念
  2. 不同的聚类类型
    划分聚类
    层次聚类
  3. 不同的簇类型
  4. k均值-计算质心
  5. 二分k均值
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【数据挖掘】知识点总结 的相关文章

随机推荐

  • C语言数据存储与数据打印的奥秘

    尊师 https blog csdn net yyywill 数据存储 要记住 在计算机中 数据都是以 二进制 来存储的 十六进制 八进制和十进制只是我们人为定义的一种表现形式 数据打印 谈到数据打印 有人可能会说 不就是 printf 吗
  • leetcode精选

    7 LeetCode题目精选 7 1 两数之和 问题链接 https leetcode cn com problems two sum 7 1 1 问题描述 给定一个整数数组 nums 和一个目标值 target 请你在该数组中找出和为目标
  • MySQL 读写分离 使用驱动com.mysql.jdbc.ReplicationDriver

    说明文档 http dev mysql com doc refman 5 1 en connector j reference replication connection html 代码例子 1 import java sql Conne
  • Python3,多线程爬完B站UP主的视频弹幕及评论,我飘了~ ~ ~

    利用线程爬取B站Up主弹幕及评论 1 爬取视频弹幕信息 2 爬取视频评论信息 3 整合代码 线程提速 1 爬取视频弹幕信息 爬取视频的弹幕信息 同样要借助于我们的接口工具 这里我们使用Charles 获取到的弹幕的url地址 弹幕url h
  • tensorflow 数据归一化_【TensorFlow实现机器学习方法】KNN(K近邻算法)实现预测房屋价格...

    一 前言 机器学习KNN算法 K近邻算法 的总体理论很简单不在这里赘述了 二 数据集准备 这里使用比较古老的数据集 是房屋预测的数据集 下载地址 https archive ics uci edu ml machine learning d
  • MATLAB——通过扫频数据反推系统伯德图

    1 获取扫频数据 导入MATLAB 2 计算控制器离散传函 根据扫频数据情况绘制控制器伯德图 3 根据控制器伯德图获取增益 相角数据 4 反算系统增益 相角数据 5 数据平滑处理 得到系统最终伯德图
  • element table 中sortable排序

    在项目中做表格的排序 我使用的是自定义的排序 也就是通过后台接口进行的排序 写个文章记录一下element的三种排序方式 在列中设置sortable属性即可实现以该列为基准的排序 接受一个Boolean 默认为false 可以通过 Tabl
  • API接口整理收集常用Get-Post请求供测试使用

    百度 api集市免费接口 IP地址查询 http apistore baidu com apiworks servicedetail 114 html 频道新闻API 易源 http apistore baidu com apiworks
  • 【XML】学习笔记第四章-schema

    Schema 概述 作用 与DTD相比Schema的优势 基础命名空间 模式 引用方法 通过xsi noNamespaceSchemaLocation引入 通过xsi shemaLocation引入 Schema的语法结构 定义元素的主要语
  • shell脚本3个整数从小到大排序

    read p 请输入一个整数 num1 read p 请输入一个整数 num2 read p 请输入一个整数 num3 不管谁大谁小 最后打印 echo n u m 1 num1 num1 num2
  • Goby自定义漏洞之EXP

    前言 自定义漏洞配合EXP 提高漏洞的利用速度 简直是爽的飞起 自从HVV的时候Goby发布HVV专版 羡慕死了 就是太菜没傍上红方大佬的腿 虽然最终用上了HVV专版 但是一些只有你自己知道的漏洞 或者比较偏门的漏洞 就需要咱们自己来编写P
  • react小练习-antd Form表单和Table表格的交互-Table动态添加数据

    文章目录 功能实现效果 代码背景 代码思路 代码实现 功能实现效果 点击添加按钮 输入表单内容 表单提交后数据动态添加到Table表格里 如图 初始数据 是在dva的mock文件模拟的死数据 点击添加 输入数据 表单提交后 数据添加到表格里
  • Android签名概述

    一 Android签名概述 我们已经知道的是 Android对每一个Apk文件都会进行签名 在Apk文件安装时 系统会对其签名信息进行比对 判断程序的完整性 从而决定该Apk文件是否可以安装 在一定程度上达到安全的目的 给定一个Apk文件
  • JAVA实现蛇形矩阵算法

    JAVA实现蛇形矩阵算法 蛇形矩阵是一种特殊的二维矩阵 其元素按照一定的规律排列成蛇形 这种算法可以通过JAVA编程语言来实现 本文将介绍如何使用JAVA编写代码来生成蛇形矩阵 并给出相应的源代码 蛇形矩阵的生成规则如下 第一行从左到右依次
  • 多租户系统设计

    多租户系统设计 SaaS 的系统分级 SaaS 系统架构成熟度模型的 5 个级别 从 混乱 到 乌托邦 第 0 级 混乱 每次新增一个客户 都会新增软件的一个实例 第 1 级 受控的混乱 所有客户都运行在软件的同一个版本上 而且任何的定制化
  • 当在浏览器中输入一个域名后,会发生什么

    今天 去哪儿网Geely老师分享了他在校招时的一个面试题 当输www qunar com时发生了什么 真不是做广告哈 因为学的并没有很扎实 不能更深更广的分析这个问题 遂 百度一下 发现这篇文章并转载保存下来 同时也分享一下 希望大家可以更
  • vue-cli3.0打包时如何忽略某个第三方依赖包

    前几天接到了用vue重构某个业务模块的需求 常规开发不做讨论 但是在打包时需要排除业务中使用的某个第三方依赖包 代码如下 main js import Vue from vue import Cesium from cesium Cesiu
  • 解决Win7启动时出现“windows未能启动。原因可能是最近更改了硬件或软件”的问题

    搜索资料的时候发现个小问题 问题描述 在给ThinkPad T490做win7系统时 出现了 windows未能启动 原因可能是最近更改了硬件或软件 的问题 一直启动不来 在系统盘微PE中甚至还会出现 0x490 找不到元素 的问题 如何来
  • cuda安装笔记

    更新2023 3 4 我笔记本用vs编译后老是提示no kernel image is available for execution on the device 一直以为是驱动版本太高了或者cudatoolkit版本太高了 后来才知道是版
  • 【数据挖掘】知识点总结

    一 绪论 什么是数据挖掘 就是通过算法从大量的数据中搜索隐藏在其中的信息 数据挖掘的基本任务 聚类分析 异常检测 关联分析和预测建模 高维性和维灾难 随着维度的增加计算复杂度也随之增加 二 数据 不同的属性类型 标称 例如 邮政编码 定性数