数据挖掘——认识数据

2023-11-12

《数据挖掘》国防科技大学
《数据挖掘》青岛大学
《数据挖掘与python实践》

数据挖掘之认识数据

1. 数据和信息

**数据(data)**是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材

在计算机系统中,各种字母、数字符号的组合、语音、图形、图像等统称为数据,数据经过加工后就成为信息

2. 数据对象及属性类型

数据集由数据对象组成,一个数据对象对应一个实体,数据对象也可以成为元组
用于表示数据对象的特征或功能的数据字段称为属性
属性类型:

  1. 标称属性 nominal:状态可列举
    特殊:二进制属性,(0,1)
    · 对称二进制:数量相当
    · 不对称二进制:数量差距大
  2. 序数属性 ordinal:有意义的顺序,如大、中、小
  3. 区间标度属性 interval scaled:以单位长度顺序性度量,值有序,无零点,倍数无意义
  4. 比率标度属性 ratio scaled:具有固定零点的数值属性,有序且可以计算倍数
    (标称属性和叙述属性是定性的,区间标度属性和比率标度属性是定量的)

离散属性(Discrete Attribute)&连续属性(Continuous Attribute)

2. 数据统计

数据统计度量

集中趋势

  1. 均值 mean
  2. 中位数 median
  3. 众数 mode
    经验公式:mean - mode = 3×(mean - median)

离散趋势【变异程度的度量】

  1. 极差(range,全距):最大值与最小值的差距
  2. 方差(Variance):数据值与平均值之间的差异
    在这里插入图片描述
  3. 标准差(Standard deviation):方差的正平方根
  4. 变异系数:标准差相对于平均数的大小的度量
    在这里插入图片描述

分位数

四分位数(quartile): Q1 (25th 百分位数percentile), Q3 (75th percentile)
中间四分位数极差(Inter-quartile range): IQR = Q3 – Q1
五数概括: min, Q1, median, Q3, max

3. 数据可视化

数据可视化、过程可视化、结果可视化
基本统计图:

  1. 箱线图/盒图(Box plot):可以分析多个属性数据的分布差异性
    在这里插入图片描述
    离群点:通常情况下高于或低于1.5 IQR的值
  2. 直方图:可以分析单个属性在各个区间的变化分布
  3. 散点图:可以用来显示两组数据的相关性分布,正相关、负相关、不相关

4. 数据相似性

数据矩阵:N×p,N个数据,p个维度
相异矩阵,N个数据点,记录两点之间的距离,下三角矩阵
在这里插入图片描述

相似性度量

  1. 相似度 similarity:[0,1],值越大越相似
  2. 相异度 dissimilarity/distance:值越小越相似
  3. 邻近性 proximity (相似度或相异度)

(1)标称属性的邻近性度量
简单匹配
对于二值属性:
在这里插入图片描述
(2)序数属性的邻近性度量
在这里插入图片描述

(3)数值属性的邻近性度量
① 闵可夫斯基距离 Minkovski distance
在这里插入图片描述
在这里插入图片描述
曼哈顿距离 Manhattan Distance:L1范数
欧氏距离 Euclidean Distance:L2范数
上确界距离/切比雪夫距离 Supremum Distance:Lmax,L范数(指所有的属性之间,差值最大的即为两个对象的距离)
② Z-score(标准化)在这里插入图片描述
③ 余弦相似性
cos(d1, d2) = (d1 • d2) /||d1|| ||d2||
在这里插入图片描述
(4)混合属性的邻近性度量
在这里插入图片描述

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

数据挖掘——认识数据 的相关文章

  • C++每日一问:C++ 内存管理——内存泄漏及处理

    2 内存泄漏 2 1 C 中动态内存分配引发问题的解决方案 假设我们要开发一个String类 它可以方便地处理字符串数据 我们可以在类中声明一个数组 考虑到有时候字符串极长 我们可以把数组大小设为200 但一般的情况下又不需要这么多的空间

随机推荐

  • 唯一分解定理(分解质因子)

    唯一分解定理 每个大于一的自然数均可写为质数的积 而且这些素因子按大小排列之后 写法只有一种方式 最简单的写法 include
  • matlab绘制正弦函数、幅度调制初步、Inner matrix dimensions must agree错误

    以sin 2 f t 表达式来绘制正弦图像 必须给定数值序列才能绘制出图像 t必须给定一个数值序列 然后计算出 y sin 函数值序列 以t为横轴 y为纵轴 就绘制出了图像 先给出f 4 在这里是有几个周期 采样率Fs 100 matlab
  • flask从入门到精通,知识讲解+代码演示 day1

    flask从入门到精通 知识讲解 代码演示 day1 文章目录 flask从入门到精通 知识讲解 代码演示 day1 一 flask是什么 二 使用步骤 1 创造flask项目 2 初入flask 3 flask代码初运行 4 flask从
  • Spring Cloud实战(五)-声明式接口模块

    接着上一篇 Spring Cloud实战 四 配置中心 现在开始搭建api模块 一 声明式接口模块api 1 pom xml
  • 数学建模-相关性分析(Matlab)

    注意 代码文件仅供参考 一定不要直接用于自己的数模论文中 国赛对于论文的查重要求非常严格 代码雷同也算作抄袭 如何修改代码避免查重的方法 https www bilibili com video av59423231 清风数学建模 一 基础
  • GPU与GPGPU泛淡

    GPU与GPGPU泛淡 GPU Graphics Processing Unit 也即显卡 是一种专门在个人电脑 工作站 游戏机和一些移动设备 如平板电脑 智能手机等 上作图像运算工作的微处理器 它已经是个人PC和移动设备上不可或缺的芯片
  • C#数据类型之枚举类型

    一 枚举类型的定义 public enum 枚举名称 枚举数据类型 枚举的数据类型可以省略 默认类型为int 枚举项1 枚举项的值 枚举项的值是整数可以自己设置 枚举项2 枚举项3 例如 public enum month ushort 一
  • Clion + mysql (win/Mac + 本地/远程)

    新手教程 那些年我用clion操作mysql的一些经验教训 本文目录 使用clion自带的数据库工具 对数据库进行操作 连接本地数据库 建库 建表 编辑表格 修改字段名 查询数据 插入新的数据 sql常用语句 mysql版 win Clio
  • 口罩检测——数据准备(2)

    文章目录 前言 一 数据介绍 二 数据标注 三 数据转换 总结 前言 上一篇文章中小编讲解了口罩检测的环境要求 在这一篇文章中我们就正式进入项目的讲解 我们从数据准备开始 数据是模型快乐的源泉 没有高质量的数据 再好的模型也白搭 一 数据介
  • Flink消费Rabbit数据,写入HDFS - 使用 BucketingSink

    一 应用场景 Flink 消费 Kafka 数据进行实时处理 并将结果写入 HDFS 二 Bucketing File Sink 由于流数据本身是无界的 所以 流数据将数据写入到分桶 bucket 中 默认使用基于系统时间 yyyy MM
  • 通过 Tensorflow 的基础类,构建卷积神经网络,用于花朵图片的分类

    实验目的 通过 Tensorflow 的基础类 构建卷积神经网络 用于花朵图片的分类 实验环境 import tensorflow as tf print tf version output 2 3 0 实验步骤 一 数据获取和预处理 1
  • 第五章 静态资源 CDN 引入

    第五章 静态资源 CDN 引入 静态请求 CDN 用户将静态资源数据请求到ECS服务器 ECS服务器解析到阿里云的CDN中 CDN可以理解为一个无限大的内容磁盘缓存 本身没有文件存储 当用户访问 getItem 的一个静态资源文件的时候 会
  • 【线代】特征值、惯性指数、标准型、规范型的关系?等价、相似与合同?

    目录 1 两矩阵特征值相同 1 1 实对称矩阵A B的特征值相同 2 二次型的标准型 2 1 标准型唯一吗 2 2 标准型与秩 2 3 标准型与特征值 2 4 正交变换与特征值 2 5 两个二次型的标准型相同 3 规范型 3 1 规范型唯一
  • Qt Install Framework使用方法

    Qt程序的打包发布现在已经可以通过其发布的Installer Framework框架来完成 通过修改一些配置文件即可实现 首先 现在该框架官网提供1 3 0 1 4 0和1 5 0版本的下载 本文书写时 根据有新的谁他吗还用旧的准则 下载1
  • Spring----初识

    Spring 是一种轻量级开发框架 旨在提高开发人员的开发效率以及系统的可维护性 Spring 官网 Spring Home Spring 框架指的都是 Spring Framework 它是很多模块的集合 使用这些模块可以很方便地协助我们
  • Qt 设计师-Qt Designer基础控件介绍

    Layouts Vertical Layout 垂直布局 Horizontal Layout 水平布局 Gird Layout 栅格布局 FormLayout 表单布局 关于布局有很多博客写的很好就不再赘述了 本人常用Qt Designer
  • Laplace Smoothing

    拉普拉斯平滑 Laplace Smoothing 拉普拉斯平滑 Laplace Smoothing 又称为加 1 平滑 是比较常用的平滑方法 平滑方法的存在时为了解决零概率问题 一 为什么要做平滑 零概率问题 在计算事件的概率时 如果某个事
  • Python判断当前日期是否为工作日(交易日),智能去除周末节假日(功能已实现)

    一 首先安装chinesecalendar模块 pip install chinesecalendar 或 使用镜像安装到指定位置 pip install chinesecalendar target D bin x64 Lib site
  • h264bitstream (read and write H.264 video bitstreams)

    1 编译安装参考源码包自带的说明文档 h264bitstream 0 2 0 README md sudo apt get install build essential libtoolautoreconf i configure pref
  • 数据挖掘——认识数据

    数据挖掘 国防科技大学 数据挖掘 青岛大学 数据挖掘与python实践 数据挖掘之认识数据 1 数据和信息 数据 data 是事实或观察的结果 是对客观事物的逻辑归纳 是用于表示客观事物的未经加工的原始素材 在计算机系统中 各种字母 数字符