数据挖掘:数据(数据对象与属性类型)

2023-11-19

一、概述

  1. 现实中的数据一般有噪声、数量庞大并且可能来自异种数据源。
  2. 数据集由数据对象组成,一个数据对象代表一个实体。
  3. 数据对象:又称样本、实例、数据点或对象。
  4. 数据对象以数据元组的形式存放在数据库中,数据库的行对应于数据对象,列对应于属性。
  5. 属性是一个数据字段,表示数据对象的特征,在文献中,属性、维度(dimension)、特征(feature)、变量(variance)可以互换的使用
  6. “维”,一般用在数据仓库中。
  7. “特征”,一般用在机器学习中。
  8. “变量”,一般用在统计学中。
  9. 一个属性的类型由该属性可能具有的值的集合决定,可以是标称的、二元的、序数的、数值的。

 

二、标称属性(nominal  attribute)

 1)特点

  1. 标称属性的值是一些符号或事物的名称。
  2. 每个值代表某种类别、编码、状态,因此标称属性又被看做是分类的(categorical)。
  3. 标称属性的值不具有有意义的序,而且不是定量的。(也就是说,给定一个对象集,找出这种属性的均值没有意义)

 2)其它

  1. 这些值不必具有有意义的序,在计算机科学中,这些值也被看做是枚举的(enumeration)。
  2. 尽管标称属性的值是一些符号或“事物的名称”,但也可以用数表示这些符号或名称,如 hari_color,可以用 0 表示黑色,1 表示黄色。
  3. 但一种属性中最长出现的值,称为众数(mode),是一种中心趋势度量。

  # 例:hari_color(头发颜色)、marital_status(婚姻状况)、occupation(职业),都是标称属性,表示对象的特征。

 

三、二元属性(binary  attitute)

 1)特点

  1. 二元属性是一种标称属性,只有两个状态:0 或 1,其中 0 通常表示该属性不出现,1 表示出现。
  2. 二元属性又称布尔属性,如果两种状态对应的是 true 和 false。

 2)其它

  1. 对称的二元属性:如果两种状态具有同等价值,并且携带相同权重,如表示性别,则 0 和 1 分别表示男性或女性没有影响。
  2. 非对称的二元属性:两种状态的结果不是同等重要的,如 HIV 患者和不是 HIV 患者,为了方便计,将用 1 对最重要的结果(通常是稀有的)编码(如,HIV 患者),而另一个用 0 编码。

 

四、序数属性(ordinal  attribute)

 1)特点

  1. 属性对应的可能的值之间具有有意义的序或秩评定(ranking),但是相继值之间的查是未知的。(也就是对应的值有先后次序)

 2)其它

  1. 例:drink_size,表示饮料杯的大小:小、中、大,这些值具有有意义的先后次序。
  2. 序数属性可以通过把数值量的值域划分成有限个有序类别(如,0-很不满意、1-不满意、2-中性、3-满意、4-很满意),把数值属性离散化而得到。
  3. 可以用众数和中位数表示序数属性的中性趋势,但不能定义均值。
  4. 标称、二元和序数属性都是定性的,即,它们描述对象的特征,而不给出实际大小或数值。

 

五、数值属性(numeric  attribute)

  • 特点

  1. 是定量的可度量的量,用整数或实数表示。
  2. 可以是区间标度的或比率标度的。

 1)区间标度(interval-scaled)属性

  • 例:temperature(温度)属性,一般表示:10℃~15℃。
  • 特点:
  1. 用相等的单位尺度度量,区间属性的值有序,可以为正、0、负。(值的秩评定)
  2. 允许比较与定量评估值之间的差。
  3. 区间标度属性是数值的,中心趋势度量中位数和众数,还可以计算均值。

 2)比例标度(ratio-scaled)属性

  •  特点
  1. 具有固有零点的数值属性。(也就是该种属性中会有固有的为 0 的值)
  2. 一个值是另一个的倍数(或比率)
  3. 值是有序的。(可以计算差、均值、中位数、众数)
  • 例:度量重量、高度、速度和货币量(例如 100 元是 1 元的 100 倍)的属性。

 

六、离散属性与连续属性

  • 机器学习中的分类算法通常把属性分为离散的和连续的。

 1)离散属性

  • 特点:
  1. 具有有限个或无限个可数个数,可以用或不用整数表示。
  2. 例:hari_color、smoker、drimk_size都有有限个值,因此是离散的。
  • 无限可数:如果一个属性可能的值集合是无限的,但是可以建立一个与自然数一一对应,则该属性是无限可数的。
  • 例:customer_ID 是无限可数的。

 2)连续属性

  • 如果属性不是离散的,则它是连续的。
  • 文献中,术语“数值属性”和“连续属性”可以互换的使用。
  • 实践中,实数值用有限位数数字表示,连续属性一般用浮点变量表示。

 

转载于:https://www.cnblogs.com/volcao/p/10080736.html

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

数据挖掘:数据(数据对象与属性类型) 的相关文章

随机推荐

  • 在eclipse里建立包中包

    工具 原料 工具软件 j2EE eclipse 语言 Java 方法 步骤 1 在src文件夹右击 new package 见下图 2 点击finish 3 在com包右击new package 4
  • 工控上位机程序为什么只能用C语言?

    工控上位机程序并不只能用C 开发 实际上在工业自动化领域中 常见的上位机开发语言包括但不限于以下几种 C C 是一种常用的编程语言 在工控领域中被广泛使用 它具有良好的面向对象特性和丰富的类库支持 可以实现高性能的上位机程序开发 C C C
  • Allegro使用经验笔记

    一 安装 SPB15 2 CD1 3 安装1 2 第3为库 不安装 License安装 设置环境变量Lm license file D Cadencelicense Dat 修改License中SERVER Yyh ANY 5280为SER
  • Typora快捷键大全

    1 字体编辑 1 1 大小 大小 ctr 数字 或 ctr 加减号 或 1 2 加粗 加粗 ctr b 1 3 倾斜 倾斜 ctr i 1 4 下划线 下划线 ctr u 1 5 删除线 删除线 alt shift 5 1 6 上标 上标
  • YOLOv8改进开源

    大致介绍一下AI全栈技术社区的相关内容 主要涵盖了YOLO全系列模型的改进 量化 蒸馏 剪枝以及不同工具链的使用 同时也涵盖多目标跟踪 语义分割 3D目标检测 AI模型部署等内容 具体内容小伙伴们可以参考下面的目录部分 所有内容均有答疑服务
  • 学习-Python字符串之格式化

    第1关 学习 Python字符串之格式化 任务描述 本关任务 给定一个列表 计算列表内所有数据标准差 结果保留小数点后 2 位 相关知识 为了完成本关任务 你需要掌握 的使用 format 的使用 Template 的使用 在之前的实训中
  • 数据分析01——Anaconda安装/Anaconda中的pip换源/jupyter配置

    0 前言 数据分析三大模块知识 numpy 数组计算 pandas 基于numpy开发 用于数据清洗和数据分析 matplotlib 实现数据可视化 1 Anaconda安装 安装Anaconda 注意安装路径不一定是c盘 但是安装目录不要
  • Python Excel操作模块XlsxWriter之写入worksheet.write()

    worksheet write wirte row col args 向工作表单元格写入普通的数据 参数 row 单元格所在的行 索引从0开始计数 col 单元格所在的列 索引从0开始计数 args 传递到子方法的附加参数诸如数字 字符串
  • 端口介绍

    文章来源 https m toutiaocdn com group 6680437870504706572 app news article timestamp 1563010542 req id 201907131735410100230
  • Linux lvm管理讲解及命令

    作者 小刘在C站 个人主页 小刘主页 每天分享云计算网络运维课堂笔记 努力不一定有回报 但一定会有收获加油 一起努力 共赴美好人生 夕阳下 是最美的绽放 树高千尺 落叶归根人生不易 人间真情 前言 目录 一 lvm管理 1 Logical
  • mysql sql优化方法_一个MySql Sql 优化技巧分享

    有天发现一个带inner join的sql 执行速度虽然不是很慢 0 1 0 2 但是没有达到理想速度 两个表关联 且关联的字段都是主键 查询的字段是唯一索引 sql如下 SELECTp item token p item product
  • 如何在小程序实现人脸识别的方法

    1 获取用户授权 在小程序中实现人脸识别需要先获取用户的授权 用户需要允许小程序访问他们的摄像头和图像数据 这样才能进行人脸识别 2 采集图像数据 在获得用户授权后 小程序可以通过摄像头或者相册功能 采集用户的面部图像数据 3 使用图像处理
  • Java-private构造方法

    private 构造函数一般用于Singleton模式 指的是整个应用只有本类的一个对象 一般这种类都有一个类似getInstance 的方法 class A public String name 构造函数限定为private 不可以直接创
  • 标准差(Standard Deviation), 标准误差(Standard error),变异系数 (Coefficient of Variance )的区别与联系

    标准差 Standard Deviation 中文环境中又常称均方差 是离均差平方的算术平均数的平方根 用 表示 标准差是方差的算术平方根 标准差能反映一个数据集的离散程度 平均数相同的两组数据 标准差未必相同 标准误差 Standard
  • 学习Flask之Flask-Login 用户会话管理

    Flask Login 用户控制用户会话管理 简单点说 就是控制登录 如果是自己写的登录系统 一般都是通过操作session 然后后台根据session 来判断权限 Flask Login 就是负责这部分 直接开始 安装 pip insta
  • System.Data.OracleClient 需要 Oracle 客户端软件 version 8.1.7 或更高版本

    同学的电脑连接实验室的服务器时出现 System Data OracleClient 需要 Oracle 客户端软件 version 8 1 7 或更高版本 而我自己的电脑可以轻松连接服务器的数据库 首先 实验室用的是Oracle 12c
  • 力扣 942. 增减字符串匹配 双指针解法C++

    给定只含 I 增大 或 D 减小 的字符串 S 令 N S length 返回 0 1 N 的任意排列 A 使得对于所有 i 0 N 1 都有 如果 S i I 那么 A i lt A i 1 如果 S i D 那么 A i gt A i
  • TensorRT(11):python版本序列化保存与加载模型

    TensorRT系列传送门 不定期更新 深度框架 TensorRT 文章目录 一 序列化保存模型 二 反序列化加载模型 三 完整代码 楼主曾经在TensorRT 7 python版本使用入门一文中简要记录了python版本是序列化与反序列化
  • 成为编程高手的二十二条军规

    1 大学生活丰富多彩 会令你一生都难忘 但难忘有很多种 你可以学了很多东西而难忘 也会因为什么都没学到而难忘 2 计算机专业是一个很枯燥的专业 但即来之 则安之 只要你努力学 也会发现其中的乐趣的 3 记住 万丈高楼平地起 基础很重要 尤其
  • 数据挖掘:数据(数据对象与属性类型)

    一 概述 现实中的数据一般有噪声 数量庞大并且可能来自异种数据源 数据集由数据对象组成 一个数据对象代表一个实体 数据对象 又称样本 实例 数据点或对象 数据对象以数据元组的形式存放在数据库中 数据库的行对应于数据对象 列对应于属性 属性是