数据对象属性分类

2023-11-03

  数据集由数据对象组成,一个数据对象代表一个实体。数据对象又称样本、实例、数据点或对象。属性(attribute)是一个数据字段,表示数据对象的一个特征。属性向量(或特征向量)是用来描述一个给定对象的一组属性。

属性有不同类型:标称属性(nominal attribute)、二元属性(binary attribute)、序数属性(ordinal attribute)、 数值属性(numerical attribute)、离散属性与连续属性。 

 属性:(Attribute)是一个数据字段,表示数据对象的一个特征。在文献中,属性、维(Dimension)、特征(Feature)和变量(Variable)表示相同的含义,可以在不同场合互换使用。

数据对象的属性,可以做以下的分类:

一、从定量和定性分类:

(1)定性:标称的(名义的)、序数的、二元的

(2)定量:区间的、比率的

(1)定性:

标称值,一般不用于数据符号的运算。它无法量化或排序。比如,符号、字符、单词、性别和其他标称数据都是标称数据的实例。除此之外,还有国家,民族,语言等等。

虽然无量化意义,但是该属性最常出现的值,这个值称为众数(mode ),是一种中心趋势度量,这也是一件有意义的事情。在计算机科学中,这些值也被看做是枚举的(enumeration )。

二元的,只有两个类别或状态:0或1,其中0通常表示该属性不出现,而1表示出现。二元属性又称布尔属性,如果两种状态对应于true。和false的话。比如,倘若属性:cooker描述患者对象,1表示患者抽烟,0表示患者不抽烟。类似地,假设患者进行具有两种可能结果的医学化验。属性medical_ test是二元的,其中值1表示患者的化验结果为阳性,0表示结果为阴性。

序数的,是自然的,有序的。比如,月份、日期、一天的时间描述(早上、上午、中午、下午、晚上、夜里),调查问卷的反馈(十分满意、比较满意、满意、一般、不满意、比较不满意、十分不满意),还有军衔、职级等等。同样,无量化意义,但是可以通过分组来分析占比。其可能的值之间具有有意义的序或秩评定( ranking ),但是相继值之间的差是未知的。对于记录不能客观度量的主观质量评估,序数属性是有用的。因此,序数属性通常用于等级评定调查。

注意,标称、二元和序数属性都是定性的。即,它们描述对象的特征,而不给出实际大小或数量。这种定性属性的值通常是代表类别的词。如果使用整数,则它们代表类别的计算机编码,而不是可测量的量(例如,0表示小杯饮料,1表示中号杯,2表示大杯)。

(2)定量:

区间的,区间标度(interval- scaled)属性用相等的单位尺度度量。区间属性的值有序,可以为正、0或负。因此,除了值的秩评定之外,这种属性允许我们比较和定量评估值之间的差。

例: temperature(温度)属性是区间标度的。假设我们有许多天的室外温度值,其中每天是一个对象。把这些值排序,则我们得到这些对象关于温度的秩评定。此外,我们还可以量化不同值之间的差。例如,温度20℃比5℃高出15 0C。日历日期是另一个例子。例如,2002年与2010年相差8年。所以,除了秩评定之外,这种属性允许比较和定量评估值之间的差。例如,身高属性是区间标度的。假设我们有一个班学生的身高统计值,将每一个人视为一个样本,将这些学生身高值排序,可以量化不同值之间的差。A同学身高170cm比B同学165cm高出5cm。   对于没有真正零点的摄氏温度和华氏温度,其零值不表示没有温度。例如,摄氏温度的度量单位是水在标准大气压下沸点温度与冰点温度之差的1/100。尽管可以计算温度之差,但因没有真正的零值,因此不能说10℃比5℃温暖2倍,不能用比率描述这些值。但比率标度属性存在真正的零点。  

比率的,比率标度(ratio- scaled)属性是具有固有零点的数值属性。也就是说,如果度量是比率标度的,则我们可以说一个值是另一个的倍数(或比率)。此外,这些值是有序的,因此我们可以计算值之间的差,也能计算均值、中位数和众数。

例: 不像摄氏和华氏温度,开氏温标(K)具有绝对零点(00K =-273. 150C ):在该点,构成物质的粒子具有零动能。比率标度属性的其他例子包括诸如工作年限(例如,对象是雇员)和字数(对象是文档)等计数属性。其他例子包括度量重量、高度、速度和货币量(例如,100美元比1美元富有100倍)的属性。

温度标度  温度能够非常好地解释前面介绍的一些概念。

首先。温度能够是区间属性或比率属性,这取决于其測量标度。当温度用绝对标度測量时,从物理意义上讲,2°的温度是1°的两倍。当温度用华氏或摄氏标度測量时则并不是如此,由于这时1°温度与2°温度相差并不太多。问题是从物理意义上讲,华氏和摄氏标度的零点是硬性规定的,因此,华氏或摄氏温度的比率并无物理意义。

 

 

前面介绍的几种属性类型之间是不互斥的,我们还可以用许多其他方法来组织属性类型,使类型间不互斥。

二、数据属性从值的个数的角度,可以分为:二元的,离散的,连续的。

离散的(discrete),离散属性具有有限个值或无限可数个值。这种属性能够是分类的。如邮政编码或ID号。也能够是数值的,如计数。通常。离散属性用整数变量表示。二元属性(binary attribute)是离散属性的一种特殊情况,并仅仅接受两个值,如真/假、是/否、男/女或0/1。通常。二元属性用布尔变量表示。或者用仅仅取两个值0或1的整型变量表示。

连续的(continuous),连续属性是取实数值的属性。如温度、高度或重量等属性。通常,连续属性用浮点变量表示。实践中,实数值仅仅能用有限的精度測量和表示。

从理论上讲,不论什么測量标度类型(标称的、序数的、区间的和比率的)都能够与基于属性值个数的随意类型(二元的、离散的和连续的)组合。然而。有些组合并不常出现,或者没有什么意义。比如,非常难想象一个实际数据集包括连续的二元属性。

通常,标称和序数属性是二元的或离散的,而区间和比率属性是连续的。然而,计数属性(count attribute)是离散的,也是比率属性。

本文部分来源:《数据挖掘概念与技术》

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

数据对象属性分类 的相关文章

随机推荐

  • java从前端传数据到后台_javaWeb开发总结 ---- 前端数据插入到后台

    一 概述 本文主要描述如何将数据通过表单提交到后台并插入到数据库 其中后台使用spring框架 二 开发流程 明确需求 即将什么数据插入到数据库 平台搭建 配置spring 数据库 建表 走通springMVC 走通springMVC到数据
  • 项目经理和技术经理的区别

    一 关于项目经理 在没有真正进入软件行业之前 对于系统集成方面的项目还是有些心得的 有种一个人事无巨细的带一票人打江山的感觉 项目合同要负责 项目具体需求要负责 项目人员分配要负责 项目实施要指挥 管理心态 是关键 不懂技术 可以 不懂全局
  • 将字符串中的‘*’移动到字符串最前面且不改变原来非‘*’字符的顺序

    过程如下图所示
  • 带你理解运算放大器

    复习一下电子设计基本元器件 运算放大器 矜辰所致 目录 前言 一 运放基本说明 1 1 基本认识 1 2 运放中的电流 1 3 运放工作特性 二 负反馈 2 1 什么是负反馈 2 2 为什么要引入负反馈 负反馈电路分析 2 3 正反馈 三
  • Padavan(老毛子)脚本自动切换网关和 DNS 服务器

    家中网络连接示意图 已省略接在主路由上的光猫 基本情况 联通宽带 光猫改桥接 主路由拨号 主路由红米AC2100 RM2100 老毛子系统 padavan 3 4 3 9 099 20200619 IP 10 0 0 1 NAS 蜗牛星际A
  • SVN文件夹图标不正常显示解决方案(win10)android studio

    在使用Android Studio提交代码时发现svn图标莫名其妙的不显示 其他操作都正常 在网上搜了一堆资料都有各种说法 结合了操作 一步步来试终于给我找到了 在这我自己总结一下 一部分也是拷贝别的图片 写一篇清楚文章好希望能帮助和我遇到
  • frp实现内网穿透(内网服务器到公网访问的方案)

    目录 背景 一 frp的简介 二 Frp Server的配置 三 Frp Client的配置 背景 我使用python写了一个http后端 如代码所示 ip为10 1 136 73 port为8000 现在需要把http后端在公网可以被使用
  • echarts 中x轴 设置步长,间隔的距离

    如果你已经使用了 echarts xAxis axisLabel interval 5 在 xAxis 下面 axisLabel 里面的 interval 值即可 interval 为 0 时 所有的标签都显示出来 interval 表示步
  • 详解ThreadLocal

    提示 文章写完后 目录可以自动生成 如何生成可参考右边的帮助文档 文章目录 1 ThreadLocal介绍 1 1 官方介绍 1 2 基本用法 1 2 1 常用方法 1 2 2 使用案例 1 3 ThreadLocal与synchroniz
  • [Python人工智能] 四.TensorFlow创建回归神经网络及Optimizer优化器

    从本篇文章开始 作者正式开始研究Python深度学习 神经网络及人工智能相关知识 前一篇文章讲解了TensorFlow基础和一元直线预测的案例 以及Session 变量 传入值和激励函数 这篇文章将详细介绍TensorFlow创建回归神经网
  • 少儿编程有必要吗?

    这几年 人工智能正以难以想象的速度向前开展 AlphaGo赢了柯洁 百度无人巴士量产 京东开端启用机器人送快递 谷歌的AI都学会了自行freestyle 科技的推翻式立异 随之引发教育风向大变革 除了语数外 老三样 的根底教育外 一门新兴学
  • STM32驱动HC05蓝牙串口通信模块

    前言 时不可以苟遇 道不可以虚行 今天分享一下最近学习的 HC05 蓝牙模块 通过用 手机蓝牙控制 STM32 单片机 进行 点灯 传输数据 显示波形 等基础操作 一 介绍 HC05模块是一款高性能主从一体蓝牙串口模块 说白了 只是个蓝牙转
  • oracle排序后从相同的顺序中随机取一行

    要求 要求从这个表取数据 v2字段相同的 随机取一个出来 第1 2随机取一行 第5 6 7行随机取一行 其他的3 4行都保留 效果展示 查询语句写法 Select s from select t row number over partit
  • 【数据分析】数据分析方法(六):相关分析 & 群组分析

    数据分析方法 六 相关分析 群组分析 1 相关分析方法 当我们研究两种或者两种以上数据之间有什么关系的时候 就要用到相关分析 在解决问题的过程中 相关分析可以帮助我们扩大思路 将视野从一种数据扩大到多种数据 通过计算相关系数 我们可以看到两
  • 栈的应用——深度优先搜索(走迷宫)

    栈应用到走迷宫 寻路算法 的做法 迷宫就是下图所示的这种 这次主要是先用代码画出一个迷宫 利用二维数组 然后寻路走到出口 代码如下 在C 中运行 mystack h include
  • 统计文件数目

    编写一个程序 统计某个目录下 含子目录 里的所有目录数和文件数 import os path 在引号里加入需要统计的文件夹目录 def list files path file num 0 files num 0 for root dirs
  • 快手只发作品不直播的赚钱方法

    快手只发作品不直播的赚钱方法 玩快手也不开直播 只发段子 有这三种变现方式 我只告诉你可以往下看吗 以下几种方式 你千万记住点开左上角的三条杠 点击更多点击创作者中心 这个时候我们到里面找到什么任务中心点进来 这个时候到你该转米的时候了 随
  • spring 增强顺序改变的原因

    spring 增强顺序改变的原因 spring 5 2 7版本正式改变增强的顺序 网上的大部分文章主要从spring的代码层面的变动 来解释增强顺序的变动 而我想要了解的是这个变动 是因为导致了某些bug的出现吗 所以自己在github和s
  • Java中数据类型分类?

    转自 Java中数据类型分类 下文笔者讲述java中数据类型的分类 如下所示 基本数据类型boolean 布尔类型 short 短整型 int 整型 long 长整型 byte 字节型 char 字符型 float 单精度浮点型 doubl
  • 数据对象属性分类

    数据集由数据对象组成 一个数据对象代表一个实体 数据对象又称样本 实例 数据点或对象 属性 attribute 是一个数据字段 表示数据对象的一个特征 属性向量 或特征向量 是用来描述一个给定对象的一组属性 属性有不同类型 标称属性 nom