《数据挖掘概念与技术》第二章

2023-11-07

《数据挖掘概念与技术》第二章

认识数据

目录

认识数据

2.1 数据对象与属性类型

2.1.1 什么是属性

2.1.2 标称属性


2.1 数据对象与属性类型

数据对象组成数据集,一个数据对象是一个实体。数据对象用属性描述,还被称为样本、实例、数据点或对象。

数据元组

2.1.1 什么是属性

属性指对象的一个特征。

属性、维、特征和变量意思相同,不过应用场景不同。属性一般用于数据挖掘和数据库,维用于数据仓库,特征用于机器学习文献,变量用于统计学。

属性向量(特征向量):描述一个给定对象的一组属性。

单变量:涉及一个属性的数据分布。

双变量:涉及两个属性的数据分布,可以往上类推。

2.1.2 标称属性

标称属性:其值是一些符号或者事物的名称。表示某种类别、状态,可用于分类。例如:头发颜色、性别等。

对于标称属性,均值、中位数是没有意义的,有意义的是众数,一种中心趋势度量。

2.1.3 二元属性

标称属性之一,只用0,1两种状态,当两种状态对应true和false时也称为布尔属性。

二元属性有对称与非对称之分,对称是指两种状态具有相同的权重,比如男、女;非对称指两种状态的权重不同,比如一种病的有无。

2.1.4 序数属性

序数属性的值具有有意义的序,但是相邻值之间的差是未知的。比如:小、中、大;A、B、C表示等级

序数属性通常用于等级评定调查。

序数属性的中心趋势可以用众数和中位数表示,均值无意义。

2.1.5 数值属性

数值属性是定量的,即是可度量的,用整数或实数值表示。

数值属性可以是区间标度的或比率标度的。

1、区间标度属性

区间标度属性是用相等的单位尺度度量。

区间属性的值为有序的,+、-、0都可。

除了值的秩评定外,区间标度属性允许我们比较和定量评估值之间的差。

 

 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

《数据挖掘概念与技术》第二章 的相关文章

  • 《金融数据分析导论:基于R语言》习题答案(第一章)

    金融数据分析导论 基于R语言 是芝加哥大学的教授Ruey S Tsay所著 李洪成 尚秀芬 郝瑞丽翻译 机械工业出版社出版 是一本学习R语言和金融数据分析的很好的参考书籍 注 这些答案都是本人自己做出的结果 可能有错 仅供参考 发现有错的地
  • 经典SQL面试题讲解(11-20)

    本文转自公众号俊红的数据分析之路 本篇节选自书籍 对比Excel 轻松学习SQL数据分析 一书 主要讲解数据分析面试中常见的30道SQL面试题 1 10题见 几道经典SQL面试题讲解 11 行列互换 现在我们有下面这么一个表row col
  • 数据挖掘(全书的知识点都包括了)

    数据挖掘 第一章 1 什么是数据挖掘 数据挖掘是从数据中 发现其有用的信息 从而帮助我们做出决策 广义角度 数据挖掘是从大量的 不完全的 有噪声的 模糊的 随机的实际应用数据中 提取隐含在其中的 人们事先不知道的 但又是潜在有用的信息和知识
  • LDSC:连锁不平衡回归分析

    欢迎关注 生信修炼手册 LDSC全称如下 linkage disequilibrium score regression 简称LDSR或者LDSC 在维基百科中 对该技术进行了简单介绍 通过GWAS分析可以识别到与表型相关的SNP位点 然而
  • 【Data Mining】【第五章作业】

    文章目录 一 单选题 二 多选题 三 填空题 一 单选题 1 回归分析中使用的距离是点到直线的垂直坐标距离 最小二乘准则是指 A B C D 正确答案 D 2 回归分析的步骤为 进行相关分析 建立预测模型 确定变量 确定预测值 计算预测误差
  • 文本情感分析竞赛(首次提交排名第6)

    之前花了半个小时做了个DataCastle上的基础竞赛题 然后提交结果后直接第六名 因此来分享一下 该文章之前记录在我的公众号上 原文链接 https mp weixin qq com s nIJ2begF2 5i WnT1PEM3w 数据
  • 如何统计DataFrame中各列数据分类的各个不同数据出现的次数

    可以使用 value counts 函数来统计每个不同数据在数据列中出现的次数 例如 假设有一个名为 df 的 DataFrame 其中包含一列名为 col 要统计 col 列中各个不同数据的出现次数 可以使用以下代码 counts df
  • 2023年1月手机热门品牌型号排行榜(手机行业趋势分析)

    近期苹果降价引起人们的关注 并且优惠较大 iPhone 14 Pro系列在苹果官方授权渠道均降价 线下授权门店普遍降价700元左右 iPhone Pro与Pro Max作为苹果的旗舰产品 通常被认为是更为保值的机型 一般来说 不会在短期内大
  • 数据中台与数据仓库区别

    1 数据源不同 先从数据来源上来说 数据中台的数据来源可以是结构化数据或者非结构化的数据 而传统数仓的数据来源主要是业务数据库 数据格式也是以结构化数据为主 2 数据的处理不同 数据中台不仅仅是汇聚企业各种数据 而且让这些数据遵循相同的标准
  • 数据挖掘计算题-1

    一 设某事务项集构成如下表 填空完成表1中支持度和置信度的计算 1 12 15分 表1 支持度与置信度 事务ID 项集 L2 支持度 规则 置信度 T1 A D A B 1 A B 7 T2 D E A C 2 C A 8 T3 A C E
  • 推荐算法(Recommended Algorithms)

    大家好 我是Sonhhxg 柒 希望你看完之后 能对你有所帮助 不足请指正 共同学习交流 个人主页 Sonhhxg 柒的博客 CSDN博客 欢迎各位 点赞 收藏 留言 系列专栏 机器学习 ML 自然语言处理 NLP 深度学习 DL fore
  • 讲解 最大流问题+最小花费问题+python(ortool库)实现

    文章目录 基本概念 图 邻接矩阵 最大流问题 python解决最大流问题 python解决最大流最小费用问题 喜欢的话请关注我们的微信公众号 你好世界炼丹师 公众号主要讲统计学 数据科学 机器学习 深度学习 以及一些参加Kaggle竞赛的经
  • 全网最详细的Python安装教程,超级详细·小白秒懂!!!

    目录 1 安装版本说明 2 准备工作 确定操作系统及位数 2 1 确定方法1 2 2 确定方法2 3 下载Python安装包 4 安装Python 5 测试Python是否安装成功 6 Python安装成功后找不到编写代码的桌面快捷方式 7
  • 探索关系:Python中的Statsmodels库进阶

    目录 写在开头 1 多元线性回归 场景介绍 2 Logistic回归 2 1 Logistic回归的概念 2 2 应用案例 2 2 1 建立模型和预测
  • 深入挖掘:Python中的Statsmodels库高级应用

    写在开头 随着数据科学的发展 解决更为复杂问题的关键往往在于深入了解数据并采用更高级的分析工具 本文将带您深入探讨Python中的Statsmodels库 并引入一些高级功能 为更深入的数据挖掘奠定基础 1 方差分析 1 1 方差分析概念
  • ResNet实战:CIFAR-10数据集分类

    本节将使用ResNet实现CIFAR 10数据集分类 7 2 1 CIFAR 10 数据集简介 CIFAR 10数据集共有60000幅彩色图像 这些图像是32 32像素的 分为10个类 每类6000幅图 这里面有50000幅用于训练 构成了
  • 航空港务数据大屏为航空港的可持续发展提供有力支撑!

    随着经济的发展 不断加建与扩建民用机场 空港行业规模不断扩大 在不断引进和消化发达国家先进技术的同时 中国深入开展了对新技术和新材料的研究 极大地丰富和发展了中国的机场建设技术 且各项机场建设计划均已落实推进 行业在经济发展的推动下欣欣向荣
  • 数据分析求职-岗位介绍

    这是咱们干货开始的第一篇文章 后续我尽量会保持日更的节奏和大家做分享 在未来所有分享的内容展开之前 咱们有必要先彻底 深入地了解下数据分析这个岗位 如果你还在犹豫是否要走数据分析的路 或者你已经拿了数据分析的offer想了解下将来会做什么
  • 数据分析求职-面试技巧

    之前咱们已经分享了岗位介绍 求职准备思路 简历如何准备 今天咱俩聊一聊面试的技巧 1 面试流程 咱们先聊聊面试的基本流程 简历 笔试筛选 gt 技术初面 gt 技术二面 gt 技术三面 gt 技术交叉面 gt HR面 这个过程中有几个点值得
  • 天猫数据分析工具推荐(天猫第三方数据平台)

    在电商迅速发展的大背景下 做好天猫数据分析能够在多方面帮助品牌商家更好地运营店铺 塑造品牌 如通过数据分析了解消费者的需求 购买偏好 这有利于品牌商家及时调整商品结构 产品推广 商品宣传等等 灵活制定品牌的销售策略 那么 天猫平台行业 品牌

随机推荐

  • 区间交叠问题

    区间交叠问题 问题描述 给定坐标轴上的一组线段 线段的起点和终点均为整数并且长度不小于1 请你从中找到最少数量的线段 这些线段可以覆盖住所有线段 输入描述 第一行输入为所有线段的数量 不超过10000 后面每行表示一条线段 格式为 x y
  • 利用response对象实现下载文件功能

    HttpServletResponse对象继承了ServletResponse接口 下面利用response对象实现下载的功能 单个文件的下载 package com dongmu servlet import javax servlet
  • 使用slice和concat对数组的深拷贝和浅拷贝

    一 数组浅拷贝 在使用JavaScript对数组进行操作的时候 我们经常需要将数组进行备份 如下代码 如果只是简单才用赋值的方法 那么我们只要更改其中的任何一个 然后其他的也会跟着改变 这就导致了问题的发生 var arr1 red yel
  • FastAdmin的一个小BUG,无法正常识别驼峰命名法的控制器名

    FastAdmin中内置了权限管理模块 在应用的过程中 控制器名经常会是两个单词 比如NotifyMessage 这是控制器名 在设置权限时 我们需要写成 notify message 可是这样设置后 会提示没有权限 而写成notifyme
  • PTA题选

    判断题 任何表达式语句都是表达式加分号组成的 True C语言语句都有结束符 指向结构体变量的指针可以作函数参数 实现传址调用 True 结构体成员的类型必须是基本数据类型 False if a 5 是允许的 True a 5 永远为真 假
  • 关于自定义标签报空指针异常:"at org.apache.jasper.compiler.TldCache.getTaglibXml(TldCache.java:97) "...

    tomcat8对相对路径路径的不是很好 可以在web xml文件中设置好tld的路径 然后JSP中直接 web xml文件添加以下配置
  • java面试题个人总结宝典1-java基础篇

    前言 前段时间换工作 用了5天时间整理了一大堆小白面试题 注 本人19年毕业 都是一些个人总结 希望能帮到有需要的人 如果你和我一样也是正准备踏入社会 或者工作还不到2年的 亦或是最近在找 java工程师 之类工作的 那我觉得这个系列非常适
  • Cpp学习——string模拟实现

    目录 一 string的成员变量 二 string的各项功能函数 1 构造函数 2 析构函数 3 扩容函数 4 插入与删除数据的函数 5 运算符重载 6 打印显示函数 7 拷贝构造 8 find函数 一 string的成员变量 在模拟实现s
  • 等保2.0 安全计算环境 ——Windows服务器(三级系统)

    1 身份鉴别 A 应对登录的用户进行身份标识和鉴别 身份标识具有唯一性 身份鉴别信息具有复杂度并要求定期更换 1 核查用户是否需要输入用户名和密码才能登录 2 核查Windows默认用户名是否具有唯一性 3 选择 控制面板 gt 管理工具
  • vscode中设置webpack js alias提示

    vscode 中设置 webpack alias 路径提示 1 根目录下创建 jsconfig json 文件 ts 中 把 文件修改为 tsconfig json 即可 2 添加如下配置 参考着 修改下配置即可 compilerOptio
  • Manjaro/Arch 软件配置安装

    记录一下自己配置 M a n j a r o A
  • 【论文阅读 07】Anomaly region detection and localization in metal surface inspection

    比较老的一篇论文 金属表面检测中的异常区域检测与定位 总结 提出了一个找模板图的方法 使用SIFT做特征提取 姿态估计看差异有哪些 Hough聚类做描述符筛选 仿射变换可视化匹配图之间的关系 提出一个搜索方法 降低图像分辨率 设定对比度和匹
  • kafka3.1集群部署

    kafka依赖zookeeper负责broker的注册 所以需要提前安装好zookeeper 1 安装zookeeper集群 https blog csdn net xiaohanshasha article details 1240083
  • k8s跨主机网络方案之Flannel

    什么是overlay network Overlay 技术是在现有的物理网络之上构建一个虚拟网络 上层应用只与虚拟网络相关 Overlay 在网络技术领域 指的是一种网络架构上叠加的虚拟化技术模式 其大体框架是对基础网络不进行大规模修改的条
  • Python知识点整理,图文结合近三万字(史上最全)

    Python知识点 一 Python精华知识点手册 完整版 下载 Python知识点 二 Python知识点 三 Python对csv的处理 edcoding utf 8 import pandas as pd import csv df
  • [C语言]计算某字符出现次数

    目录 题目 代码 题目 代码 include
  • java IO模型

    目录 IO模型 BIO NIO AIO io多路复用模型 BIO NIO 引出netty IO模型 BIO NIO AIO io多路复用模型 BIO NIO AIO Java中的NIO就是多路复用 linux中的NIO是指普通的非阻塞IO
  • 【精】HDFS无需重启NN进行动态刷新拓扑信息

    本文实现了一个HDFS的Feature 无需滚动重启Namenode即可实现动态加载机架信息 变更集群网络拓扑和机架感知信息 本文会从功能必要性 实现原理 实现源码 测试结果 以及过程中遇到的问题这几个角度来介绍 通过本文可以get如下知识
  • 机器学习(五)—— 决策树回归模型和集合算法

    决策树回归模型和集合算法 1 决策树概述 决策树 Decision Tree 是在已知各种情况发生概率的基础上 通过构成决策树来求取净现值的期望值大于等于零的概率 百度百科 决策树就是我们通常所说的多叉树 决策树回归模型的核心思想 相似的输
  • 《数据挖掘概念与技术》第二章

    数据挖掘概念与技术 第二章 认识数据 目录 认识数据 2 1 数据对象与属性类型 2 1 1 什么是属性 2 1 2 标称属性 2 1 数据对象与属性类型 数据对象组成数据集 一个数据对象是一个实体 数据对象用属性描述 还被称为样本 实例