数据挖掘导论课后习题答案-第三章

2023-11-07

最近在读《Introduction to Data Mining 》这本书,发现课后答案只有英文版,于是打算结合自己的理解将答案翻译一下,其中难免有错误,欢迎大家指正和讨论。侵删。

第三章

在这里插入图片描述
优点:第一,颜色可以很容易地区分不同的部分。第二,看起来更加有趣。
缺点:第一,对色盲或者那些很难分辨颜色的人不太友好。第二,有的时候灰度图更能突出重点,颜色图会让人关注一些不重要的部分。
在这里插入图片描述
关键的问题是对于三维的图如何尽可能地展示多的信息。但实际上,我们可能需要忽略部分信息以展示出必要的信息。
在这里插入图片描述
简单随机抽样并不是一种好方法。比如一个分布不均匀的样本,简单随机抽样会忽略掉稀疏区域的大部分点,在这种情况下,我们应该在稀疏区域过采样,密集区域降采样。
在这里插入图片描述
(a)计算机网络的联通最好用图来表示。节点是路由器、网关或者其他通信设备,链接代表联系。颜色可以用来表示链接和节点已使用的百分比。
(b)最简单的办法就是在一张图上只展示一个物种的分布情况,用灰度表示分布的密集程度。如果需要同时展示多个物种,可以考虑用它们的图标来表示。
(c)每个程序的资源使用情况可以用条形图表示。资源使用情况用百分比统一尺度即可。
(d)对于特定的职业,性别用饼图,每一行的饼图表示一个等级的教育水平,每一列表示一年。
在这里插入图片描述
茎叶图可以直观地看到值的分布,但是如果当数据特别大的时候用茎叶图就不明智了。
在这里插入图片描述
最好的办法就是预估数据的分布。这一数据处理方法已经比较成熟了,但很多情况下单一直方图是不够的。
在这里插入图片描述
在这里插入图片描述
如果中位数处于箱线图的中间,那么就是对称分布。萼片的长宽近似于对称分布,但花瓣的长宽有些歪斜。
在这里插入图片描述
在这里插入图片描述
Setosa:萼片长度>萼片宽度>花瓣长度>花瓣宽度
Versicolour:萼片长度>花瓣长度>萼片宽度>花瓣宽度
Virginica:萼片长度>花瓣长度>萼片宽度>花瓣宽度
在这里插入图片描述
大量的信息将被包含在箱线图中。比如,比较箱线图中的年龄属性,我们会发现重量随年龄增长。
在这里插入图片描述
在这里插入图片描述
三个品种的鸢尾花的分类可能正是按照花瓣长宽的大小分类的。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
花瓣长度和宽度的百分位折线图和经验CDF图都十分相似。表明一组花有相对稳定的属性值。
在这里插入图片描述
当属性值有序时。
在这里插入图片描述
任何数据集所有属性的组合不太可能产生稀疏数据立方体。这将包括一组对象的连续属性,但只有一小部分,其中很多组合值并不会出现。
稠密的数据立方体例子很多,比如考虑交通事故的发生时间、发生地点、事故类型,原始的数据集将会比较稀疏,但是聚合后,考虑在一个月里总的数据,会得到要给稠密的数据立方体。
在这里插入图片描述
一个概括性的数据集的属性值或者组合属性值的频率是比较令人感兴趣的,这样我们可以得到属性之间的关系,并且用图表示出来。
在这里插入图片描述
在这里插入图片描述
这是一个稠密的数据立方体,只有两个单元格是空的。
在这里插入图片描述
PCA和SVD是一种将数据投影到缩小的尺寸的维归约。比如销售一种产品的六个月的情况汇集到一天,存储位置的聚合可以看成一种尺度的改变,但PCA和SVD则无法解释这个情况。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

数据挖掘导论课后习题答案-第三章 的相关文章

  • 定制化UINavigationBar

    FirstViewController 定制化UINavigationBar void customNavigationBar 按钮被挡住 原因是 navigationbar的透明度默认为YES 先取出navigationbar UINav

随机推荐

  • java中countinue,.random(用于产生一个随机数)入门可看

    1 countinue 用在循环中 基于条件控制 跳过其次循环体内容的执行 继续下一次的执行 break 用在循环中 基于条件控制 终止循环体内容的执行 也就是结束当前的整个循环 eg public class zhou public st
  • php提取css生成单独文件,webapck将css 打包后单独提取到一个css文件中

    webpack4 提倡 一旦用了这个 不能使用style loader 以及css module 安装 npm install save dev mini css extract plugin rules rules test css us
  • SQLServer 中实现类似MySQL中的group_concat()函数的功能

    SQLServer中没有MySQL中的group concat函数 可以把分组的数据连接在一起 后在网上查找 找到了可以实现此功能的方法 特此记录下 SELECT a stuff SELECT b FROM tb WHERE a t a F
  • STM32 USB_SPI_FLASH 简易U盘设计

    这是大三下学期EDA实训的内容 设计制作了一个简易的U盘 主要涉及STM32单片机 W25Q128闪存芯片 电路板绘制 文件系统移植等内容 发布出来供大家参考 仅供学习交流使用 实验步骤仅供参考 转载请注明原文链接 https blog c
  • java数据传到前端页面_02 前端页面数据传递到后台java

    本文将阐述如何将前端页面数据传递到后台java代码 1 环境约束 win10 64位操作系统 idea2018 1 5 jdk 8u162 windows x64 spring4 2 4 前提约束 操作步骤 基本类型传输 RequestMa
  • Android使用AES加解密

    AES为对称加密 加解密用一套秘钥 秘钥自己随便定义 长度必须为16 或 32 个字符 1 AES工具类 AES 对称加密算法 加解密工具类 RequiresApi api Build VERSION CODES KITKAT public
  • getline()与get()

    1 getline getline 函数读取整行 通过换行符来确定输入结尾 然后丢弃换行符 1 作为istream中的类方法 char name 20 cin getline name 20 把一行读入到name数组中 这行字符不超过19个
  • python opencv 同窗口显示多个图像

    为了便于比对图像处理前后的效果 特别是算法处理前后的效果图 我们需要同时显示多张图片 这里采用opencv图像拼接的方法来实现我们想要的效果 1 定义函数show multi img 定义图片显示函数show multi img 共包括5参
  • Android:Serializable和Parcelable的持久化保存

    转自 https www cnblogs com duoshou articles 8856111 html 前言 Serializable和Parcelable能够将对象序列化 使之能够在一些特殊场景中进行传输 再进行数据的恢复 Seri
  • uhd驱动安装(usrpB210,usrpX310等)

    sdr技术与设备介绍 参考博文地址 上述博文介绍了什么是SDR技术 以及sdr设备的分类应用 问题描述 使用sdr设备 usrpx系列 usrpb系列 的准备 驱动 镜像 方案一 推荐方案 资源下载地址 一个UHD源码 一个UHD对应的镜像
  • 华灯初上

    华灯初上老城楼 将军夜赏新兜鍪 宝剑久藏不曾试 兵书战策俱成空
  • 大数据技术原理——期末复习spark

    1 Spark的基本概念 RDD DAG Executor 应用 任务 作业 阶段 RDD 是Resillient Distributed Dataset 弹性分布式数据集 的简称 是分布式内存的一个抽象概念 提供了一种高度受限的共享内存模
  • Aspose最版本aspose-words:jdk17:23.6 版本,代码分析心得

    Aspose最版本aspose words jdk17 23 6 版本 代码分析心得 aspose 为收费软件 以下仅仅用于学习技术 请勿做任何商业用途 如果需要请到官网购买正版 本文的逆向分析参考了了博客 https blog csdn
  • CAP定理含义

    分布式系统 Distributed System 最大的难点就是各个节点的状态如何同步 CAP定理就是这方面最基本的定理 也是理解分布式的起点 同时也是 NoSql数据库的基石 一 分布式的三个指标 1 Consistency k n s
  • STM32学习笔记——HC05

    STM32 HAL库 CubeMX串口通讯HC 05 前言 软件及硬件准备 硬件连接 蓝牙模块调试 CubeMX配置 keil软件编写 实验 注意事项 源码及注意事项2023 3 11 前言 我所使用的开发板为STM32F405RG 蓝牙模
  • C++学习(四六二)Parsing of CMake project failed: Connection to CMake server lost.

    环境 Qt5 12 cmake3 12 64位 工程为 原因分析 可能是版本不一致 qt工程为32位 cmake是64位的 将cmake换3 1 32位 就可以了
  • UniCode 下char*转CString ,利用MultiByteToWideChar进行转换,中文乱码的解决方案

    使用A2W A2T这些宏函数是常见的方法 但是中文会乱码 所以采用MultiByteToWideChar进行转换 计算char 数组大小 以字节为单位 一个汉字占两个字节 int charLen strlen sText 计算多字节字符的大
  • C++PrimerPlus 第五章 循环和关系表达式 - 5.1 for循环

    C PrimerPlus 第五章 循环和关系表达式 5 1 for循环 5 1 for循环 5 1 1 for循环的组成部分 5 1 1 1 表达式和语句 5 1 1 2 非表达式和语句 5 1 1 3 修改规则 5 1 2 回到for循环
  • osgEarth的Rex引擎原理分析(五十二)CGCS2000与WGS84坐标系的比较

    目标 四十六 中的119 文章 2000中国大地坐标系及其与WGS84的比较 对此有详细的比较 https max book118 com html 2017 0614 114928909 shtm 结论是 实现上相容的 仅在扁率上有微小差
  • 数据挖掘导论课后习题答案-第三章

    最近在读 Introduction to Data Mining 这本书 发现课后答案只有英文版 于是打算结合自己的理解将答案翻译一下 其中难免有错误 欢迎大家指正和讨论 侵删 第三章 优点 第一 颜色可以很容易地区分不同的部分 第二 看起