数据挖掘导论课后习题答案-第二章

2023-11-05

最近在读《Introduction to Data Mining 》这本书,发现课后答案只有英文版,于是打算结合自己的理解将答案翻译一下,其中难免有错误,欢迎大家指正和讨论。侵删。

第二章

在这里插入图片描述
字段3 × 3 ≈ 字段2。字段2和字段3很有可能包含相同的信息,尽管从一个很小的样本中得出结论是非常不可靠的行为。

在这里插入图片描述
在这里插入图片描述
(a)二元的,定性的,序数的
(b)连续的,定量的,比率的
(c)离散的,定性的,序数的
(d)连续的,定量的,比率的(比如描述走了半圈就是一个角度中比例的概念)
(e)离散的,定性的,序数的
(f)连续的,定量的,比率的/区间的(取决于海平面的概念定义)
(g)离散的,定量的,比率的
(h)离散的,定性的,标称的
(i)离散的,定性的,序数的
(j)离散的,定性的,序数的
(k)连续的,定量的,比率的/区间的
(l)离散的,定量的,比率的(这个离散我也很疑惑,难道不可以有实数的密度吗)
(m)离散的,定性的,标称的

在这里插入图片描述
(a)当然是老板对了。销售主管错的很离谱,就好比说一部几亿票房电影差评数比一部几百万票房电影差评多,但是评论数根本不是一个量级的,因此应该用差评率=差评数 / 评论数这个概念来评估满意度,各大电影网站也是这么做的。
(b)毫无意义。理由同上。
在这里插入图片描述
(a)是的。假如出现1>2,2>3,3>1的情况那不就傻了。
(b)当1>2,2>3这种已经能建立序数的情况下,就不做第三次比较了;当1>2,2<3这种情况才做第三次比较。这种创建序数度量的方法通常来说不太准确,因为比较的维度可能不太一样,比如1>2是因为1价格比2便宜,而2>3是因为2质量比3好。
在这里插入图片描述
通过学生的学号来预测学生哪一年毕业。
在这里插入图片描述
(a)
Q1=A : 00
Q1=B : 01
Q1=C : 10
Q1=D : 11
…………
Q100=A : 00
Q100=B : 01
Q100=C : 10
Q100=D : 11
(b)400个非对称的二进制属性。
在这里插入图片描述
日气温。
在这里插入图片描述
文档-词矩阵第i行第j列的元素表示单词j在文档i中出现的次数。大部分文档都只包含了一小部分非零元素,因此,无论是在描述一个文档还是比较文档的不同时,零元素都是无意义的。所以说文档-词矩阵有非对称离散的特征。如果以TF-IDF算法(以词频和逆文档频率相乘得到的值当作矩阵元素,某个词越重要则TF-IDF值越大,可见第16题)应用到单词上,并且规范化文档的L2范数=1,这样的文档-词矩阵就是连续的,但这样的转换并不影响之前就为0的元素,因此它还是非对称的,0元素仍无意义。
在这里插入图片描述
观测科学并不能控制观察到的数据的质量。举个例子,比如已经可以使用现在的地球轨道卫星技术了,但是测量海洋表面温度仍然还是依靠船舶,类似的,测量天气的数据也依靠地面上的基站。因此,可用的数据是必不可少的。在这层意义上,观测科学的数据分析工作与数据挖掘十分类似。
在这里插入图片描述
浮点数精度是最高的精度。更直接地说,精度通常用来表示有效数字的数量,单精度只能表示有效数字低于32位的值,约等于十进制的九位数字。通常使用32位(64位)的时候实际表示精度是低于32位(64位)的。
在这里插入图片描述
(1)文本文件我们可以直接通过文本编辑器查看,但二进制文件我们无法看懂(计算机专家除外)
(2)跨系统或项目时文本文件更加便携。
(3)文本文件更容易修改。
在这里插入图片描述
(a)根据定义,噪声并不令人感兴趣。但离群点有研究的意义。
(b)可能。随机数据的失真通常归咎于离群点。
(c)并不。
(d)不,离群点只代表一类和正常点不同的点。
(e)可以。
在这里插入图片描述
(a)第一,在最近邻列表中,重复元素的顺序取决于算法细节和集合中元素顺序。
第二,如果有很多的重复元素,返回的列表中可能只有重复元素。
第三,一个元素可能不是它自己的最近邻。
(b)去重复。
在这里插入图片描述
这些属性都是数值型的,但是都有广泛的取值范围,这取决于测量的刻度。此外,这些属性都是对称的。将欧几里得距离标准化会更合适。
在这里插入图片描述
第一种抽奖是分层抽样,可以保证从每组抽出的元素相等。第二组是简单随机抽样,但从平均意义上来说,从每组中抽出的元素和第一种方案一样。
在这里插入图片描述
(a)如果一个词仅出现在一个文档中,会赋予它最大的权重;如果出现在每个文档中,则权重为0。
(b)每个文档中都出现的词不能区分文档,因此,这样的变换可以更好地区分文档。
在这里插入图片描述
(a)(a2,b2)
(b)y=x2
在这里插入图片描述
(a)L1 = 3 Jaccard = 2 / 5
(b)汉明距离更类似于简单匹配系数,实际上,SMC = 1 - 汉明距离 / 位数。Jaccard相似度更类似于余弦度量,因为两者都忽略了0-0匹配。
(c)Jaccard度量更合适,因为两者都没有的基因(即0-0匹配)并不能用来比较有机体的相似性,我们更加关注1-1匹配。
(d)汉明距离更合适。因为我们关注两者不同的基因(即1-0和0-1匹配)。
在这里插入图片描述
(a) cos(x,y) = 1 ; corr(x,y) = 0/0 ; Euclidean(x,y) = 2
(b) cos(x,y) = 0 ; corr(x,y) = -1 ; Euclidean(x,y) = 2 ; Jaccard = 0
© cos(x,y) = 0 ; corr(x,y) = 0 ; Euclidean(x,y) = 2
(d) cos(x,y) = 0.75 ; corr(x,y) = 0.25 ; Jaccard = 0.6
(e) cos(x,y) = 0 ; corr(x,y) = 0
在这里插入图片描述
在这里插入图片描述
(a)[-1,1]。在很多情况下只有非负的属性值,这时的范围是[0,1]。
(b)不一定。例如x = ( 1 , 0 ) , y = ( 2 , 0 )
(c)当x与y的均值为0时,cos(x,y)与corr(x,y)相等。
(d)基于这100000点,两者有相反的关系。如果余弦相似度=1,则欧几里得距离=0;如果欧几里得距离比较大,则余弦相似度接近于0。注意所有的数据点都来自正的象限,因此所有的余弦值都为非负的。
(e)同上。
(f)
在这里插入图片描述
(g)
在这里插入图片描述
在这里插入图片描述
(a)显然,d ( A , B ) ≥ 0。当A = B时,d ( A , B ) = 0。
(b)d ( A , B ) = d ( B , A )也很显然。
(c)首先,d( A , B) = size(A) + size(B) - 2size(A ∩ B)
则d(A , B) + d(B , C) = size(A) + size© + 2size(B) - 2size(A ∩ B) - 2size(B ∩ C)
又size(A ∩ B) ≤ size(B) , size(B ∩ C) ≤ size(B)
所以d(A , B) + d(B , C) ≥ size(A) + size© + 2size(B) - 2size(B) = size(A) + size© ≥ size(A) + size© - 2size(A ∩ C) = d(A , C)
三角不等式证毕。
在这里插入图片描述
对于第一个应用对时间序列聚类,具有高的正相关性的时间序列应该放在一起,因此
在这里插入图片描述比较合适。
对于第二个应用,需要考虑强的负相关关系,因此取绝对值更加合适,即sim=| corr | 。
在这里插入图片描述
假设s是在区间[0,1]取值的相似性度量,d = ( 1 - s ) / s,d = - log s 。
在这里插入图片描述
(a)两两比较,取最大的邻近度或者最小的邻近度;基于所有的点算出一个欧几里得空间里的质心,取所有点到质心的距离之和或取平均值。
(b)分别算出两个点集的质心,定义两个质心的距离就是两个点集的距离。
(c)一个方法是计算每个点到另一个对象集中所有点的距离取平均值,另一个方法是取最大值或最小值。
在这里插入图片描述
(a)可以参考第四章的Hint算法。d( y , z ) ≤ d( y , x ) + d( x , z )
如果d( x , y ) ≤ ε / 2,d( x , z ) ≤ ε / 2,那么d( y , z )无需计算。
d( y , z ) ≥ d( y , x ) - d( x , z )
如果d( y , x ) - d( x , z ) ≥ ε ,那么d( y , z )无需计算。
(b)如果x,y之间距离为0那么就无需其他计算了,如果x与y距离较大的话,就需要更多的计算。
(c)设x,y是S‘里的点,x*和y*是S’里距离x,y最近的点。
如果d( x* , y* ) + 2ε ≤ β,那么d( x , y ) ≤ β.
如果d( x* , y* ) - 2ε ≤ β,那么d( x , y ) ≥ β.
在这里插入图片描述
(a)由J( x , y ) ≤ 1,立即得d( x , y ) ≥ 0 ; J( x , x ) = 1时有d( x , y ) = 0.
(b)由J( x , y ) = J( y , x ) ,立即得d( x , y ) = d( y , x ).
(c)证明根据Jeffrey Ullman定理
在这里插入图片描述
注意到x与y之间夹角角度∈[0,180°)。
(a)arccos的取值范围为[0,π],因此d( x , y ) ≥ 0;d( x , x ) = arccos 1 = 0.
(b)由cos( y , x ) = cos( x , y )立即得d( y , x ) = d( x , y ).
(c)显然x,z之间的角度必然小于等于x,y与y,z之间的角度之和。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

数据挖掘导论课后习题答案-第二章 的相关文章

  • 经典SQL面试题讲解(11-20)

    本文转自公众号俊红的数据分析之路 本篇节选自书籍 对比Excel 轻松学习SQL数据分析 一书 主要讲解数据分析面试中常见的30道SQL面试题 1 10题见 几道经典SQL面试题讲解 11 行列互换 现在我们有下面这么一个表row col
  • 回归测试策略

    什么是回归测试 开发人员把Bug修复好之后 测试人员需要重新验证Bug是否修复好了 同时在新版本中进行测试以检测开发人员在修复代码过程中是否引入新的Bug 此过程就称为回归测试 1 即使上一轮的Bug被修复了 在下一轮的测试中还可能发现新的
  • 《机器学习》二刷超详细笔记

    博主在4月学完西瓜书时 一头雾水 觉得还是一知半解 9月开学后上完了必修的 machine learning 课程 并且自己编程实现了多种机器学习算法和论文复现后 才对机器学习有一点了解 现在再次翻阅西瓜书 很多知识点看到都豁然开朗 所以出
  • 深度学习(1):BP神经网络实现银行客户流失预测

    目的 针对银行客户行为和统计数据实现客户流失预测任务 一 数据准备 1 数据集 select data csv 作为训练样本 数据预处理方式 归一化 数值化 CreditScore 信用分数 EB 存贷款情况 EstimatedSalary
  • python数据分析与可视化——第四章实训

    1 导入模块 import pandas as pd import numpy as np import matplotlib pyplot as plt plt rcParams font sans serif SimHei 用来正常显示
  • LDSC:连锁不平衡回归分析

    欢迎关注 生信修炼手册 LDSC全称如下 linkage disequilibrium score regression 简称LDSR或者LDSC 在维基百科中 对该技术进行了简单介绍 通过GWAS分析可以识别到与表型相关的SNP位点 然而
  • 『sklearn学习』多种模型预测脸的下半部分的结果对比

    预测脸的下半部分 import numpy as np import matplotlib pyplot as plt from sklearn datasets import fetch olivetti faces from sklea
  • 2021 CCF大数据与计算智能大赛个贷违约预测top 73 解决方案

    目录 一 概述 二 解题过程 2 1 数据 2 2 构建基线 2 3 进阶思路一 2 4 进阶思路二 2 5 进阶思路三 2 6 融合 2 7 调优提分过程 2 8 其他工作 三 结语 一 概述 这是我第二次参加大数据类型的竞赛 也是第一次
  • Google Voice账号的具体保号教程

    Google Voice 官方号码回收规则 https www google com intl zh CN googlevoice program policies html 在9个月内你的Google Voice没拔打电话或接收短信 你的
  • 讲解 最大流问题+最小花费问题+python(ortool库)实现

    文章目录 基本概念 图 邻接矩阵 最大流问题 python解决最大流问题 python解决最大流最小费用问题 喜欢的话请关注我们的微信公众号 你好世界炼丹师 公众号主要讲统计学 数据科学 机器学习 深度学习 以及一些参加Kaggle竞赛的经
  • AI会议排名_周志华

    AI会议排名 周志华 http blog sina com cn s blog 631a4cc40100xl7d html 南京大学周志华教授写的一个很经典的帖子 不过IJCAI能不能算成是no 1的会议有待商榷 不过总体还算客观 说明 纯
  • 判断API接口优劣的标准

    随着互联网的发展 API接口已经成为了应用程序之间进行数据交互的重要方式 然而 在众多的API接口中 如何判断其优劣呢 本文将介绍一些判断API接口优劣的标准 一 稳定性和可用性 一个优秀的API接口必须具备稳定性和可用性 稳定性是指接口在
  • 一网打尽目前常用的聚类方法,详细介绍了每一种聚类方法的基本概念、优点、缺点!!

    目前常用的聚类方法 1 K 均值聚类 K Means Clustering 2 层次聚类 Hierarchical Clustering 3 DBSCAN聚类 DBSCAN Clustering 4 谱聚类 Spectral Cluster
  • 深入挖掘:Python中的Statsmodels库高级应用

    写在开头 随着数据科学的发展 解决更为复杂问题的关键往往在于深入了解数据并采用更高级的分析工具 本文将带您深入探讨Python中的Statsmodels库 并引入一些高级功能 为更深入的数据挖掘奠定基础 1 方差分析 1 1 方差分析概念
  • 淘宝商品类目接口API:获取淘宝商品分类类目信息

    cat get 获得淘宝分类详情 响应参数 名称 类型 必须 示例值 描述 info Mix 0 cid 16 parent cid 0 name 其他女装 is parent true status normal sort order 0
  • 时间序列平稳性相关检验方法

    理解平稳性 一般来说 平稳时间序列是指随着时间的推移具有相当稳定的统计特性的时间序列 特别是在均值和方差方面 平稳性可能是一个比较模糊的概念 将序列排除为不平稳可能比说序列是平稳的更容易 通常不平稳序列有几个特征 平均值随时间推移发生变化
  • 数据分析求职-面试技巧

    之前咱们已经分享了岗位介绍 求职准备思路 简历如何准备 今天咱俩聊一聊面试的技巧 1 面试流程 咱们先聊聊面试的基本流程 简历 笔试筛选 gt 技术初面 gt 技术二面 gt 技术三面 gt 技术交叉面 gt HR面 这个过程中有几个点值得
  • 番外篇-Julius AI帮你做数据分析

    今天咱们聊聊如何利用AI大模型来做数据分析 非常适合小白体验 尤其是缺乏项目经验的同学 强烈建议关注收藏 也欢迎私信交流 1 站在巨人肩膀 在数据分析领域 AI技术的飞速发展正引领一场革命 随着大型机器学习模型的不断完善 数据分析变得前所未
  • 天猫数据分析工具推荐(天猫第三方数据平台)

    在电商迅速发展的大背景下 做好天猫数据分析能够在多方面帮助品牌商家更好地运营店铺 塑造品牌 如通过数据分析了解消费者的需求 购买偏好 这有利于品牌商家及时调整商品结构 产品推广 商品宣传等等 灵活制定品牌的销售策略 那么 天猫平台行业 品牌
  • 【状态估计】电力系统状态估计中的异常检测与分类(Matlab代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及详细文

随机推荐

  • 一些计算机词汇的简单解说

    fork zombie unix 中有个系统调用 叫做 fork 这个名字起得很有意思 两个fork 叉子 本来放在一起 跟着左右手各拿起一只 含着一分为二的意思 unix 中 fork 的作用就是创建了一个新的进程 和原来的进程是一模一样
  • java的基础知识-第四十篇-java中 =与==、&与&&、

    与 属于赋值运算符 将右侧的值赋给左侧的变量名称 属于关系运算符 判断左右两边的值是否相等 结果为boolear类型 与 是逻辑与 是短路与 都属于逻辑运算符 都表示并且执行结果都相同 当使用短路与 并且第一个条件为false时 则结果直接
  • linux系统时钟使用utc,linux时钟概念CST与UTC、以及NTP简单设置

    1 世界协调时间 Universal Time Coordinated UTC GPS 系统中有两种时间区分 一为UTC 另一为LT 地方时 两者的区别为时区不同 UTC就是0时区的时间 地方时为本地时间 如北京为早上八点 东八区 UTC时
  • 【PostgreSQL】行变列、非空(CASE WHEN、COALESCE)语句总结

    1 源表结构 order id class count 111101100002 3 0 111101100012 1 3 11110112002 1 2 111101100202 2 0 2 目标表结构 根据order id分组 根据不同
  • ubuntu执行编译命令提示"No such file or directory"

    uname a 查看系统是32位或64位 若是64位可能没有安装32位库 安装32位lib库 sudo apt get install nautilus open terminal bison zlib1g dev doxygen libx
  • 找不到vcruntime140.dll,无法继续执行代码?多种解决方法解析

    找不到vcruntime140 dll 无法继续执行代码 当你在尝试运行某个程序时 突然弹出一条错误提示框 告诉你无法继续执行代码 因为找不到vcruntime140 dll 这个问题很常见 但是它可能会让你感到困惑和疑惑 这篇文章将详细介
  • C# 定时器轮询 设计思路

    C 定时器设计过程的记录 在Windows 系统上 C 常用定时器有三种 而最高进度的定时器误差 58ms 则个误差数字无法应用 16ms 级别的定时轮询 但还有另外的高精度定时器 这不是还有其他方法吗 对有的 空转也指的是直接让线程一只空
  • 设计模式之中介者模式

    介绍 在现实生活中 常常会出现好多对象之间存在复杂的交互关系 这种交互关系常常是 网状结构 它要求每个对象都必须知道它需要交互的对象 例如 每个人必须记住他 她 所有朋友的电话 而且 朋友中如果有人的电话修改了 他 她 必须让其他所有的朋友
  • html textarea文本域高度自适应

    1 可直接在 菜鸟教程网站测试页面中测试
  • shell脚本-1

    0 狂降 变量 1 标识符 2 数据类型 运算符 让多个变量产生关系 逻辑语句 1 顺序 2 分支 3 循环 方法 函数 将实现某一功能的代码封装 1 变量 定义变量时 变量名不加 基本都当成文本处理 bash 4 2 a 10 bash
  • 腾讯一面!说说ArrayList的遍历foreach与iterator时remove的区别,我一脸懵逼

    1 简介 ArrayList作为最基础的集合类 其底层是使用一个动态数组来实现的 这里 动态 的意思是可以动态扩容 虽然ArrayList可以动态扩容 但却不会动态缩容 但是与HashMap不同的是 ArrayList使用的是1 5的扩容策
  • VScode如何自动换行设置

    VScode安装完默认不能自动换行 需要我们手动配置 文本超出显示时 会溢出 如图 进入文件 gt 首选项 gt 设置 打开设置界面 在常用设置下找到Editor Word Wrap选项 默认为off 设置为on即可 如图所示 设置完成 即
  • STM32CubeMX基础例程(小熊派):09.厨房烟雾监测系统加强版

    1 准备开发板 这里我选用了一块网红开发板 小熊派 这款板子的人气比较高 还是全国大学生物联网设计竞赛 华为杯 的华为竞赛开发板 我个人也比较喜欢用这款板子 这款板子在放在纸箱吃灰半年之后 被我重新拿了起来 并想借此写博客的机会 整理一下自
  • 简单粗暴的分布式定时任务解决方案

    分布式定时任务 1 为什么需要定时任务 2 数据库实现分布式定时任务 3 基于redis实现 1 为什么需要定时任务 因为有时候我们需要定时的执行一些操作 比如业务中产生的一些临时文件 临时文件不能立即删除 因为不清楚用户是否操作完毕 不能
  • 通过FTP进行文件的上传和下载

    目录 一 FTP服务器展示文件列表 第一步 创建FTPClient 第二步 连接FTP服务器并验证用户名密码 第三步 切换到目标文件夹 第四步 切换成功后 显示所有该目录下的所有文件 第五步 最后关闭FTPClient对象 要处理异常 整理
  • 算法题-员工工号问题

    题目 公司员工的工号规则为 小写字母 数字 总长度不能超过8位 x表示该工号类型可以容纳的员工人数 y表示字母的个数 请确定数字的最小个数 例如 输入 260 1 输出 1 自己做的 不知道对不对 附上代码 import math def
  • c语言分数等级switch,用switch输出分数等级

    include int main float score 分数 用浮点数表示 int text printf n请输入你所得的分数 scanf f score 输入分数 下面用switch循环 text int score 10 强制转换为
  • 小红书“不误正夜”指南丨2023夜间营销数据报告

    对于当代年轻人来说 白天的 8 小时需要献给工作 学习和社交 夜晚时光才真正属于自己 下班后开始新的一天 越来越多人开始认同这个概念 告别 报复性熬夜 重新掌握晚间生活的方向盘 多样化的生活方式也因此孕育出了庞大的夜经济市场 千瓜数据显示
  • Qt之Http:4 利用QTcpSock访问HTTP

    QTcpSocket Class 利用 QTcpSocket 来实现一个界面 模仿 Telnet 的功能 访问HTTP服务器 QTcpSocket是QAbstractSocket的一个方便的子类 它允许您建立TCP连接并传输数据流 1 主要
  • 数据挖掘导论课后习题答案-第二章

    最近在读 Introduction to Data Mining 这本书 发现课后答案只有英文版 于是打算结合自己的理解将答案翻译一下 其中难免有错误 欢迎大家指正和讨论 侵删 第二章 字段3 3 字段2 字段2和字段3很有可能包含相同的信