数据挖掘导论课后习题答案-第二章

2023-11-05

最近在读《Introduction to Data Mining 》这本书，发现课后答案只有英文版，于是打算结合自己的理解将答案翻译一下，其中难免有错误，欢迎大家指正和讨论。侵删。

第二章

在这里插入图片描述
字段3 × 3 ≈ 字段2。字段2和字段3很有可能包含相同的信息，尽管从一个很小的样本中得出结论是非常不可靠的行为。

在这里插入图片描述

（a）二元的，定性的，序数的
（b）连续的，定量的，比率的
（c）离散的，定性的，序数的
（d）连续的，定量的，比率的（比如描述走了半圈就是一个角度中比例的概念）
（e）离散的，定性的，序数的
（f）连续的，定量的，比率的/区间的（取决于海平面的概念定义）
（g）离散的，定量的，比率的
（h）离散的，定性的，标称的
（i）离散的，定性的，序数的
（j）离散的，定性的，序数的
（k）连续的，定量的，比率的/区间的
（l）离散的，定量的，比率的（这个离散我也很疑惑，难道不可以有实数的密度吗）
（m）离散的，定性的，标称的

在这里插入图片描述
（a）当然是老板对了。销售主管错的很离谱，就好比说一部几亿票房电影差评数比一部几百万票房电影差评多，但是评论数根本不是一个量级的，因此应该用差评率=差评数 / 评论数这个概念来评估满意度，各大电影网站也是这么做的。
（b）毫无意义。理由同上。
在这里插入图片描述
（a）是的。假如出现1>2，2>3，3>1的情况那不就傻了。
（b）当1>2，2>3这种已经能建立序数的情况下，就不做第三次比较了；当1>2，2<3这种情况才做第三次比较。这种创建序数度量的方法通常来说不太准确，因为比较的维度可能不太一样，比如1>2是因为1价格比2便宜，而2>3是因为2质量比3好。
在这里插入图片描述
通过学生的学号来预测学生哪一年毕业。

（a）
Q₁=A : 00
Q₁=B : 01
Q₁=C : 10
Q₁=D : 11
…………
Q₁₀₀=A : 00
Q₁₀₀=B : 01
Q₁₀₀=C : 10
Q₁₀₀=D : 11
（b）400个非对称的二进制属性。

日气温。

文档-词矩阵第i行第j列的元素表示单词j在文档i中出现的次数。大部分文档都只包含了一小部分非零元素，因此，无论是在描述一个文档还是比较文档的不同时，零元素都是无意义的。所以说文档-词矩阵有非对称离散的特征。如果以TF-IDF算法（以词频和逆文档频率相乘得到的值当作矩阵元素，某个词越重要则TF-IDF值越大，可见第16题）应用到单词上，并且规范化文档的L₂范数=1，这样的文档-词矩阵就是连续的，但这样的转换并不影响之前就为0的元素，因此它还是非对称的，0元素仍无意义。
在这里插入图片描述
观测科学并不能控制观察到的数据的质量。举个例子，比如已经可以使用现在的地球轨道卫星技术了，但是测量海洋表面温度仍然还是依靠船舶，类似的，测量天气的数据也依靠地面上的基站。因此，可用的数据是必不可少的。在这层意义上，观测科学的数据分析工作与数据挖掘十分类似。
在这里插入图片描述
浮点数精度是最高的精度。更直接地说，精度通常用来表示有效数字的数量，单精度只能表示有效数字低于32位的值，约等于十进制的九位数字。通常使用32位（64位）的时候实际表示精度是低于32位（64位）的。
在这里插入图片描述
（1）文本文件我们可以直接通过文本编辑器查看，但二进制文件我们无法看懂（计算机专家除外）
（2）跨系统或项目时文本文件更加便携。
（3）文本文件更容易修改。

（a）根据定义，噪声并不令人感兴趣。但离群点有研究的意义。
（b）可能。随机数据的失真通常归咎于离群点。
（c）并不。
（d）不，离群点只代表一类和正常点不同的点。
（e）可以。
在这里插入图片描述
（a）第一，在最近邻列表中，重复元素的顺序取决于算法细节和集合中元素顺序。
第二，如果有很多的重复元素，返回的列表中可能只有重复元素。
第三，一个元素可能不是它自己的最近邻。
（b）去重复。
在这里插入图片描述
这些属性都是数值型的，但是都有广泛的取值范围，这取决于测量的刻度。此外，这些属性都是对称的。将欧几里得距离标准化会更合适。

第一种抽奖是分层抽样，可以保证从每组抽出的元素相等。第二组是简单随机抽样，但从平均意义上来说，从每组中抽出的元素和第一种方案一样。
在这里插入图片描述
（a）如果一个词仅出现在一个文档中，会赋予它最大的权重；如果出现在每个文档中，则权重为0。
（b）每个文档中都出现的词不能区分文档，因此，这样的变换可以更好地区分文档。

（a）（a²，b²)
（b）y=x²
在这里插入图片描述
（a）L₁ = 3 Jaccard = 2 / 5
（b）汉明距离更类似于简单匹配系数，实际上，SMC = 1 - 汉明距离 / 位数。Jaccard相似度更类似于余弦度量，因为两者都忽略了0-0匹配。
（c）Jaccard度量更合适，因为两者都没有的基因（即0-0匹配）并不能用来比较有机体的相似性，我们更加关注1-1匹配。
（d）汉明距离更合适。因为我们关注两者不同的基因（即1-0和0-1匹配）。
在这里插入图片描述
(a) cos(x,y) = 1 ; corr(x,y) = 0/0 ; Euclidean(x,y) = 2
(b) cos(x,y) = 0 ; corr(x,y) = -1 ; Euclidean(x,y) = 2 ; Jaccard = 0
© cos(x,y) = 0 ; corr(x,y) = 0 ; Euclidean(x,y) = 2
(d) cos(x,y) = 0.75 ; corr(x,y) = 0.25 ; Jaccard = 0.6
(e) cos(x,y) = 0 ; corr(x,y) = 0
在这里插入图片描述

（a）[-1，1]。在很多情况下只有非负的属性值，这时的范围是[0,1]。
（b）不一定。例如x = ( 1 , 0 ) , y = ( 2 , 0 )
（c）当x与y的均值为0时，cos(x,y)与corr(x,y)相等。
（d）基于这100000点，两者有相反的关系。如果余弦相似度=1，则欧几里得距离=0；如果欧几里得距离比较大，则余弦相似度接近于0。注意所有的数据点都来自正的象限，因此所有的余弦值都为非负的。
（e）同上。
（f）
在这里插入图片描述
（g）

（a）显然，d ( A , B ) ≥ 0。当A = B时，d ( A , B ) = 0。
（b）d ( A , B ) = d ( B , A )也很显然。
（c）首先,d( A , B) = size(A) + size(B) - 2size(A ∩ B)
则d(A , B) + d(B , C) = size(A) + size© + 2size(B) - 2size(A ∩ B) - 2size(B ∩ C)
又size(A ∩ B) ≤ size(B) , size(B ∩ C) ≤ size(B)
所以d(A , B) + d(B , C) ≥ size(A) + size© + 2size(B) - 2size(B) = size(A) + size© ≥ size(A) + size© - 2size(A ∩ C) = d(A , C)
三角不等式证毕。
在这里插入图片描述
对于第一个应用对时间序列聚类，具有高的正相关性的时间序列应该放在一起，因此
比较合适。
对于第二个应用，需要考虑强的负相关关系，因此取绝对值更加合适，即sim=| corr | 。

假设s是在区间[0，1]取值的相似性度量，d = ( 1 - s ) / s，d = - log s 。
在这里插入图片描述
（a）两两比较，取最大的邻近度或者最小的邻近度；基于所有的点算出一个欧几里得空间里的质心，取所有点到质心的距离之和或取平均值。
（b）分别算出两个点集的质心，定义两个质心的距离就是两个点集的距离。
（c）一个方法是计算每个点到另一个对象集中所有点的距离取平均值，另一个方法是取最大值或最小值。
在这里插入图片描述
（a）可以参考第四章的Hint算法。d( y , z ) ≤ d( y , x ) + d( x , z )
如果d( x , y ) ≤ ε / 2，d( x , z ) ≤ ε / 2，那么d( y , z )无需计算。
d( y , z ) ≥ d( y , x ) - d( x , z )
如果d( y , x ) - d( x , z ) ≥ ε ，那么d( y , z )无需计算。
（b）如果x,y之间距离为0那么就无需其他计算了，如果x与y距离较大的话，就需要更多的计算。
（c）设x,y是S‘里的点，x^*和y^*是S’里距离x,y最近的点。
如果d( x^* , y^* ) + 2ε ≤ β，那么d( x , y ) ≤ β.
如果d( x^* , y^* ) - 2ε ≤ β，那么d( x , y ) ≥ β.
在这里插入图片描述
（a）由J( x , y ) ≤ 1，立即得d( x , y ) ≥ 0 ; J( x , x ) = 1时有d( x , y ) = 0.
（b）由J( x , y ) = J( y , x ) ，立即得d( x , y ) = d( y , x ).
（c）证明根据Jeffrey Ullman定理

注意到x与y之间夹角角度∈[0，180°）。
（a）arccos的取值范围为[0，π]，因此d( x , y ) ≥ 0；d( x , x ) = arccos 1 = 0.
（b）由cos( y , x ) = cos( x , y )立即得d( y , x ) = d( x , y ).
（c）显然x，z之间的角度必然小于等于x，y与y，z之间的角度之和。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

数据挖掘导论课后习题答案-第二章的相关文章

经典SQL面试题讲解(11-20)

本文转自公众号俊红的数据分析之路本篇节选自书籍对比Excel 轻松学习SQL数据分析一书主要讲解数据分析面试中常见的30道SQL面试题 1 10题见几道经典SQL面试题讲解 11 行列互换现在我们有下面这么一个表row col
回归测试策略

什么是回归测试开发人员把Bug修复好之后测试人员需要重新验证Bug是否修复好了同时在新版本中进行测试以检测开发人员在修复代码过程中是否引入新的Bug 此过程就称为回归测试 1 即使上一轮的Bug被修复了在下一轮的测试中还可能发现新的
《机器学习》二刷超详细笔记

博主在4月学完西瓜书时一头雾水觉得还是一知半解 9月开学后上完了必修的 machine learning 课程并且自己编程实现了多种机器学习算法和论文复现后才对机器学习有一点了解现在再次翻阅西瓜书很多知识点看到都豁然开朗所以出
深度学习（1）：BP神经网络实现银行客户流失预测

目的针对银行客户行为和统计数据实现客户流失预测任务一数据准备 1 数据集 select data csv 作为训练样本数据预处理方式归一化数值化 CreditScore 信用分数 EB 存贷款情况 EstimatedSalary
python数据分析与可视化——第四章实训

1 导入模块 import pandas as pd import numpy as np import matplotlib pyplot as plt plt rcParams font sans serif SimHei 用来正常显示
LDSC:连锁不平衡回归分析

欢迎关注生信修炼手册 LDSC全称如下 linkage disequilibrium score regression 简称LDSR或者LDSC 在维基百科中对该技术进行了简单介绍通过GWAS分析可以识别到与表型相关的SNP位点然而
『sklearn学习』多种模型预测脸的下半部分的结果对比

预测脸的下半部分 import numpy as np import matplotlib pyplot as plt from sklearn datasets import fetch olivetti faces from sklea
2021 CCF大数据与计算智能大赛个贷违约预测top 73 解决方案

目录一概述二解题过程 2 1 数据 2 2 构建基线 2 3 进阶思路一 2 4 进阶思路二 2 5 进阶思路三 2 6 融合 2 7 调优提分过程 2 8 其他工作三结语一概述这是我第二次参加大数据类型的竞赛也是第一次
Google Voice账号的具体保号教程

Google Voice 官方号码回收规则 https www google com intl zh CN googlevoice program policies html 在9个月内你的Google Voice没拔打电话或接收短信你的
讲解最大流问题+最小花费问题+python(ortool库)实现

文章目录基本概念图邻接矩阵最大流问题 python解决最大流问题 python解决最大流最小费用问题喜欢的话请关注我们的微信公众号你好世界炼丹师公众号主要讲统计学数据科学机器学习深度学习以及一些参加Kaggle竞赛的经
AI会议排名_周志华

AI会议排名周志华 http blog sina com cn s blog 631a4cc40100xl7d html 南京大学周志华教授写的一个很经典的帖子不过IJCAI能不能算成是no 1的会议有待商榷不过总体还算客观说明纯
判断API接口优劣的标准

随着互联网的发展 API接口已经成为了应用程序之间进行数据交互的重要方式然而在众多的API接口中如何判断其优劣呢本文将介绍一些判断API接口优劣的标准一稳定性和可用性一个优秀的API接口必须具备稳定性和可用性稳定性是指接口在
一网打尽目前常用的聚类方法，详细介绍了每一种聚类方法的基本概念、优点、缺点！！

目前常用的聚类方法 1 K 均值聚类 K Means Clustering 2 层次聚类 Hierarchical Clustering 3 DBSCAN聚类 DBSCAN Clustering 4 谱聚类 Spectral Cluster
深入挖掘：Python中的Statsmodels库高级应用

写在开头随着数据科学的发展解决更为复杂问题的关键往往在于深入了解数据并采用更高级的分析工具本文将带您深入探讨Python中的Statsmodels库并引入一些高级功能为更深入的数据挖掘奠定基础 1 方差分析 1 1 方差分析概念
淘宝商品类目接口API：获取淘宝商品分类类目信息

cat get 获得淘宝分类详情响应参数名称类型必须示例值描述 info Mix 0 cid 16 parent cid 0 name 其他女装 is parent true status normal sort order 0
时间序列平稳性相关检验方法

理解平稳性一般来说平稳时间序列是指随着时间的推移具有相当稳定的统计特性的时间序列特别是在均值和方差方面平稳性可能是一个比较模糊的概念将序列排除为不平稳可能比说序列是平稳的更容易通常不平稳序列有几个特征平均值随时间推移发生变化
数据分析求职-面试技巧

之前咱们已经分享了岗位介绍求职准备思路简历如何准备今天咱俩聊一聊面试的技巧 1 面试流程咱们先聊聊面试的基本流程简历笔试筛选 gt 技术初面 gt 技术二面 gt 技术三面 gt 技术交叉面 gt HR面这个过程中有几个点值得
番外篇-Julius AI帮你做数据分析

今天咱们聊聊如何利用AI大模型来做数据分析非常适合小白体验尤其是缺乏项目经验的同学强烈建议关注收藏也欢迎私信交流 1 站在巨人肩膀在数据分析领域 AI技术的飞速发展正引领一场革命随着大型机器学习模型的不断完善数据分析变得前所未
天猫数据分析工具推荐（天猫第三方数据平台）

在电商迅速发展的大背景下做好天猫数据分析能够在多方面帮助品牌商家更好地运营店铺塑造品牌如通过数据分析了解消费者的需求购买偏好这有利于品牌商家及时调整商品结构产品推广商品宣传等等灵活制定品牌的销售策略那么天猫平台行业品牌
【状态估计】电力系统状态估计中的异常检测与分类（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及详细文

随机推荐

一些计算机词汇的简单解说

fork zombie unix 中有个系统调用叫做 fork 这个名字起得很有意思两个fork 叉子本来放在一起跟着左右手各拿起一只含着一分为二的意思 unix 中 fork 的作用就是创建了一个新的进程和原来的进程是一模一样
java的基础知识-第四十篇-java中 =与==、&与&&、

与属于赋值运算符将右侧的值赋给左侧的变量名称属于关系运算符判断左右两边的值是否相等结果为boolear类型与是逻辑与是短路与都属于逻辑运算符都表示并且执行结果都相同当使用短路与并且第一个条件为false时则结果直接
linux系统时钟使用utc,linux时钟概念CST与UTC、以及NTP简单设置

1 世界协调时间 Universal Time Coordinated UTC GPS 系统中有两种时间区分一为UTC 另一为LT 地方时两者的区别为时区不同 UTC就是0时区的时间地方时为本地时间如北京为早上八点东八区 UTC时
【PostgreSQL】行变列、非空（CASE WHEN、COALESCE）语句总结

1 源表结构 order id class count 111101100002 3 0 111101100012 1 3 11110112002 1 2 111101100202 2 0 2 目标表结构根据order id分组根据不同
ubuntu执行编译命令提示"No such file or directory"

uname a 查看系统是32位或64位若是64位可能没有安装32位库安装32位lib库 sudo apt get install nautilus open terminal bison zlib1g dev doxygen libx
找不到vcruntime140.dll,无法继续执行代码？多种解决方法解析

找不到vcruntime140 dll 无法继续执行代码当你在尝试运行某个程序时突然弹出一条错误提示框告诉你无法继续执行代码因为找不到vcruntime140 dll 这个问题很常见但是它可能会让你感到困惑和疑惑这篇文章将详细介
C# 定时器轮询设计思路

C 定时器设计过程的记录在Windows 系统上 C 常用定时器有三种而最高进度的定时器误差 58ms 则个误差数字无法应用 16ms 级别的定时轮询但还有另外的高精度定时器这不是还有其他方法吗对有的空转也指的是直接让线程一只空
设计模式之中介者模式

介绍在现实生活中常常会出现好多对象之间存在复杂的交互关系这种交互关系常常是网状结构它要求每个对象都必须知道它需要交互的对象例如每个人必须记住他她所有朋友的电话而且朋友中如果有人的电话修改了他她必须让其他所有的朋友
html textarea文本域高度自适应

1 可直接在菜鸟教程网站测试页面中测试
shell脚本-1

0 狂降变量 1 标识符 2 数据类型运算符让多个变量产生关系逻辑语句 1 顺序 2 分支 3 循环方法函数将实现某一功能的代码封装 1 变量定义变量时变量名不加基本都当成文本处理 bash 4 2 a 10 bash
腾讯一面！说说ArrayList的遍历foreach与iterator时remove的区别，我一脸懵逼

1 简介 ArrayList作为最基础的集合类其底层是使用一个动态数组来实现的这里动态的意思是可以动态扩容虽然ArrayList可以动态扩容但却不会动态缩容但是与HashMap不同的是 ArrayList使用的是1 5的扩容策
VScode如何自动换行设置

VScode安装完默认不能自动换行需要我们手动配置文本超出显示时会溢出如图进入文件 gt 首选项 gt 设置打开设置界面在常用设置下找到Editor Word Wrap选项默认为off 设置为on即可如图所示设置完成即
STM32CubeMX基础例程（小熊派）：09.厨房烟雾监测系统加强版

1 准备开发板这里我选用了一块网红开发板小熊派这款板子的人气比较高还是全国大学生物联网设计竞赛华为杯的华为竞赛开发板我个人也比较喜欢用这款板子这款板子在放在纸箱吃灰半年之后被我重新拿了起来并想借此写博客的机会整理一下自
简单粗暴的分布式定时任务解决方案

分布式定时任务 1 为什么需要定时任务 2 数据库实现分布式定时任务 3 基于redis实现 1 为什么需要定时任务因为有时候我们需要定时的执行一些操作比如业务中产生的一些临时文件临时文件不能立即删除因为不清楚用户是否操作完毕不能
通过FTP进行文件的上传和下载

目录一 FTP服务器展示文件列表第一步创建FTPClient 第二步连接FTP服务器并验证用户名密码第三步切换到目标文件夹第四步切换成功后显示所有该目录下的所有文件第五步最后关闭FTPClient对象要处理异常整理
算法题-员工工号问题

题目公司员工的工号规则为小写字母数字总长度不能超过8位 x表示该工号类型可以容纳的员工人数 y表示字母的个数请确定数字的最小个数例如输入 260 1 输出 1 自己做的不知道对不对附上代码 import math def
c语言分数等级switch,用switch输出分数等级

include int main float score 分数用浮点数表示 int text printf n请输入你所得的分数 scanf f score 输入分数下面用switch循环 text int score 10 强制转换为
小红书“不误正夜”指南丨2023夜间营销数据报告

对于当代年轻人来说白天的 8 小时需要献给工作学习和社交夜晚时光才真正属于自己下班后开始新的一天越来越多人开始认同这个概念告别报复性熬夜重新掌握晚间生活的方向盘多样化的生活方式也因此孕育出了庞大的夜经济市场千瓜数据显示
Qt之Http：4 利用QTcpSock访问HTTP

QTcpSocket Class 利用 QTcpSocket 来实现一个界面模仿 Telnet 的功能访问HTTP服务器 QTcpSocket是QAbstractSocket的一个方便的子类它允许您建立TCP连接并传输数据流 1 主要
数据挖掘导论课后习题答案-第二章

最近在读 Introduction to Data Mining 这本书发现课后答案只有英文版于是打算结合自己的理解将答案翻译一下其中难免有错误欢迎大家指正和讨论侵删第二章字段3 3 字段2 字段2和字段3很有可能包含相同的信

数据挖掘导论课后习题答案-第二章

第二章

数据挖掘导论课后习题答案-第二章 的相关文章

随机推荐

热门标签

数据挖掘导论课后习题答案-第二章的相关文章