西瓜书-2习题

2023-10-30

2-习题

2.1

数据集1000个样本,其中500个正例、500个反例,将其划分为包含70%样本的训练集和30%的测试集用于留出法评估,评估算共有多少种划分方式。

答:

训练集样本数=700个,测试集样本数=300个

原数据集中正反例比为1:1,为保证分层采样,则对于训练集正例350个,反例350个

所以划分方法数= ( C 500 350 ∗ C 500 350 ) (C_{500}^{350} *C_{500}^{350}) (C500350C500350)

2.2

数据集包含100个样本,其中正、反例各一半,假定学习算法所产生的模型是将新样本预测为训练样本数较多的类别(训练样本数相同时进行随机猜测),试给出用10折交叉验证法和留一法分别对错误率进行评估所得的结果。

答:

正例样本数=反例样本数=50个

  • 10折交叉验证

即分为10个互斥子集,每个子集10个样本,保持正反例比例一致,各位5个正例和5个反例,每次选择9个子集,正反例都各是45个,这样随机猜,还是50%的错误率

  • 留一法

即100折交叉验证法,若是留的是正例为测试集,训练集中有50个反例和49个正例,学习器会将测试集留的猜测为反例,错误率100%;反之一样。

2.3

若学习器A的F1值比学习器B高,试分析A的BEP值是否也比B高。

(参考网上答案)

<这题很有助益理解相关概念。>

答:

错误,F1值和BEP值无明确联系。

2.3节性能度量中F1定义是基于性能查准率P和查全率R的调和平均定义,是在阈值固定时,将所有样本分类完成后,综合查全率和查准率得出的值;如下:
F 1 = 2 ∗ P ∗ R P + R = 2 ∗ T P 样例总数 + T P − T N ( 2.3 − 12 ) F1=\frac{2*P*R}{P+R}=\frac{2*TP}{\text{样例总数}+TP-TN}\qquad (2.3-12)\\ F1=P+R2PR=样例总数+TPTN2TP(2.312)
BEP值:分类时的做法是预定一个阈值,若对样本的输出大于此阈值则归为正例,那么根据样本的输出值从大到小排序(“样本的排序”),排在最前面的即最有可能为正例的样本,而排在最后的是最不可能为正例的样本。从前往后,逐个将样本预测为正例(即把当前样本的输出值定于为阈值,小于阈值的都为反例),每次计算当前的查准率和查全率,即可得到查全率为横坐标查准率为纵坐标上的一个点,在将所有点按顺利连接后即可得到“P-R曲线”,而BEP(即Break-Event Point,平衡点)是在查全率=查准率时的取值。

BEP值是寻求一个阈值使得查全率和查准率相同的情况下得到的(此时BEP = R = P)。即BEP值和“样本的排序”紧密相关的,而和样本的预测值大小无关,即便各个样本的预测值都相同改变,但排序相对不变,类似分子分母相同改变的意思,其BEP值不变,而对于F1值,若是所有预测皆为反例,即2.3-12中第2个式子分子为0,则F1=0。

对于题目,若是学习器A和B的BEP值相同,而A的预测值都比B大,A的输出在(0,1)之间,而B的输出在(0,0.5)之间,即全为反例,此时B的 F1 值为0,A的 F1 值是在0-1之间。如此,题目不成立。

2.4

真正例率TPR、假正例率FPR、查准率P、查全率R之间关系。

以二分类混淆矩阵为例,
设总样本数 = N = T P + F P + T N + F N 则 T P R = T P T P + F N = T P 正例总数 F P R = F P T N + F P = F P 反例总数 P = T P T P + F P R = T P T P + F N 设总样本数=N=TP+FP+TN+FN\\ 则TPR=\frac{TP}{TP+FN}= \frac{TP}{正例总数}\qquad FPR=\frac{FP}{TN+FP}= \frac{FP}{反例总数}\\ P=\frac{TP}{TP+FP}\qquad R=\frac{TP}{TP+FN} 设总样本数=N=TP+FP+TN+FNTPR=TP+FNTP=正例总数TPFPR=TN+FPFP=反例总数FPP=TP+FPTPR=TP+FNTP

真正例率TPR=查全率R。

2.5——有待解决

证明
A U C = 1 − l r a n k AUC=1-l_{rank}\qquad AUC=1lrank
(有问题)

答:

l r a n k l_{rank} lrank相当于ROC曲线和y轴的面积,而AUC是ROC曲线和x轴的面积,二者面积和为1.

2.6

错误率与ROC曲线联系。

答:

错误率是在阈值固定的情况下得出的,ROC曲线是在阈值随着样本预测值变化的情况下得出的。

ROC曲线上的每一个点,都对应着一个错误率。

2.7

试证明任意一条ROC曲线都有一条代价曲线与之对应,反之亦然。

(参考代价曲线的绘制、网友答案)

答:

错误。

首先“任意一条ROC曲线都有一条代价曲线与之对应”,显然ROC曲线上每个点(FPR,TPR)都对应着图中一条线段,取所有线段的下界,即可得到唯一的代价曲线

反之,代价曲线实际上是一个多边形(在有限样本下),易理解,每条边都对应代价平面上一条线段,实际上从左向右遍历每一条边,即可得到ROC曲线上从左到右每一个点

ps. ROC曲线对应着唯一条代价曲线,但是一条代价曲线可对应着多条不同的ROC曲线,如代价曲线图中,有三条线段交于红点时,此时去掉距离横轴更远的线段,代价曲线是不会发生变化的,但是ROC曲线则会少一个点。

2.8

Min-max 规范化和z-score 规范化的优缺点。

(参考网上答案,部分分析有点困惑)

答:

  • Min-max 规范化

    优点:1、计算相对简单一点。2、当新样本进来时,只有在新样本大于原最大值或者小于原最小值时,才需要重新计算规范化之后的值。

    缺点:1、容易受高杠杆点和离群点影响

  • z-score 规范化

    优点:1、对异常值敏感低

    缺点在于1、计算更负责。2、每次新样本进来都需要重新计算规范化

2.9——有待解决

简述 χ2 检验过程

答:

回头补。

2.10——有待解决

试述Friedman 检验中使用式(2.34)和(2.35)的区别。

答:

回头补。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

西瓜书-2习题 的相关文章

随机推荐

  • vue实现pdf预览

    需求说明 实现一个通过vue 预览pdf 并支持滚动加载 可下载的插件 一 下载插件 vue pdf npm install save vue pdf 二 创建组件 在src components 下创建pdfAll vue
  • boost::asio 网络传输错误码的一些实验结果(recv error_code)

    boost asio网络传输错误码的一些实验结果 recv error code 错误码很重要 可以由此判断网络连接到底发生了神马事情 从而驱动高层逻辑的行为 只有笼统的错误码判断的网络层是不够规范的 鄙人觉得有些错误码还是需要在网络层就区
  • 单位矩阵的逆矩阵是它本身吗_【2.4】Gauss-Jordan消元法求矩阵的逆

    我们在高斯消元法的时候定义过最主要的一种消元操作 用某行减去另一行的 倍 并且我们知道 这个操作可以通过消除矩阵 左乘系数矩阵 实现 我们还提到某些主元为 的时候可能需要交换矩阵的两行 这个操作可以通过置换矩阵 左乘 实现 总结一下 我们可
  • 真题详解(有限自动机)-软件设计(七十七)

    确定有限自动机 和 不确定有限自动机 解析 M1的A当0的时候 会变成A 也可能变成B 所以M1是不确定有限自动机 M2的A1的时候只会使A 0的时候只会是B B的0只会是B 1的时候只会是C C0的时候只会是B 1的时候只会是A 所以M2
  • 【ubuntu22.04】解决VMware workstation共享文件夹在Ubuntu虚拟机不显示的问题

    ubuntu22 04 解决VMware workstation共享文件夹在Ubuntu虚拟机不显示的问题 问题描述 我按照网络上的教程 在VMware workstation设置了共享文件夹 但是在我的ubuntu虚拟机内无法显示所设置的
  • STM32F407二维码识别(使用内部RAM+无FIFO摄像头OV7670

    STM32F407二维码识别 使用内部RAM 无FIFO摄像头OV7670 要点 1 摄像头配置 无FIFO的摄像头需要注意时钟配置和窗口配置 否则不能出图像 2 DCMI配置 DCMI需要配置成DMA传输模式和使用行场中断进行图像数据采集
  • DNS原理及解析过程详解

    目录 1 域名系统概述 2 因特网的域名结构 3 域名服务器 4 域名的解析原理过程 4 1 DNS解析原理 4 2 域名解析过程 5 查询过程 5 1 演示整个查询过程 5 2 关于DNS解析的TTL参数 5 3 IP地址分类 1 域名系
  • ArcGIS操作小技巧(五)之色带-----横向(水平)图例

    ArcGIS在制图出图时 对于一类要素要有一个变化的过程 使用色带作为图例展示 就显的非常专业 使用水平色带来展示渐变过程 非常的美观 本示例记录了水平色带的创建过程 一 导入数据 设置属性 gt 符号系统 gt 拉伸 gt 标注 二 打开
  • 数据结构:链表的一些经典的OJ题目,环形链表问题

    文章目录 写在前面 链表OJ调试技巧 移除链表元素 反转链表 链表的中间节点 链表中倒数第K个节点 链表分割问题 环形链表 写在前面 本篇为本人学习链表的过程中遇到的典型OJ题 于是整理出来分享思路和便于后续重新学习 每个标题均可跳转至对应
  • OpenFeign 如何设置动态 URL?

    如果你利用 Spring Cloud OpenFeign 进行服务间调用一般会加入这个注解 FeignClient name url http myapp com path 可以看出其中的 url 参数是一个字符串 上面的配置是把它写 死
  • warning: ‘p’ may be used uninitialized in this function

    warning p may be used uninitialized inthis function 原因 你定义了一个指针变量 只能用来保存地址 如果这个地址所指向的空间不是系统分配给它的 那么你对这块内存的赋值是非法的 正确定义 in
  • 安装SQL2012出现[HKLM\Software\Microsoft\Fusion!EnableLog] (DWORD)设置为 1

    本人安装SQL2012出现这个错误 找了三天三夜 终于把问题找出来 共享给有需要的人们 不用重新换系统 错误如下 1 此问题是系统 net Framework版本冲突 首先下载 net Framework清理工具 如 cleanup too
  • C++学习(三八八)Doxygen

    Doxygen 是一个 C C Java Objective C Python IDL CORBA 和 Microsoft flavors Fortran VHDL PHP C 和D语言的文档生成器 可以运行在大多数类Unix系统 以及Ma
  • Java中,定时任务Timer使用缺陷

    缺陷主要有2点 1 管理并发任务的缺陷 timer有且仅有一个线程去执行定时任务 如果存在多个任务 且任务时间过长 会导致执行效果与预期不符 2 当任务抛出异常时的缺陷 如果TimerTask抛出RuntimeException Timer
  • Flutter Card踩坑经历

    Card包含的Column的Text文本显示居中 且设置textAlign TextAlign start无效 在Column添加属性 crossAxisAlignment CrossAxisAlignment start
  • Python的MySQL库,fetchone,fetchall,fetchmany的比较

    fetchone 返回一条记录 row 一维元组 如 小李 21 如果没有结果 则返回 None 再次调用fetchone 则继续返回下一条记录 直到为空 fetchmany 返回指定的前n条记录 二维元组 如fetchmany 3 获取前
  • JavaWeb项目运维部署

    一 项目部署介绍 Web项目网络拓扑图 部署目录介绍 项目目录 home projectName 启动文件目录 home projectName bin 后端项目 home projectName target Web前端资源 home p
  • HTML实现3D相册

    今天 我给大家分享一个3D相册的代码 废话不说先上效果图 先新建两个文件夹 一个叫css 另一个叫img 如下图 先新建一个文本文档 输入下面的代码 div ul li img src img 1 jpg li ul div
  • 性能测试 —— jmeter计数器

    jmeter计数器 如果需要引用的数据量较大 且要求不能重复或者需要递增 那么可以使用计数器来实现 如 新增功能 要求名称不能重复 1 新增计数器 计数器 允许用户创建一个在线程组之内都可以被引用的计数器 计数器允许用户配置一个起点 一个最
  • 西瓜书-2习题

    文章目录 2 习题 2 1 2 2 2 3 2 4 2 5 有待解决 2 6 2 7 2 8 2 9 有待解决 2 10 有待解决 2 习题 2 1 数据集1000个样本 其中500个正例 500个反例 将其划分为包含70 样本的训练集和3