机器学习——模型评估

2023-10-26

在学习得到的模型投放使用之前，通常需要对其进行性能评估。为此，需使用一个“测试集”(testing set）来测试模型对新样本的泛化能力，然后以测试集上的“测试误差( tootino error)作为泛化误差的近似。

我们假设测试集是从样本真实分布中独立采样获得，所以测试集要和训练集中的样本尽量互斥。

给定一个已知的数据集，将数据集拆分成训练集S和测试集T，通常的做法包括留出法、交叉验证法、自助法。

留出法:

√直接将数据集划分为两个互斥集合

√训练/测试集划分要尽可能保持数据分布的一致性

√一般若干次随机划分、重复实验取平均值

√训练/测试样本比例通常为2:1~4:1

交叉验证法:

将数据集分层采样划分为k个大小相似的互斥子集，每次用k-1个子集的并集作为训练集，余下的子集作为测试集，最终返回k个测试结果的均值，k最常用的取值是10。

交叉验证法:

将数据集分层采样划分为k个大小相似的互斥子集，每次用k-1个子集的并集作为训练集,余下的子集作为测试集，最终返回k个测试结果的均值，k最常用的取值是10。

与留出法类似，将数据集D划分为k个子集同样存在多种

划分方式,为了减小内样本划分→丹八的左A折交叉验证通常随机使用不同的划分重复p次，最终的

评估结果是这p次k折交叉验证结果的均值，例如常见的“10次10折交叉验证”。

自助法:

以自助采样法为基础，对数据集D有放回采样m次得到训练集D',D \D'用做测试集

√实际模型与预期模型都使用m个训练样本

√约有1/3的样本没在训练集中出现，用作测试集√从初始数据集中产生多个不同的训练集,对集成学习有很大的好处

√自助法在数据集较小、难以有效划分训练/测试集时很有用;

由于改变了数据集分布可能引入估计偏差，在数据量足够时，留出法和交叉验证法更常用。

所谓评估指标就是衡量稳型之化能力分1的广向的步仕结果任务需求;

使用不同的评估指标往往会导致不同的评估结果。

在分类预测任务中，给定测试样例集，评估分类模型的性能就是把对每一个待测样本的分类结果和它的真实标记比较。

因此，准确率和错误率是最常用的两种评估指标:

√准确率就是分对样本占测试样本总数的比例

√错误率就是分错样本占测试样本总数的比例

由于准确率和错误率将每个类看的同等重要，因此不适合用来分析类不平衡数据集。在类不平衡数据集中，正确分类稀有类比正确分类多数类更有意义。此时查准率和查全率比准确率和错误率更适合。对于二分类问题，稀有类样本通常记为正例，而多数类样本记为负例。统计真实标记和预测结果的组合可以得到如下所示的混淆矩阵:

查准率(P)就是被分为正类的样本中实际为正类的样本比例:

P=TP/(TP+FP)

查全率(R)就是实际为正类的样本中被分为正类的样本比例:

R=TP/(TP+FN)

可见，查准率是被分类器分为正类的样本中实际为正类的比例;而查全率是被分类器正确分类为正类的比例。二者通常是矛盾的。查准率高时，查全率往往偏低;而查全率高时，查准率往往偏低。为综合考虑查准率和查全率，它们的调和均值F1度量被提出︰

β=1∶标准的F1

β>1∶偏重查全率

β<1∶偏重查准率

真正率(TPR)就是被分为正类的正样本比例:

TPR=TP/(TP+FN)

假正率(FPR）就是被分为正类的负样本比例:

FPR=FP/(FP+TN)

若某个分类器的ROC曲线被另一个分类器的曲线“包住”，则后者性能优于前者;否则如果曲线交叉，可以根据ROC曲线下面积的大小进行比较，即AUC (AreaUnder ROC Curve)

其中，n0和n1分别表示反例和正例的个数，ri分别为第i个反例(-)在整个测试样例中的排序。

AUC度量了分类器预测样本排序的性能。

CLL度量了分类器预测样本类成员概率的性能。

关于性能比较:

√测试性能并不等于泛化性能

√测试性能会随着测试集的变化而变化

√很多机器学习算法本身有一定的随机性

直接选取相应评估方法在相应度量下比大小的方法不可取!

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

机器学习——模型评估的相关文章

蒙特卡洛在发电系统中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
机器学习：基于python微博舆情分析系统+可视化+Django框架 K-means聚类算法（源码）✅

博主介绍全网粉丝10W 前互联网大厂软件研发集结硕博英豪成立工作室专注于计算机相关专业毕业设计项目实战6年之久选择我们就是选择放心选择安心毕业感兴趣的可以先收藏起来点赞关注不迷路毕业设计 2023 2024年计算机毕业
Soul App：年轻人的社交状态，还有多少种可能？

查尔斯狄更斯在双城记的开篇写下这是最好的时代这是最坏的时代这是智慧的时代这是愚蠢的时代这是信仰的时期这是怀疑的时期人们面前有着各样事物人们面前一无所有既然万事万物都和狄更斯所说般好坏参半那又何必执着于过去苦恼于
活动日程&直播预约｜智谱AI技术开放日 Zhipu DevDay

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入直播预约通道关于AI TIME AI TIME源起于2019年旨在发扬科学思辨精神邀请各界人士对人工智能理论算法和场景应用的本质问题进行探索加强思想碰撞链接全球AI学
明日 15:00 | NeurIPS 2023 Spotlight 论文

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入哔哩哔哩直播通道扫码关注AITIME哔哩哔哩官方账号预约直播 1月17日 15 00 16 00 讲者介绍黄若孜腾讯AI LAB游戏AI研究员 2020年复旦大学硕士毕业后
毕业设计- 基于深度学习的小样本时间序列预测算法 - Attention

目录前言课题背景与意义课题实现一数据集二设计思路三相关代码示例最后前言大四是整个大学期间最忙碌的时光一边要忙着准备考研考公考教资或者实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校
毕业设计：基于卷积神经网络的验证码识别系统机器视觉人工智能

目录前言设计思路一课题背景与意义二算法理论原理 2 1 字符分割算法 2 2 深度学习三检测的实现 3 1 数据集 3 2 实验环境搭建 3 3 实验及结果分析最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实
作物叶片病害识别系统

介绍由于植物疾病的检测在农业领域中起着重要作用因为植物疾病是相当自然的现象如果在这个领域不采取适当的护理措施就会对植物产生严重影响进而影响相关产品的质量数量或产量植物疾病会引起疾病的周期性爆发导致大规模死亡这些问题需要在初
如何快速申请GPT账号？

详情点击链接如何快速申请GPT账号一OpenAI 1 最新大模型GPT 4 Turbo 2 最新发布的高级数据分析 AI画图图像识别文档API 3 GPT Store 4 从0到1创建自己的GPT应用 5 模型Gemini以及大模型
做大模型也有1年多了，聊聊这段时间的感悟！

自ChatGPT问世以来做大模型也有1年多了今天给大家分享这一年后的感悟过去一年应该是AI圈最万千瞩目的一年了大家对大模型 OpenAI ChatGPT AI Native Agent这些词投入了太多的关注以至于有一年的时间好像经
不要再苦苦寻觅了！AI 大模型面试指南（含答案）的最全总结来了！

AI 大模型技术经过2023年的狂飙 2024年必将迎来应用的落地对 IT 同学来讲这里蕴含着大量的技术机会越来越多的企业开始招聘 AI 大模型岗位本文梳理了 AI 大模型开发技术的面试之道从 AI 大模型基础面 AI 大模型进阶
蒙特卡洛在发电系统中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
3D点云检测神技 | UFO来了！让PointPillars、PV-RCNN统统涨点！

作者 AI驾驶员编辑智驾实验室点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心 3D目标检测技术交流群本文只做学术分享如有侵权联系删文在这篇论文中提出了一个关于在3D点云中检测未
史上最全自动驾驶岗位介绍

作者自动驾驶转型者编辑汽车人原文链接 https zhuanlan zhihu com p 353480028 点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心求职交流技术交流群本
15天学会Python深度学习，我是如何办到的？

陆陆续续有同学向我们咨询 Python编程如何上手深度学习怎么学习如果有人能手把手一对一帮帮我就好了我们非常理解初学者的茫然和困惑大量视频书籍广告干扰了大家的判断学习Python和人工智能成为内行人不难为此我们推出了
深度学习：人脸识别系统 Tensorflow 人脸检测 Python语言 facenet人脸识别算法毕业设计（源码）✅

博主介绍全网粉丝10W 前互联网大厂软件研发集结硕博英豪成立工作室专注于计算机相关专业毕业设计项目实战6年之久选择我们就是选择放心选择安心毕业感兴趣的可以先收藏起来点赞关注不迷路毕业设计 2023 2024年计算机毕业
考虑光伏出力利用率的电动汽车充电站能量调度策略研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
基于节点电价的电网对电动汽车接纳能力评估模型研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
国产化率100%，北斗导航单日定位4500亿次，外媒：GPS将被淘汰

追赶30年的技术差距国产卫星导航系统北斗开始扬眉吐气数据显示北斗导航目前单日定位量达4500亿次已经获得100多个国家的合作意向甚至国际民航也摒弃以往独宠 GPS的惯例将北斗纳入参考标准对此有媒体直言 GPS多年来的技
实力认证！鼎捷软件荣膺“领军企业”和“创新产品”两大奖项

近日由中国科学院软件研究所中科软科技股份有限公司联合主办的 2023中国软件技术大会于北京成功举办本届大会以大模型驱动下的软件变革为主题数十位来自知名互联网公司和软件巨头企业的技术大咖不同领域行业专家畅销书作者等分享嘉宾

随机推荐

“40道高频区块链面试题”——我的一些看法

最近看到了一篇文章如下超强攻略 40道高频区块链面试题大放送年底跳槽看过来地址我也贴出来吧 https mp weixin qq com s 3Fa2XG4R11QDfMSAaBCngw 哦 CSDN的地址也出来了 https blo
vscode好用的前端插件和快捷键

用到好用的vscode插件总结一下文章目录一常用主题 1 Material Theme主题 2 Community Material Theme主题 3 vscode icons 二基础插件 1 Code Spell checke
java生成二维码图片（有logo），并在图片下方附文字

logo配置类 Created by Amber Wang on 2017 11 27 17 25 import java awt public class LogoConfig logo默认边框颜色 public static final
【数据结构】实现堆结构 ---超细致解析

目录二叉树的性质二叉树的存储结构顺序存储链式存储堆的概念和性质堆的实现堆的初始化堆的插入向上调整函数堆的删除向下调整函数向上建堆向下建堆 TopK问题二叉树的性质在我们实现堆之前我们要知道堆的实现是依靠的是二叉
C# Thread启动线程时传递参数

目录 1 不带参数使用ThreadStart 2 带一个参数使用ParameterizedThreadStart 3 带多个参数 1 不带参数使用ThreadStart private void funcName public voi
Java反射学习记录

一反射概述反射允许程序在运行中获取类的内部信息例如构造器成员变量成员方法等类加载之后在堆中生成一个Class类的对象一个类只有一个Class对象这个对象包含类的完整结构信息二入门案例通过配置文件中的内容生成指定类的对
创建完整团队的艺术：敏捷如何改变我们与客户的工作方式

来源 Ackarlix博客 http www ackarlix com 十年前敏捷宣言的作者们希望我们重新思考我们作为程序员与客户协作的方式我和我的博士学位顾问Robert Biddle以及James Noble都深受启发充满希望
python --- multiprocessing实现多进程

文章目录进程理论知识 multiprocessing模块实现多进程进程池进程理论知识进程就是正在运行的程序是计算机进行资源分配的最小单位各个进程都有独立的数据相互隔离 Linux里进程的状态 R 运行状态runable S 中
各种网络协议的类型、优缺点、作用

一网络协议的定义网络协议是一种特殊的软件是计算机网络实现其功能的基本机制网络协议的本质是规则即各种硬件和软件必须遵循的共同规则网络协议并不是一套单独的软件他融合于其他所有软件系统中协议在网络中无所不在二常用的网络协议
24

以下内容出自 MySQL 实战 45 讲 https time geekbang org column article 76446 24 MySQL是怎么保证主备一致的 MySQL 主备的基本原理如图所示就是基本的主备切换流程 M S结构
socket可读，可写的条件

socket可读可写条件经常做为面试题被问因为它考察被面试者对网络编程的基础了解的是不是够深入要了解socket可读可写条件我们先了解几个概念 1 接收缓存区低水位标记用于读和发送缓存区低水位标记用于写每个套接字有一个接收低
Oracle数据库运维、备份常用指令

Oracle数据库运维备份常用指令 1 Oracle数据泵备份导出 1 1 准备工作在linux系统下创建导出结果存放的文件夹切记要切换到oracle用户创建否则会出现权限问题 su oracle mkdir home oracle
keepalived高可用服务的VIP地址无法访问

环境 keepalived nginx实现高可用 VIP地址可以正常生成也可正常漂移可以实现故障切换 VIP地址只能在本地服务器ping通其他内网服务器上无法ping通VIP地址防火墙和selinux都已关闭原因一服务器启动了i
day37 445 数字反转（字符串处理、模拟）

445 数字反转给定一个整数请将该数各个位上数字反转得到一个新数新数也应满足整数的常见形式即除非给定的原数为零否则反转后得到的新数的最高位数字不应为零输入格式输入共1行 1个整数N 输出格式输出共1行 1个整数表示反转后的新
集群基础7——keepalived脑裂

文章目录一脑裂概念二脑裂产生原因三解决方案四脑裂监控一脑裂概念在高可用 HA 系统中当联系2个节点的心跳线断开时本来为一整体动作协调的HA系统就分裂成为2个独立的个体由于相互失去了联系都以为是对方出了故
常用 Git 命令行操作

本文记录了一些常用 Git 命令行操作的具体使用方式 git clone git clone REPOSITORY URL 拉取仓库并使用仓库名作为本地文件名 git clone REPOSITORY URL FOLDER 拉取仓库并使
android new intent(),Android：关于onNewIntent()触发机制及注意事项

在阅读该篇日志前先熟悉一下Android的四种启动模式因为onNewIntent并不是在所有启动模式下都会执行的一 onNewIntent 在IntentActivity中重写下列方法 onCreate onStart onResta
Flink水位线不触发问题

窗口计算时遇到好几次水位线不触发的情况简单总结下首先介绍下Flink的事件时间 EventTime 和水位线 Watermarks 的概念一处理时间如果要构造一个实时的流式应用或早或晚都会接触到EventTime这个概念现实
用vscode写markdown的正确姿势

写markdown一直没找到特别顺手的工具这两天试了试vscode 被惊艳到到了特此记录一下 1 安装vscode 之所以罗嗦一下安装是因为安装版明显不如解压绿色版好用特此标记一下 2 安装markdown插件 vscode默认是支
机器学习——模型评估

在学习得到的模型投放使用之前通常需要对其进行性能评估为此需使用一个测试集 testing set 来测试模型对新样本的泛化能力然后以测试集上的测试误差 tootino error 作为泛化误差的近似我们假设测试集是从样本真实分

机器学习——模型评估

机器学习——模型评估 的相关文章

随机推荐

热门标签

机器学习——模型评估的相关文章