监督学习,无监督学习,半监督学习,主动学习的概念

2023-11-11

1、监督学习(supervised learning)

训练数据既有特征(feature)又有标签(label),通过训练,让机器可以自己找到特征和标签之间的联系,在面对只有特征没有标签的数据时,可以判断出标签,即生成合适的函数将输入映射到输出。

2、无监督学习(unsupervised learning)

训练样本的标记信息未知,目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律,为进一步的数据分析提供基础,此类学习任务中研究最多、应用最广的是"聚类" (clustering)

3、半监督学习(Semi-Supervised learning,SSL)

训练集同时包含有标记样本数据和未标记样本数据,不需要人工干预,让学习器不依赖外界交互、自动地利用未标记样本来提升学习性能,就是半监督学习。

3.1、自训练模型(纯半监督学习和直推学习的区别)

纯半监督学习与直推学习主要的区别在于学习后要取得好的泛化能力的范围不同。

  • 纯半监督学习是一种归纳学习,可以对测试数据(训练过程中未观察到的数据)进行预测,也就是基于“开放世界”的假设。

  • 直推学习仅仅对于训练数据中的未标记的数据能够进行标记,而模型不具备对测试样本进行泛化的能力,直推学习是基于“封闭世界”的假设。

对其进行数学化,假设我们有如下的数据集:其中训练集为X1+X2,其中X1是已标记的训练数据,而X2是未标记的训练数据,Xtesxt是未知的测试集,对于归纳学习而言,是可以在训练数据中进行学习,然后对Xtesxt进行测试的,而对于直推学习而言,是不能够在Xtesxt中进行测试,也就是只能在训练数据中使得在训练数据中的泛化能力达到最大,却不具有迁移的能力。

在直推学习中,知道测试数据是什么,也就是训练数据中的未标注的数据是最终用于测试的数据,学习的目的是在这些数据中取得最佳的泛化能力。在归纳学习中,不清楚自己的测试数据是什么,是具有可替换性的。

4、主动学习(active learning)

学习器能够主动选择包含信息量大的未标注的样例并将其交由专家进行标注,然后置入训练集进行训练,从而在训练集较小的情况下获得较高的分类正确率,这样可以有效的降低构建高性能分类器的代价。
学习器能够主动的提出一些标注请求,将一些经过筛选的数据交给专家进行标注。这个过程中最重要的是如何筛选数据进行标注。

4.1、主动学习的模型如下: 

A=(C,Q,S,L,U)

其中C指的是一个或者多个分类器,Q指的是一些查询函数,也就是一些查询算法,S指的是监督者,通常指的是专家,L是少量标记的样本,U指的是大量未被标记的额样本。学习者利用少量标记的样本L,通过一些基本的机器学习算法学习一个或者多个机器学习模型C,然后通过查询算法,按照查询算法查询出一批最有用的样本,交给专家,让专家进行标记,最后将新学到的标记数据加入到少量样本中,继续训练模型。一直循环,直到达到一个准则为止。流程如下所示:

4.2、主动学习与半监督学习的联系

二者都利用到了未标注的数据和已标注的数据,然后提高学习能力。只是二者的学习思想不同。

4.3、主动学习与半监督学习的区别

主动学习,在利用未标注数据的时候,是从未标注数据中找到最容易判断错误的样例来交由专家进行标注,这个过程是一个筛选差数据的过程,也是一个互动交互的过程,引入了额外的专家的知识。

半监督学习,尤其是对于自学习模型,对于未标注数据而言,是选择最不容易判断错误的样例来加入到已标注数据中,这个过程,是一个自动的过程,是筛选最好的数据的过程,然后不需要互动,不需要人工干预,基于自身对于未标记数据加以利用,来提高学习模型的泛化性能。

 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

监督学习,无监督学习,半监督学习,主动学习的概念 的相关文章

  • 关于Spark报错不能连接到Server的解决办法(Failed to connect to master master_hostname:7077)

    问题产生 Spark集群 即可以基于Mesos或YARN来部署 也可以用自带的集群管理器 部署于standalone模式下 笔者在部署standalone模式时 首先 通过如下命令 启动了Master sbin start master s
  • 【Machine Learning】5.特征工程和多项式回归

    特征工程和多项式回归 1 导入 2 多项式特征 3 特征选择 4 多项式特征与线性特征的关联 5 特征缩放 Scaling features 6 复杂函数的拟合 7 课后题 特征工程 使用线性回归机制来拟合非常复杂甚至非线性 存在 x n
  • AB测试中如何给样本分组?

    目录 什么是AB测试 什么叫样本相似 为什么要样本相似 怎么实现样本相似 随机化 Randomization 再随机化 Rerandomization 协方差适应随机化 Covariance Adaptive Randomization 更
  • 预测数值型数据:回归

    本文传送机 用线性回归找到最佳拟合直线 局部加权线性回归 通过缩减系数来 理解 数据 岭回归 lasso 前向逐步回归 用线性回归找到最佳拟合直线 线性回归 优点 结果易于理解 计算上不复杂 缺点 对非线性的数据拟合不好 适用数据类型 数值
  • 机器学习、深度学习、图像检索 的一些优秀博客

    机器学习 深度学习 图像检索 的一些优秀博客 1 http www cnblogs com ooon 2 http yongyuan name blog
  • 深度学习系列之ANN

    到此 ANN网络从最基础的单层感知器 到为深度网络作模板延伸的BP网络 将模型结构 参数训练 算法都举例讲解的很透彻 为下面的CNN网络的学习打下坚实的基础 这个在线编辑器 体验太差了 好好写一篇长文章 想知道博客上与大家交流 转换过程太麻
  • R资源大全

    0 前言 虽然很早就知道R被微软收购 也很早知道R在统计分析处理方面很强大 开始一直没有行动过 直到 直到12月初在微软技术大会 看到我软的工程师演示R的使用 我就震惊了 然后最近在网上到处了解和爬一些R的资料 看着看着就入迷了 这就是个大
  • 聚类五之总结

    1 聚类方法的选择 1 对于数据量较大的情况 k means 2 对于数据量较一般的情况 最大密度聚类 DBSCAN 3 对于数据量较少的情况 谱聚类 2 类别数目k未知 且数据有噪声 可使用密度聚类 如DBSCAN 最大密度聚类 DBSC
  • 训练模型的3种方法

    公众号后台回复关键字 Pytorch 获取项目github地址 Pytorch没有官方的高阶API 一般通过nn Module来构建模型并编写自定义训练循环 为了更加方便地训练模型 作者编写了仿keras的Pytorch模型接口 torch
  • 论文阅读笔记4——MOTR: End-to-End Multiple-Object Tracking with TRansformer(利用Transformer进行多目标跟踪)

    首个完全基于端到端 Transformer 的多目标追踪模型 21年5月上传到arxiv上 论文 论文 代码 代码 space 1 Abstract 摘要大概由两部分组成 一是过去启发式算法的缺陷 二是MOTR的基本思路 他说MOT问题的关
  • 朴素贝叶斯分类器(Naive Bayes Classifiers)

    原文地址 Naive Bayes Classifiers 本文讨论的是朴素贝叶斯分类器 Naive Bayes classifiers 背后的理论以及其的实现 朴素贝叶斯分类器是分类算法集合中基于贝叶斯理论的一种算法 它不是单一存在的 而是
  • 理解准确率(accuracy)、精度(precision)、查全率(recall)、F1

    Precision又叫查准率 Recall又叫查全率 这两个指标共同衡量才能评价模型输出结果 TP TN FP FN的定义 在二分类问题中 Real 1 Real 0 Predict 1 TP FP Predict 0 FN TN TP 预
  • 关于二阶锥优化(SOCP)的学习

    原来 数学不好的时候 真的很难深入下去做研究 最近的两个月时间里 我就边学习SOCP相关的理论知识 一边拿它当工具来分析多视角几何中的问题 包括Triangulation Homography Estimation等 接触到SOCP的起因在
  • 深度学习 vs 概率图模型 vs 逻辑学

    深度学习 vs 概率图模型 vs 逻辑学 发表于 2015 04 30 21 55 1359次阅读 来源 quantombone 0 条评论 作者 Tomasz Malisiewicz 深度学习 deep learning 图模型 人工智能
  • MLOps极致细节:4. MLFlow Projects 案例介绍(Gitee代码链接)

    MLOps极致细节 4 MLFlow Projects 案例介绍 Gitee代码链接 MLFlow Projects允许我们将代码及其依赖项打包为一个可以在其他平台上以可复制 reproducible 和可重用 reusable 的方式运行
  • 【nlp-with-transformers】

    今天社群中的小伙伴面试遇到了一个问题 如何保证生成式语言模型在同样的输入情况下可以保证同样的输出 这里面造成问题的因素有两个方面 一个方面是在forward过程中参数的计算出现了差异 这种情况一般发生在游戏显卡中 游戏显卡无法保证每一次底层
  • 广义线性模型(GLM)

    在线性回归中 y丨x N 2 在逻辑回归中 y丨x Bernoulli 这两个都是GLM中的特殊的cases 我们首先引入一个指数族 the exponential family 的概念 如果一个分布能写成下列形式 那么我们说这个分布属于指
  • Machine Learning Yearning(开篇、1、2)

    Machine Learning Yearning 开篇 1 2 Machine Learning Yearning开篇12 开篇 目的 下载 章节名称 Chapter 1Why Machine Learning Strategy Chap
  • Nvidia GPU 最新计算能力表(CUDA Compute Capability)

    对于深度学习 官方指出在GPU算力高于5 0时 可以用来跑神经网络 Jetson Products GPU Compute Capability Jetson AGX Xavier 7 2 Jetson Nano 5 3 Jetson TX
  • 吴恩达机器学习笔记系列(五)——梯度下降

    一 gradient descent 梯度下降 1 概念 线性回归的目的就是找出使得误差 损失函数 最小的参数值 可以用梯度下降来确定 参数的大小 梯度下降是一种迭代方法 能够求解局部最小值 结果与初始点的选取有关 为了找到最小值 从某一点

随机推荐

  • 基于时间序列的短期数据预测--ARMA模型的设计与实现(每个步骤附实现源码)

    本文demo源码 实验数据 传送门 引言 前面我有分享两篇关于时间序列模型的文章 一篇是 Holt Winters模型原理分析及代码实现 python 一篇是 LSTM模型分析及对时序数据预测的具体实现 python实现 holt wint
  • win32api.sendmessage模拟鼠标点击_安卓模拟器一键宏设置教程

    一 什么是一键宏 一键宏是指宏指令 主要作用是一键触发多个点击事件 游戏玩家可以用来设置一键连招 一键发言等功能 因此成为一键宏 二 如何设置一键宏 打开雷电模拟器 点击右侧栏按键按钮 找到 一键宏 按钮 点击拖拉到模拟器窗口你想摆放的位置
  • 【Spring Cloud】分布式必学springcloud(五)——Ribbon自定义负载均衡策略

    一 前言 在上一篇博客中 小编向大家介绍了负载均衡工具Ribbon 是不是很颠覆呀 是不是很好用呀 从中大家有没有感觉到他的负载均衡策略呀 对的 Ribbon内置的默认策略是轮询 在这篇博客中 小编就带大家领略一下Ribbon自定义策略 二
  • 计算机信息单位换算中的t是,算力单位换算(算力单位t)

    算力每隔千位划为一个单位 最小单位 H 1次 1000H 1K 1000K 1G 1000G 1T 1000T 1P 1000P 1E 1公斤力等于多磅力 n牛 顿 是力的国际单位 kg千克 是质量的国际单位 这两个单位可以通过加速度计算
  • 腾讯自选股任务 青龙脚本

    有python环境可以运行 青龙也可以运行 添加脚本自己定时规则 修改环境变量位自己的 加入进去即可 更新时间 2022 6 2 有python环境可以运行 青龙也可以运行 添加脚本自己定时规则 修改环境变量位自己的 加入进去即可 更新时间
  • Android的Context详解 - 揭开Context的神秘面纱

    这篇文章是基于我四年前的一篇文章进行更正和深入探究 背景是 2019年4月份我在找工作 看到一个问题 问this getBaseContext getApplication getApplicationContext 的区别 当时我写了简单
  • dn什么意思_钢管中的DN表示什么意思?

    展开全部 DN是一种工程通径 不是实际的数值 由于各国标准不同 所以相对应的实际数值就不一样 扩展资e69da5e6ba903231313335323631343130323136353331333365666137料 DN既不是外径 也不
  • Java中int(Integer)类型与long(Long)类型数据的相互转化

    新手开车 先上代码 后边解析 能看懂代码就不要看解析 PS 命名规范 i代指int类型 l代指long类型 I代指Integer类型 L代指Long类型 2 transferTo 首先创建四个基本操作对象 Long L0 123456l i
  • java浮点数转二进制_浮点数转换成二进制

    因为要参加软考了 当然也只有考试有这种魅力 我得了概浮点数转化为二进制表示这个最难的知识点 个人认为最难 俺结合大量的从网上收集而来的资料现整理如下 希望对此知识点感兴趣的pfan有所帮助 基础知识 十进制转十六进制 十六进制转二进制 IE
  • Git恢复本地误删文件

    转 https www cnblogs com yangshifu p 9680993 html Step 1 git status Step 2 git reset HEAD 被删除的文件或文件夹 Step 3 git checkout
  • vuex 是什么? 有哪几种属性?

    Vuex 是一个专为 Vue js 应用程序开发的状态管理模式 简单点说 方便父子组件及组件之间的数据传递 有 5 种 分别是 state getter mutation action module vuex 的 store 是什么 vue
  • MIDP对应的设备特性(转)

    由于MID这类设备 在屏幕 内存 处理器等问题上有诸多限制 在手机或是PDA等MID上开发应用程序必须要考虑一些技术上的特殊点 下面给出一些MID设备的特性 显示 display 96x54 最小屏幕尺寸 1bit 最小色深 单色 输入设备
  • 工具网页收藏

    腾讯文档 百度脑图 墨者写书 语雀文档 阿里图标库 百度图说 腾讯智图 百度Suger数据可视化 腾讯设计导航 135设计 极速app 小程序开发 墨刀 processon visio axure mockplus sketchcn 其他i
  • 子序列(组合数学)

    子序列 题目描述 给出一个长度为 n n n的序列 你需要计算出所有长度为 k k k的子序列中 除最大最小数之外所有数的乘积相乘的结果 输入描述 第一行一个整数
  • maven学习笔记(五)maven全局配置文件settings.xml详解

    目录 setting文件简介 settings xml的作用 settings xml文件位置 配置的优先级 settings xml元素详解 顶级元素概览 LocalRepository InteractiveMode UsePlugin
  • Shiro权限框架-Springboot集成Shiro(5)

    1 技术栈 主框架 springboot 响应层 springMVC 持久层 mybatis 事务控制 jta 前端技术 easyui 2 数据库设计 1 数据库图解 sh user 用户表 一个用户可以有多个角色 sh role 角色表
  • python arima predict end无效_样本外预测的ARMA.predict不适用于浮点?

    在我开发了用于样本分析的小ARMAX预测模型之后 我想预测一些样本外的数据 我用于预测计算的时间序列从2013 01 01开始 到2013 12 31结束 以下是我正在处理的数据 hr np loadtxt Data 2013 17 txt
  • 《深入浅出数据分析》R语言实用教程

    深入浅出数据分析 R语言实用教程 1年前的R语言笔记 跟着 深浅 学习 当时用的版本是R i386 4 0 3 因为先学了MySQL再学的R 所以会夹带一些在借助MySQL来理解 1 基本处理 先加载程序包 程序包 加载程序包 加载xlsx
  • (二)、edtFTPj FileTransferClient

    edtFTPj的FileTransferClient类简单易用 而且下载的组件包中文档丰富 参考使用 完全能满足自己需要 下载地址为 http www enterprisedt com index html 废话不多说 上代码 Java代码
  • 监督学习,无监督学习,半监督学习,主动学习的概念

    1 监督学习 supervised learning 训练数据既有特征 feature 又有标签 label 通过训练 让机器可以自己找到特征和标签之间的联系 在面对只有特征没有标签的数据时 可以判断出标签 即生成合适的函数将输入映射到输出