什么是主动学习(Active Learning)?定义,原理,以及主要方法

2023-12-16

数据是训练任何机器学习模型的关键。但是,对于研究人工智能的企业和团队而言,数据仍是实现成功的最大障碍之一。首先,您需要大量数据来创建高性能模型。更重要的是,您需要标注准确的数据。虽然许多团队一开始都是手动标注数据集,但更多团队已逐渐实现数据标注的部分自动化,比如采用主动学习方法(Active Learning),以提高效率。

如果想要了解主动学习,您首先需要了解监督机器学习和无监督机器学习之间的区别。监督学习认为,我们需要为机器提供标注正确的数据,让机器从这些示例中学习如何正确标注数据。无监督学习则认为,要为机器提供未标注的、混乱的数据。机器可以自主识别数据的模式和结构。每种方法各有千秋;本文主要讨论主动学习所属的监督学习范畴。

主动学习方法

主动学习属于我们所说的“半监督学习”。完全监督学习方法会为模型提供完整的标注数据集,而半监督主动学习方法则仅为模型提供数据集的标注子集,认为在训练过程中,并非所有数据都是必需的、有价值的。主动学习过程涉及数据集中哪些数据需要优先标注。从本质上讲,模型可以主动选择想要学习的数据。

工作原理

在主动学习中,有三种典型场景。知名度最高的一种场景称为基于池的采样(Pool-based Sampling),它遵循以下五个步骤:

  1. 人员(在此过程中称为Oracle)标注数据集的一小部分,并将标注数据提供给模型。
  2. 模型(称为主动学习者)处理这些数据,并以一定的置信度预测未标注数据点的类别。
  3. 假设初始预测低于所需精度和置信度,则会使用采样技术确定下一个需要标注的数据子集。
  4. 人员标注选定的数据子集并将标注的数据子集发送回模型进行处理。
  5. 该过程将继续,直至模型的预测达到所需的置信度和精度水平。

另一个主动学习场景即基于流的选择采样(Stream-based Selective Sampling)。在此场景中,模型会接收到一个未标注的数据点,并且必须立即决定是否要标注该数据点。

在主动学习的第三种方法——成员查询合成(Membership Query Synthesis)场景中,模型构建自身的标注示例。

主动学习的采样方法

采样方法,也称为查询策略,是主动学习方法成功的关键。不佳的采样方法会导致不良的模型预测,从而在主动学习周期中进行更多的迭代。两种最常见的采样方法即不确定性采样(Uncertainty Sampling)和委员会投票选择(Query-By-Committee)。

不确定性采样 Uncertainty Sampling

顾名思义,不确定性采样优先标注模型最不确定的数据点。不确定性采样运用以下几种技术:

  • 最低置信度: 该算法可以将预测从最低置信度到最高置信度排序。选择标注那些置信度最低的数据。
  • 最小分类间隔: 算法会比较各数据点的最高概率类预测和次高概率类预测。优先标注分类间隔最紧密的数据点,因为模型最不确定这些数据的类别。
  • 熵方法: 机器会通过一个方程确定类别预测中具有最高不确定性(也称为熵)的数据点。这些数据点会被优先标注。
委员会投票选择 Query-By-Committee

该方法使用多个基于同一数据集进行训练的模型,共同确定需要标注的其他数据点。模型间分歧最大的地方是要选择标注哪些数据点。

其他常见的采样方法还有预期影响和密度加权,尽管这些方法的使用频率不比上述几种方法。在任何情况下,所使用的采样方法都是影响模型达到标准性能之速度的重要决定因素。

您需要试验多种不同的方法,以达到最佳性能,因为没有一种方法对每个用例都最为有效。

何时选择主动学习方法

对一些组织而言,手动标注完整的数据集(如在监督学习方法下)需要花费高额成本和时间,这就是为什么一些团队正在转向半监督和无监督ML方法。在以下部分或所有情况下,最好采用主动学习方法:

  • AI解决方案需要迅速进入市场,并且手动标注数据可能会对项目构成风险。
  • 没有足够的资金聘请数据科学家或SME手动标注所有数据。
  • 没有足够的人员手动标注所有数据。
  • 具有大量未标注的数据。

与传统的监督学习相比,主动学习的成本更低,速度更快,但您仍需考虑构建有效模型所需的计算成本和迭代。如果操作正确,主动学习方法所构建的模型能够达到与传统方法所构建的模型同等的质量和精度。

对数据科学团队而言,主动学习技术起着关键作用。因为所选择的采样方法可以决定主动学习方法的整体有效性。在某些情况下,您可以寻求外援;例如,和第三方数据供应商建立合作伙伴关系,创建高效的主动学习流程。

AI主动学习的未来

主动学习是AI的未来吗?目前来看,主动学习方法可以代替完全监督学习方法。另外,主动学习方法可以用于超大型数据集,协助数据科学团队更智能、更高效地标注数据。数据是卓越AI的重要基础,但如果操作不当,数据也会成为AI的最大障碍。因此,高效的主动学习方法在当下备受青睐。

研究人员正在努力设计主动学习采样方法,以不断改进先前方法,并希望我们能够推广那些表现最好的方法。虽然还需要进一步研究(例如,仍然难以提前确定主动学习方法是否适用于某一特定数据集),但主动学习仍是 人机协同 过程中的有效方法。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

什么是主动学习(Active Learning)?定义,原理,以及主要方法 的相关文章

随机推荐

  • java 版本企业招标投标管理系统源码+多个行业+tbms+及时准确+全程电子化

    项目说明 随着公司的快速发展 企业人员和经营规模不断壮大 公司对内部招采管理的提升提出了更高的要求 在企业里建立一个公平 公开 公正的采购环境 最大限度控制采购成本至关重要 符合国家电子招投标法律法规及相关规范 以及审计监督要求 通过电子化
  • 远程办公模式的流行:以灵活性应对当今工作环境

    随着科技的进步和全球化的发展 远程办公模式正变得越来越流行 本文将探讨远程办公模式的流行趋势 以及它如何为当今不断变化的工作环境带来灵活性和适应性 1 科技的进步 随着互联网 云计算和即时通讯工具的发展 远程办公变得更加便捷和高效 无论身在
  • 揭秘移动电源容量:虚标还是品质问题?

    在购买移动电源时 我们经常会听到关于移动电源容量的一些争议 有人认为移动电源的容量存在虚标 实际容量远远达不到标称值 有人认为移动电源的品质存在问题 转换率低下导致实际充电效果不佳 还有人说使用久了之后 电池会有损耗 导致充电效果打折 那么
  • jdk11启动jdk8 jar包报错

    一 前言 开发使用jdk8版本开发的服务打包后 使用jdk11版本的java启动服务 导致出现以下报错 java lang NoClassDefFoundError javax xml bind DatatypeConverter 二 解决
  • jenkins设置中文

    安装以下两个插件 Locale plugin Localization Chinese Simplified 在jenkins的system配置中找到locale配置项 在locale配置项的默认语言中填入以下内容保存 zh CN 重启je
  • Windows的最大威胁是尽然是“套皮安卓”的鸿蒙系统

    前言 自从鸿蒙问世以来 套皮安卓的言论就没有断过 但是那些现在还在说鸿蒙是套皮安卓的人 你知不知道微软已经组建了专门的 战略团队 来对付鸿蒙 因为这些专业的人早已经知道鸿蒙将是Windows的巨大威胁了 微软作为一个垄断操作系统多年的巨无霸
  • 短视频时代:如何设计吸引人的黄金3秒开头

    在短视频时代 一个好的开头对于视频的点击率和观看率至关重要 黄金3秒 作为短视频开头最关键的时刻 决定了观众是否愿意继续观看你的视频 那么 如何设计一个吸引人的黄金3秒开头呢 下面将为你揭秘抓住观众注意力的秘诀 一 利用好奇心 好奇心是人类
  • 从大厂到高校,鸿蒙人才“红透半边天”

    前言 近两个月来 纯血鸿蒙未发先火 连带让鸿蒙人才的培养和争夺 也红透半边天 最近 华为人才在线官网公示了2023年教育部产学合作协同育人项目华为第二批项目立项 其中 哈尔滨工业大学 天津大学 电子科技大学等16所高校鸿蒙项目立项已通过 这
  • 深入探讨Android启动优化策略

    深入探讨Android启动优化策略 在当今激烈竞争的移动应用市场 应用的启动速度直接影响着用户的第一印象和满意度 作为主流的移动操作系统之一 Android的启动优化是开发者必须关注的关键领域 本文将详细介绍一些强大有效的Android启动
  • Java 17 & Java 11:新功能探索与改进措施知多少?

    7是Java编程语言的最新 LTS 长期支持 版本 于 2021年9月14日发布 如果您目前使用的是Java11 那么也许是时候考虑迁移到 Java 17啦 方便我们体验新功能以及了解新版本的改善措施 在本文中 我们将讨论 Java 17
  • 鸿蒙开发入门:应用配置文件概述(FA模型)

    应用配置文件概述 FA模型 每个应用项目必须在项目的代码目录下加入配置文件 这些配置文件会向HarmonyOS的编译工具 HarmonyOS操作系统和应用市场提供描述应用的基本信息 应用配置文件需申明以下内容 应用的软件包名称 应用的开发厂
  • 从面试官角度看Handler:掌握技巧,事半功倍!

    引言 在Android开发领域 Handler是一项关键技能 尤其在面试中 对Handler的深刻理解和熟练运用往往是衡量一位Android开发者水平的重要标志 本文将从面试官的角度出发 针对Android Handler技术展开详细的解析
  • 鸿蒙程序员突然走俏招聘市场,大厂为什么要争相鸿蒙高手?

    前言 近期 一股奇特的暖流席卷了国内的IT就业市场 如果你浏览一下各大招聘网站 你会发现一个令人惊讶的现象 鸿蒙程序员的招聘需求激增 众多大厂纷纷抛出橄榄枝 竞相争夺这些稀缺的人才 一时间 鸿蒙程序员成为了招聘市场的香饽饽 各大公司似乎都在
  • 鸿蒙开发一员难求,你知道现在鸿蒙工程师这个岗位有多火热吗?

    前言 你知道现在鸿蒙工程师这个岗位有多火热吗 只要有一年开发经验 我所在的公司都能开到35K的月薪 这本来是至少5年以上开发经验 还得有成功项目经验的 主程 才有的待遇 关键是这样了 还找不上人 本来有一个都答应入职了 第二天就要办手续 人
  • 机器学习的12个基础问题

    1 阐述批归一化的意义 算法 1 批归一化变换 在一个 mini batch 上应用于激活 x 批归一化是一种用于训练神经网络模型的有效方法 这种方法的目标是对特征进行归一化处理 使每层网络的输出都经过激活 得到标准差为 1 的零均值状态
  • 如何应对Android面试官->CAS基本原理

    基本原理 CAS基本原理 Compare And Swap 利用了现代处理器都支持 CAS 指令 循环这个指令 直到成功为止 什么是原子操作 如何实现原子操作 原子操作 要么全部完成 要么全部都不完成的操作 例如 synchronized
  • 人为制造redis的热key、大key引发的线上事故

    背景 Redis中间件 我们主要是用来做缓存 缓解数据库的访问压力 我们搭建的是redis集群 在一个风和日丽的下午 突然收到运维的报警信息 运维 小李 你们使用的redis中间件所在的服务器 有大量的流量流出 宽带快要占满了 网卡都冒烟了
  • 【性能优化】MySql查询性能优化必知必会

    本文内容主要包括以下几个方面 分析查询SQL MySQL查询优化器 数据库存储结构 索引 索引维护 索引设计 SQL优化 表结构设计 分库分表 查询功能架构设计 分析查询SQL MySQL提供了一个性能分析工具 EXPLAIN 它可以帮助我
  • 【面向过程】springboot接受到一个请求后做了什么

    从启动开始 先从springboot怎么启动开始 启动完成之后建立web容器才能在容器中处理http请求 什么是 springboot 在spring的官网上 对springboot这样描述到 Spring Boot 可以轻松创建独立的 生
  • 什么是主动学习(Active Learning)?定义,原理,以及主要方法

    数据是训练任何机器学习模型的关键 但是 对于研究人工智能的企业和团队而言 数据仍是实现成功的最大障碍之一 首先 您需要大量数据来创建高性能模型 更重要的是 您需要标注准确的数据 虽然许多团队一开始都是手动标注数据集 但更多团队已逐渐实现数据