主动学习与弱监督学习

2023-12-16

人工智能数据的获取没有想象中的那么简单,虽然我们早已身处大数据的浪潮下,很多公司在获取数据的大浪中翻滚却始终没有找到一个合适的获取数据的渠道。很多情况下,获取高质量的人工智能数据需要消耗大量的人力、时间、金钱,但是对于未来世界,以“人机协同”的方式为生活创造价值早已成为一个必然的趋势。 试想一下用这些数据来训练一个有监督的机器学习(ML)算法怎么样?ML算法可以执行与人类相同的分类任务,只是速度快得多!它可以减少成本和低效率。它可以减少成本和低效率。它可以在你的混合数据上工作,如图像、文本文件,以及简单的数字。它可以做所有这些事情,如果你的模型够好,你真的可以为所欲为。但是,要想获取这些数据,你要付出巨大的代价。不过我们总是能找到解决方案,如果你发现了一个“主动学习”的机器学习技术,或许如何获取大量数据也不会让你望而却步。

两种流行机器学习技术的比较

机器学习(ML)领域的发展已呈指数级增长,但对于许多企业而言,获取数据仍然是一项艰巨的任务。传统的机器学习算法需要大量人工标注数据。所需的庞大数据通常无法大规模获取,且成本高昂,更不用说手动标注数据所需的时间和精力。成品数据又达不到理想的质量标准。主动学习与弱监督学习:利用这两种出色的机器学习技术克服数据挑战。 标注数据还需要人工标注员。许多情况下,这些标注员在某种程度上是行业专家(SME),他们可以使用他们业内的专业知识进行准确标注。但SME 的可用性有限,而且雇用成本高昂。 考虑到这些挑战,开发人工智能(AI)解决方案的团队从完全监督式学习(需要完整的手动标注数据集训练ML模型)转向主动学习和弱监督学习。后者通常更快,人力成本更低,同时仍能够成功训练模型。了解不同学习技术的工作原理和优势,能够帮助团队决定弱监督学习或主动学习(或两者结合)是否是训练机器模型的合适解决方案。

主动学习与弱监督学习:如何适应监督式学习

首先我们要清楚地知道,在机器学习中存在不同的学习类型,所有这些学习类型均可归为这两大类中的一种:监督学习和无监督学习。在监督学习中,机器接收由人工标注的数据点,并使用这些数据点进行预测。另一方面,无监督学习使用未标注数据;算法必须在没有人工指导的情况下从数据中提取结构和模式。 监督学习还可细分为一系列学习类型。其中就包括主动学习(半监督学习的一种形式)和弱监督学习。

主动学习

主动学习是半监督学习的一种形式。与完全监督学习不同的是,这种学习形式仅从较大规模的未标注数据集中为机器学习算法提供人工标注数据的初始子集。算法对这些数据进行处理,并提供具有一定置信度的预测。低于该置信度水平的任何预测均将表明需要更多的数据。这些低置信度的预测将被发送给标注人员,以标注请求数据的算法。循环重复,直到算法经过训练,并在预期的预测精度下正常运行。 这种迭代的 人机协同 方法是建立在并非所有样本均有学习价值的基础之上,因此算法会选择所学习的数据。 主动学习的一个关键差异因素是所使用的采样方法,该方法强烈影响着模型的表现方式。数据科学家可以测试不同的采样方法,来选择产生最精确结果的方法。总体而言,与完全监督学习相比,主动学习对人工 数据标注 的依赖程度较低,因为并非所有数据集都需要标注,仅机器要求的数据点才需标注。

弱监督学习

弱监督学习是一种学习技术,融合了来自各种数据源的知识,其中许多数据源质量较低。这些数据源可能包括:

  • 低成本来自非专业人士的低质量标注数据。
  • 来自SME的高级监督,例如,使用启发法(规则)。启发法可能会这样表述,“如果数据点 = x,则将其标注为 y”。使用一种或一套启发法可以立即标注成千上万,甚至上百万的数据点。
  • 预先训练的旧模型,可能有偏见或有噪声。

这些数据源中的数据通常不精确(数据有标签,但标签并不像期望的那样准确)或不准确(部分标签有错误)。你可以对模型进行编程,以使用简单的技术或标注功能(如模式识别)从收集的数据集中学习。然后,通过调整特征和超参数获得更理想的权重,直到模型达到所需的性能。可根据需要纳入规模较小的监督数据集以完成模型的训练。 弱监督学习是一种 编程训练数据 的方法,其目的是减少人工手动 标注数据 所需的时间。当有未标注的数据集需要管理时,或当应用场景明确允许使用弱标签源时,这种方法最适合分类任务。 到这里你大概知道利用主动学习如何能更有效的获取人工智能数据了,如何大量的标记数据集。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

主动学习与弱监督学习 的相关文章

随机推荐

  • go-zero 开发入门-加法客服端示例

    定义 RPC 接口文件 接口文件 add proto 的内容如下 syntax proto3 package add 当 protoc gen go 版本大于 1 4 0 时需加上 go package 否则编译报错 unable to d
  • 智能配音在线怎么弄?教你配音好方法

    想象一下 你有一个精彩的故事 需要给它进行配音 让故事更加生动立体 现在 有许多文字配音App可以帮助你实现这个愿望 无需专业录音设备 只需一款文字配音App 就能轻松实现文字转语音 为故事增添声音 接下来 就为你带来文字配音app推荐免费
  • 自动机器学习是什么?概念及应用

    自动机器学习 Auto Machine Learning 的应用和方法 随着众多企业在大量场景中开始采用机器学习 前后期处理和优化的数据量及规模指数级增长 企业很难雇用充足的人手来完成与高级机器学习模型相关的所有工作 因此机器学习自动化工具
  • 2024备战春招Java面试八股文合集

    Java就业大环境仍然根基稳定 市场上有很多机会 技术好的人前景就好 就看你有多大本事了 小编得到了一份很不错的资源 建议大家可以认真地来看看以下的资料 来提升一下自己的核心竞争力 在面试中轻松应对面试官拿下offer 本文分享 Java后
  • 2023 Java 面试题精选40道,包含答案

    Java中什么是重载 什么是覆盖 它们有什么区别 重载是指在同一个类中 方法名相同但参数类型 个数或顺序不同的情况下 编译器会根据参数列表的不同自动调用不同的方法 覆盖是指子类重写父类的同名方法 使得子类在调用该方法时执行子类的实现而不是父
  • 2024java面试看完这篇笔记薪资和offer稳了!

    新的一年抓住机会 不管跳槽涨薪 还是学习提升 这篇笔记你都不应该错过 为了帮大家节约时间 整理了这篇 Java面试 核心知识点整理 以及 金三银四高频面试合集 希望大家在新的一年都能拿到理想的薪资和offer 内容涵盖 计算机基础 Java
  • Java面试题及答案整理( 2023年12月最新版,持续更新)

    秋招金九银十快到了 发现网上很多Java面试题都没有答案 所以花了很长时间搜集整理出来了这套Java面试题大全 这套互联网 Java 工程师面试题包括了 MyBatis ZK Dubbo EL Redis MySQL 并发编程 Java面试
  • 面试官:什么是JWT?为什么要用JWT?

    目前传统的后台管理系统 以及不使用第三方登录的系统 使用 JWT 技术的还是挺多的 因此在面试中被问到的频率也比较高 所以今天我们就来看一下 什么是 JWT 为什么要用 JWT 1 什么是 JWT JWT JSON Web Token 是一
  • 浅析特征增强&个性化在CTR预估中的经典方法和效果对比

    在CTR预估中 主流都采用特征embedding MLP的方式 其中特征非常关键 然而对于相同的特征 在不同的样本中 表征是相同的 这种方式输入到下游模型 会限制模型的表达能力 为了解决这个问题 CTR预估领域提出了一系列相关工作 被称为特
  • 总有人说鸿蒙是安卓套壳?鸿蒙5.0之后彻底摆脱安卓

    鸿蒙系统的操作逻辑与安卓基本上差不多 这和安卓系统没啥区别 是不是就是安卓系统套了一个壳啊 为什么到今天还是有不少人在争论它到底是不是安卓套壳 这与鸿蒙早期 完全自主研发 的 过激 宣传不无关系 其次就是鸿蒙生态环境上的不足 确实 华为一开
  • 鸿蒙系统的崛起对程序员来说是机遇、还是挑战呢?

    前言 最近 一个话题在程序员圈子里激起了热烈讨论 那就是鸿蒙系统的崛起是否会影响程序员的就业和发展 我该转去学鸿蒙开发吗 鸿蒙前景如何 值不值得投入时间研究 对此 程序员们表达了各种疑虑和困惑 的确 一个全新的操作系统的出现确实让人眼花缭乱
  • go-zero 开发之安装 etcd

    本文只涉及 Linux 上的安装 二进制安装 下载二进制安装包 ETCD VER v3 4 28 ETCD VER v3 5 10 DOWNLOAD URL https github com etcd io etcd releases do
  • Quartz定时任务运行时,能够否对某个任务重新调度呢?

    背景 quartz 是一个功能丰富 开源 分布式的任务调用框架 我参与的很多项目都用它来实现定时调度功能 关于定时任务 有一个常见的需求是 由 Web 应用来控制定时任务的启动 停止 调度周期等 本文探讨的是 对于当前正在 调度的 耗时较长
  • go-zero开发入门之网关往rpc服务传递数据2

    go zero 的网关服务实际是个 go zero 的 API 服务 也就是一个 http 服务 或者说 rest 服务 http 转 grpc 使用了开源的 grpcurl 库 当网关需要往 rpc 服务传递额外的数据 比如鉴权数据的时候
  • 一呼百应!腾讯、阿里等全都支持鸿蒙了,安卓该担心了

    前言 众所周知 目前华为鸿蒙系统 已经是全球第三大智能手机系统 仅次于安卓 iOS 不过大家也都清楚 这个第三 实际上还是有水份的 因为鸿蒙其实并没有自己的生态 靠的是兼容安卓生态 真正的纯血鸿蒙APP 仅几十个 如果靠着这几十个APP 完
  • 短视频制作:从构思到发布的全方位指南

    在当今数字化时代 短视频已成为备受欢迎的媒体形式 凭借其简洁有趣的内容 短视频成功吸引了大量观众的关注 然而 制作一部引人入胜的短视频并非易事 本文将为你提供从目标设定到平台发布的全面指导 帮助你制作出令人难以忘怀的短视频 第一步 明确目标
  • 有哪些PDF转图片工具好用?PDF转图片免费软件推荐

    在一个阳光明媚的下午 你正在翻阅着一份重要的PDF文件 想要快速将其中的内容以图片形式分享给朋友 然而 复制粘贴不仅繁琐 还会失去原本的排版和格式 那么 如何将PDF文件转换成图片呢 今天就来介绍两款可以实现这一功能的免费软件 如果你也想知
  • 你知道ai写作工具哪个好吗?教你用AI写年终总结

    又是一年的十二月到了 每年到这个时候 朋友圈都总会出现一首常驻歌曲 十二月的奇迹 身为打工人的大家应该都希望 在忙碌了一年的最后一个月被奇迹眷顾吧 不过俗话说得好 靠人不如靠己 与其把自己交给命运的奇迹 那不如自己也努力争取一下 在老板面前
  • 鸿蒙开发入门:快速修复命令行调试开发指导

    快速修复命令行调试开发指导 当前阶段 HarmonyOS为开发者提供了命令行的调试开发工具可供使用 比如 包名为com ohos quickfix的示例应用 版本号为1000000 该应用的当前版本运行中有某问题需要修复 此时 开发者可参考
  • 主动学习与弱监督学习

    人工智能数据的获取没有想象中的那么简单 虽然我们早已身处大数据的浪潮下 很多公司在获取数据的大浪中翻滚却始终没有找到一个合适的获取数据的渠道 很多情况下 获取高质量的人工智能数据需要消耗大量的人力 时间 金钱 但是对于未来世界 以 人机协同