澳鹏干货解答!“关于机器学习的十大常见问题”

2023-12-21

探索机器学习的常见问题,了解机器学习和人工智能的基本概念、原理、发展趋势、用途、方法和所需的数据要求从而发掘潜在的商机。

什么是机器学习?

机器学习即教授机器如何学习的过程,为机器提供指导,帮助它们自己开发逻辑,访问您希望它们访问的数据。机器学习的成果就是某种形式的人工智能(AI)。 通俗来讲,机器学习就是不断输入基础资料、训练数据,以帮助其撷取特征,建立模型,得到答案的过程。

“尽管它的名字里有‘人工’二字,但这项技术并没有任何‘人工’之处,它是人类创造的技术,旨在表现得像人类一样并影响人类。所以,若我们希望它在将来发挥积极作用,则必须以人为本。”

  • 李飞飞谈“以人为本的AI”,《纽约时报》

机器学习工作的原理是什么?

计算机遵循规则。这些规则也称为算法。计算机在首次开始学习时会获得一组初始数据以进行探索。这些数据被称为训练数据。

计算机开始识别模式,并根据算法和训练数据做出决定。 根据使用的机器学习的类型,还要给机器设定要达成的目标,当机器做出正确的决定或朝着最终目标迈出积极的一步时,就会予以嘉奖。 当机器建立这种理解或“学习”时,其通过一系列步骤将新的输入转换为输出,这些输出可能包括全新的数据集、标记的数据、决定乃至行动。

理念是,机器学习到的知识足以在无任何人工干预的情况下进行操作。通过这种方式,机器开始发展并展示我们所谓的人工智能。机器学习是创建人工智能的一种主要方法。

人工智能的其他示例包括机器人、语音识别和自然语言生成,所有这些均需某些机器学习的元素。实现机器学习的原因和方法有很多。机器学习的算法以及训练数据的类型和来源也多种多样。

机器学习飞速发展的原因?

近年来,有三件事促成人们对机器学习的广泛关注。

  1. 各类数据的增长
  2. 存储成本的下降
  3. 计算能力的大幅提升

与任何事物一样,有证据表明还有其他促成因素和商业驱动因素,但在为加速机器学习应用以及人工智能创新应用铺平道路方面,上述三项进步显然占据着主导地位。

机器学习的商业价值?

无论是国营企业或是私企均在投资机器学习,因为机器学习可在以下方面提升其能力:

  • 速度 . 更快地获得答案并执行复杂的计算
  • 能力 ,处理比以往更多的数据,进行更复杂的分析。
  • 智能 ,通过挖掘现实世界以前无法解读的数据揭示新的洞察。
  • 效率 ,以更少的人力完成更多的分析

无论来自哪个行业,您都有可能找到可靠的机器学习用例,并能够通过预期的收入回报和利润数据证明投资机器学习的合理性。

事实证明,机器学习能减少甚至消除人工数据录入、检测垃圾邮件、打击欺诈和推荐产品。 机器学习可用来预测何时需要对设备和基础设施进行维护,它能前所未有地为您提供更多关于客户的洞察,提高客户的满意度。

如果您尚未投资机器学习,那可能您要思考了:为什么还不投资呢?

机器学习的用途?

机器学习的用例广泛多样,并且仍在探索中,我们将重点介绍机器学习在五个常见领域的应用。

零售和电子商务

人工智能和机器学习正被用于提高转化率、改善客户体验、提供个性化服务等方面。

  • 搜索相关性: 在线购物者不奢求向销售人员询问在哪里可以搜索到他/她想找的货物。现在 搜索引擎 当仁不让。机器学习能解读搜索查询,评估用户意图,并使用这些信息训练搜索算法,让搜索结果更加相关,从而提高购买转化率。

  • 个性化: 根据购物者以往的行为向他们提供建议或搜索结果,将帮助提高用户粘性和留存率。

  • 改善客户服务: 聊天机器人 充当虚拟购物助手。像员工一样,聊天机器人也需要接受培训,不仅要了解您销售的产品,而且还要了解人们在您的网站上用于许多产品的术语。

科技

搜索引擎和其他领先的科技公司利用机器学习进行AI的研发,以提供创新产品,改善用户体验。

  • 搜索相关性: 搜索引擎算法利用机器学习提高用户粘性。通过解释查询和评估用户意图,搜索结果将变得更加相关,从而提高用户的满意度。

  • 个性化: 分析数据活动和偏好可帮助搜索引擎和社交媒体推送个性化内容,提升在线用户体验。

  • 自然语言处理(NLP): 例如,NLP可以分析语言模式,理解可能使用口语或社交媒体上的其他自然模式的文本。这种技术可用于跟踪客户情绪并制定参与策略。

  • 金融服务: 金融服务业领导者利用机器学习和人工智能改善客户获取和维系,并提升客户整体体验。

  • 风险管理: 反洗钱(AML)、了解客户(KYC)和欺诈识别计划需要复杂的工具发现潜在威胁。仅仅依靠人力发现财务记录中的异常模式不仅费时,而且代价高昂。机器学习和人工智能使金融机构能够快速筛选数据并发现异常情况,防止非法活动,为企业挽回可能的损失。

  • 创收: 如今,金融机构纷纷利用机器学习算法来制定投资策略,从而解放金融顾问,让其能够更多地与客户互动。

  • 提升客户体验: 如今,由于按需客户服务备受人们的期待,聊天机器人的作用也就至关重要。聊天机器人通过实时反馈和流畅的体验让客户满意。

汽车

用自动驾驶汽车的训练数据加速机器学习,用更精确的现场测试改善语音识别系统、车内导航和用户体验。

  • 自动驾驶汽车: 虽然自动驾驶汽车极其复杂,但其神经网络却由机器学习支持。自动驾驶汽车向前行驶时,会处理大量的视觉数据,就像驾驶员观察车窗外的情况一样。汽车需要为大量图像数据赋予意义,例如识别一棵树或是行人,然后将这些信息反馈至汽车AI系统以教予其。
  • 语音识别: 传统的仪表盘和移动设备需要驾驶员用手操作,还会让驾驶员的视线离开路面。语音界面却无需如此。联网汽车需要访问大规模的语音数据收集来训练语音界面,为世界各地的消费者提供一流的用户体验。

  • 预测行为: 语音识别和摄像头的进步将帮助追踪驾驶员的情绪,这是人机界面的重要一步,让汽车能够识别说话者的情绪及其语言,这样,当用户感到沮丧时,汽车就能知道并做出相应的反应。

政府

通过安全数据服务改善应急响应、防御计划和执法。

  • 防御: 通过使用社交媒体监控、计算机视觉和数据标注,政府机构现在能够提取信息帮助监视恐怖分子、监控国家安全威胁等等。

  • 国家应急响应: 自然灾害、协同袭击等紧急情况可能毫无预兆地发生。在民众生命危在旦夕之时,立即作出响应并进行协调至关重要。通过翻译、语音识别和文本数据收集,世界各地的应急响应人员有效地使用机器与陷于危险境地中的人们进行交流。

  • 执法: 安全转录允许执法部门完成多项目标,包括从随身携带的视频中捕获文件、官方记录保存和档案记录解决方案。

医疗

AI和机器学习在医疗行业中令人兴奋的应用正在改变病患照顾的现状。

  • 预测分析: 评估趋势,预测疫情,预测患者需求。

  • 聊天机器人和虚拟医疗: 更快更好地提供客户服务。

  • 保险业的发展: 利用机器学习建立基于各种数据点的更可靠承保模型。

三大机器学习方法?

“大多数人类和动物的学习都是无监督学习。如果将智能比作一块蛋糕,那么无监督学习就是这块蛋糕,监督学习就是蛋糕上的糖霜,而强化学习就是蛋糕上的樱桃。我们知道如何做糖霜和樱桃,但却不知道如何做蛋糕。我们需要先解决无监督学习问题,然后再思考真正的人工智能。”

  • Facebook AI研究主管杨立昆

监督式学习

  • 监督式学习算法旨在根据示例或训练数据确定预测模型: 这些数据集包含输入变量和匹配的正确输出变量。这种算法的任务是分析数据,并生成一个函数,以准确地将输入映射到相应的输出。经过训练,这种算法能继续预测任何给定的新数据的结果。
  • 分类: 分类最容易理解。评估数据,确定其属于哪个类别。举例说,某个机器学习模型要求机器确定一张图片是否为一匹马。这是个简单的是/否响应,是个二元分类示例。在提供足够多的马的图片和非马的图片的训练数据之后,机器就能学习辨别马的特征,然后独立观察图片,并告诉您图片是否为马。

  • 回归: 不是分离数据和分配类别,而是要求机器根据从初始训练数据中得到的响应预测一个响应或输出。举个简单的例子,如果初始输入3和5的目标是8,学习的逻辑就是将两个输入相加。最终,该模型会使用回归分析预测输入4和6的目标为10。监督式学习属于任务导向型;也即“为我找到XYZ目标。”

半监督式学习

半监督式学习是一种混合模型。 使用半监督式深度学习的算法是在标记数据和未标记数据的组合上训练的。 这种方法可能更为实用,因为让数据科学家或数据工程师标记数据可能代价高昂。 其他时候,之所以采用这种方法,是因为数据规模太大,标记数据的任务太过艰巨。团队采用混合方法的另一个原因是,要避免在数据标记期间可能出现任何类型的人为偏见。

“在无数据之前就建立理论是最大的错误。不知不觉中,人们开始扭曲事实以附会理论,而不是让理论符合事实。”夏洛克·福尔摩斯

通过半监督式学习,您的模型可能会受益,并可以通过纳入一些目标或已标记数据来加快工作,为理解未标记数据所做的工作还可能会揭示见解,为您提供尚未发现的输出。 这种方法在许多情况下都是双赢的,也是常用方法。

强化学习

强化学习是最抽象的方法,它完全基于机器,通常被称为“学习主体”,通过反复试错学习。 在给定的环境中,机器根据它所获得奖励的定义决定采取哪些行动提升性能。这种试错活动叫做探索。获自理解哪些行为能获得奖励的知识叫做利用。

学习主体在先进的机器学习算法的推动下,通过对环境的探索和利用,最终获得足够的知识,开始展示近乎人类水平的人工智能。

机器人就是强化学习的最佳示例。 机器人在工厂中的使用很大程度上取决于它们使用强化学习适应环境的能力,它们不断降低出错率,完成类似人类的任务和行为。

机器学习需要什么样的数据?

“机器学习的好坏取决于用来训练它的数据。”

  • Daniel Tunkelang,曾在Endeca、Google和LinkedIn领导机器学习项目机器学习项目需要有足够多的正确数据来支持,这点非常重要,关于它的文章不胜枚举。

正如前文引语中的Tunkelang在《关于机器学习您必须知道的10件事情》中所解释,“少了复杂的算法还能进行机器学习,但少了好的数据就不行。”

那么需要怎样的数据呢?这要视情况而定。

结构化数据与非结构化数据

  • 结构化数据: 结构化数据有逻辑组织,便于计算机读取和理解。它既可以是从ERP或CRM系统中提取的机器生成的交易数据,也可以是来自传感器的关于动作的简单时间戳数据,还可以是电子表格中人工生成的数据输入。这种类型的数据最常用于监督式学习中,即使数量庞大,也能非常快地处理。

  • 非结构化数据: 行业领导者认为,世界上超过80%的数据都是非结构化数据,而且数量呈指数级增长。非结构化数据无所不在。人类生成的非结构化数据包括微软Word文件和其他文本文件、演示文稿、视频、图像、音频、社交媒体帖子等等。机器生成的非结构化数据包括监控录像、卫星图像和科学数据等等。监督式学习和强化学习都是不可思议的工具,可用于获取见解并利用非结构化数据完成更多任务。

机器学习需要多少数据?

简而言之:很多。即使是世界上最好的算法,也很难在数据不足的情况下得出正确的结果。

“AI技术需要对模型进行再训练,以匹配可能不断变化的条件,因此训练数据必须经常更新。在三分之一的情况下,模型需要至少每月更新一次,在近四分之一的情况下,模型需要每天更新。”

  • 麦肯锡全球研究所 ,AI前沿笔记。

原因就是数量越大,准确度就越高。

这点有很多原因。其中一个原因是,大多数机器学习模型都试图让计算机理解千变万化的数据集。

例如,对于语音识别应用,性别、年龄、方言等方面的差异,导致语音千变万化。一些专家称,一个模型至少需要10,000小时的音频才能提供中等精度的输出。另一些则称,虽然所需的数据总量取决于模型或问题的复杂性,但大多数模型的最低要求是100,000个实例。

数据“质量”非常重要?

是的!其重要性甚至超过数据的数量。

“更多的数据优于聪明的算法,但质胜于量。”

  • Peter Norvig , 计算机科学家,谷歌和行业领袖

致使数据“不佳”的因素可能与人有关,标注不准确,有误导性,或者不完整。在这些情况下,需要进行一些数据清理或准备工作。

如果模型的任务是对数据进行分类,那么就必须首先正确标记训练数据。有时格式就是个问题。例如,在处理图像数据时,您可能需要调整图像的大小,以便让模型分析相同长度的向量。

您使用的任何数据都需要进行某些清洗。专家指出,需要做的工作不只是数据的提取、转换和加载(ETL)。在任何机器学习项目中,即便上述工作已完成,要使数据符合数据科学要求,所需的清洗工作平均通常还要占 总工作量的80%。

机器学习常见问题解答补充资源

随着用例的不断增加,您会希望与时俱进,以各种方式改进模型并为客户创建更好的产品。

  • 麦肯锡全球研究院 AI 前沿笔记

  • AI与机器学习全景报告
  • 机器学习需要多少数据?

机器学习术语表

  • 人工智能(AI): 机器独立运行以完成通常需要人类智能的任务和活动的能力。

  • 聊天机器人: 聊天机器人是一种虚拟助手,它可以模拟典型的对话线程与人类进行交流。通常通过互联网交付,嵌入到网站或手机应用中。

  • 数据分类: 数据可以由人或机器分类,它是将特定类别分配给具有相同特征的数据的过程,例如日期、来源、类型等。其目的是使数据更易于理解、分析或使用。

  • 数据标记: 数据标记由人执行,它是添加标签的过程,为机器提供目标,用于监督式机器学习模型。

  • 机器学习: 机器学习即教授机器如何学习的过程,为机器提供指导,帮助它们自己开发逻辑,并访问您希望它们探索的数据。

  • 强化学习: 机器或学习主体得到一个数据集、一套关于如何探索数据的规则,并清楚理解其表现何时会得到奖励。在探索数据及其“环境”时,机器通过反复试错,学习获得奖励并实现其目标的最高效和有效的方法。

  • 结构化数据: 世界上只有20%的数据被认为是“结构化的”。结构化数据以一种便于计算机分析和解释的方式予以组织。它通常出现在关系数据库、电子表格和企业系统(如CRM、ERP)和金融应用中。

  • 监督式学习: 监督式学习模型是当今使用的机器学习中最简单和最准确的实例。在监督式学习中,将为机器提供结构化的数据集,其中包括输入和已被标记为“目标”的数据或期望输出的数据。机器从这些例子中学习将输入转换为输出的逻辑,最终机器仅需输入即可独立创建目标输出。

  • 训练数据: 训练数据是机器学习项目中用于开始教授机器有关该项目的逻辑、行为或其他智能形式的数据。模型在使用足够的数据后,就会得到测试数据,在项目宣告成功之前,它会使用验证数据运行。

  • 非结构化数据: 世界上80%的数据的组织方式都不利于解释或分析。如文本和聊天信息、录制的音频、视频和社交媒体帖子。

  • 无监督学习: 机器得到的数据尚未被标记。机器和模型的任务是寻找数据之间的相关性、模式或关系,并将这些见解作为输出交付。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

澳鹏干货解答!“关于机器学习的十大常见问题” 的相关文章

随机推荐

  • WinSyncProviders.dll文件丢失导致程序无法启动问题

    其实很多用户玩单机游戏或者安装软件的时候就出现过这种问题 如果是新手第一时间会认为是软件或游戏出错了 其实并不是这样 其主要原因就是你电脑系统的该dll文件丢失了或没有安装一些系统软件平台所需要的动态链接库 这时你可以下载这个WinSync
  • 测试报告和结果分析 —— allure整合pytest生成测试报告

    一 生成HTML测试报告的三种方式 1 unittest和HTMLTestRunner整合 2 allure和pytest整合 3 Jenkins中安装allure插件 Jenkins安装插件出错 不能正常使用 二 allure整合pyte
  • F5创新产品赢得2023年众多全球知名奖项

    西雅图 2023年12月20日 全球多云应用安全和应用交付服务领导者F5 NASDAQ FFIV 日前宣布 公司在2023年斩获多项杰出荣誉 这些殊荣充分彰显了F5在潜心创新和追求卓越方面始终坚守的承诺 同时凸显了公司正在专注于利用更先进的
  • 浅谈小程序开源业务架构建设之路

    一 业务介绍 1 1 小程序开源整体介绍 百度从做智能小程序的第一天开始就打造真正开源开放的生态 我们的愿景是 定义移动时代最佳体验 建设智能小程序行业标准 打破孤岛 共建开源 开放 繁荣的小程序行业生态 百度智能小程序的生态玩家有三类 分
  • 华为OD机试真题-部门人力分配-2023年OD统一考试(C卷)

    题目描述 部门在进行需求开发时需要进行人力安排 当前部门需要完成N个需求 需求用requirements 表示 requirements i 表示第i个需求的工作量大小 单位 人月 这部分需求需要在M个月内完成开发 进行人力安排后每个月的人
  • std::string 转为 LPCTSTR类型

    在串口通讯中使用CreateFile 时 第一个参数类型为 LPCTSTR 通常使用的string类型需要进行转换 HANDLE CreateFile LPCTSTR lpFileName 指向文件名的指针 DWORD dwDesiredA
  • winrscmd.dll文件缺少导致程序无法运行问题

    其实很多用户玩单机游戏或者安装软件的时候就出现过这种问题 如果是新手第一时间会认为是软件或游戏出错了 其实并不是这样 其主要原因就是你电脑系统的该dll文件丢失了或没有安装一些系统软件平台所需要的动态链接库 这时你可以下载这个winrscm
  • 互操作性(Interoperability)如何影响着机器学习的发展?

    互操作性 Interoperability 也称为互用性 即两个系统之间有效沟通的能力 是机器学习未来发展中的关键因素 对于银行业 医疗和其他生活服务行业 我们期望那些用于信息交换的平台可以在我们需要时无缝沟通 我们每个人都有成千上万个数据
  • winsockhc.dll文件缺少导致程序无法运行问题

    其实很多用户玩单机游戏或者安装软件的时候就出现过这种问题 如果是新手第一时间会认为是软件或游戏出错了 其实并不是这样 其主要原因就是你电脑系统的该dll文件丢失了或没有安装一些系统软件平台所需要的动态链接库 这时你可以下载这个winsock
  • SpringBoot代码混淆与反混淆加密工具详解

    目录 反编译 混淆 正文 一共就两步 无需源码 直接对ipa文件进行混淆加密 打开要处理的IPA文件 设置签名使用的证书和描述文件 开始ios ipa重签名 简单就是把代码跑一哈 然后我们的代码 java文件 就被编译成了 class 文件
  • 38条Web测试经验分享

    2024软件测试面试刷题 这个小程序 永久刷题 靠它快速找到工作了 刷题APP的天花板 CSDN博客 文章浏览阅读1 9k次 点赞85次 收藏11次 你知不知道有这么一个软件测试面试的刷题小程序 里面包含了面试常问的软件测试基础题 web自
  • 详解数据科学自动化与机器学习自动化

    过去十年里 人工智能 AI 构建自动化发展迅速并取得了多项成就 在关于AI未来的讨论中 您可能会经常听到人们交替使用数据科学自动化与机器学习自动化这两个术语 事实上 这些术语有着不同的定义 如今的自动化机器学习 即 AutoML 特指模型构
  • winrssrv.dll文件缺少导致程序无法启动问题

    其实很多用户玩单机游戏或者安装软件的时候就出现过这种问题 如果是新手第一时间会认为是软件或游戏出错了 其实并不是这样 其主要原因就是你电脑系统的该dll文件丢失了或没有安装一些系统软件平台所需要的动态链接库 这时你可以下载这个winrssr
  • RPA机器人助力义务教育招生随机派位系统

    作为一名教育行业从业者 我深切地感受到招生工作中的繁琐和低效 每年招生季 我们需要处理大量的报名信息 进行筛选和录取工作 然而 由于人力资源有限 往往会出现疏漏和错误 给招生工作带来了不小的困扰 幸运的是 我们发现了八爪鱼RPA这一强大的工
  • 浏览器原理篇—渲染原理

    目录导航 为什么要学习浏览器的渲染原理 浏览器的渲染流程 浏览器的渲染阻塞 浏览器的渲染优化 为什么要学习浏览器的渲染原理 知识深度挖掘 帮助更好地理解前端性能优化 从而对实现效果进行针对性优化 如 回流和重绘 渲染机制 帮助更好地理解浏览
  • 环境监测升级:钡铼技术的水利环保工业路由器

    随着环保意识的提高和科技的发展 环境监测已经成为我们日常生活的重要组成部分 为了满足日益增长的环境监测需求 钡铼技术推出了一款水利环保工业路由器 该路由器具有出色的性能和功能 为环境监测的升级提供了有力支持 这款工业路由器采用了先进的钡铼技
  • winshfhc.dll文件缺少导致程序无法运行问题

    其实很多用户玩单机游戏或者安装软件的时候就出现过这种问题 如果是新手第一时间会认为是软件或游戏出错了 其实并不是这样 其主要原因就是你电脑系统的该dll文件丢失了或没有安装一些系统软件平台所需要的动态链接库 这时你可以下载这个winshfh
  • 前后端分离下的鸿鹄电子招投标系统:使用Spring Boot、Mybatis、Redis和Layui实现源码与立项流程

    在数字化时代 采购管理也正经历着前所未有的变革 全过程数字化采购管理成为了企业追求高效 透明和规范的关键 该系统通过Spring Cloud Spring Boot2 Mybatis等先进技术 打造了从供应商管理到采购招投标 采购合同 采购
  • 测试开发 | 智能农业引领农业革新,人工智能携手农业改写未来

    互联网40的包值得去吗 回暖分析 战绩结算 on 赛文X 软件技术就业单位分析 山东大厂浪潮集团 国家电网研究院VS杭州华为 华为跟银行怎么选 别焦虑 计算机的同学就业率也很低 华为 薪资爆料 字节电商运营实习面经分享 京东 Java OC
  • 澳鹏干货解答!“关于机器学习的十大常见问题”

    探索机器学习的常见问题 了解机器学习和人工智能的基本概念 原理 发展趋势 用途 方法和所需的数据要求从而发掘潜在的商机 什么是机器学习 机器学习即教授机器如何学习的过程 为机器提供指导 帮助它们自己开发逻辑 访问您希望它们访问的数据 机器学