【机器学习实战】1、机器学习主要任务

2023-11-09

1.1 何谓机器学习

把无序的数据转换为有用的信息

1.2 机器学习重要性

机器学习的重要性不言而喻,它可以帮助我们解决生活当中的很多问题,比如预测鸟的种类,有时我们不可能在发现一种我们不知道的鸟的种类时,去请教鸟类的专家,这个时候,如果我们根据目前已有的关于鸟种类特征的数据,我们就可以训练得到相关预测鸟类别的模型,当满足精度要求后,我们就可以通过输入相关的特征,从而预测出鸟的类别。因为,我们只是想获取鸟类的相关信息,而不需要大费周章的去预约一个鸟类相关的专家

1.3 机器学习主要任务

  • 分类是机器学习的一项主要任务,主要是将实例数据划分到合适的分类中。

  • 机器学习的另外一项任务是回归,主要是预测数值型的数据,比如通过数据值拟合曲线等。

分类和回归属于监督学习,这类算法必须知道预测什么,即目标变量的分类信息

与监督学习相对应的是无监督学习,此时数据没有类别信息,也不会给定目标值。在无监督学习中,将数据集合分成由类似的对象组成的多个类的过程称为"聚类";将寻找描述数据统计值的过程称之为密度估计。此外,无监督学习可以减少数据特征的维度,以便我们可以使用二维或三维图形更加直观的展示数据信息。表1-2列出了机器学习的主要任务,以及解决相应问题的算法。
在这里插入图片描述

1.4 如何选择合适的算法

使用机器学习算法的目的,想要完成什么任务,比如是预测明天下雨的概率还是对投票者按照兴趣分组;
想要选择合适的算法,必须考虑以下两个问题:

  • 首先考虑机器学习算法的目的。如果想要预测目标变量的值,则可以选择监督学习算法,否则可以选择无监督学习。确定选择监督学习算法后,需要进一步明确目标变量的类型,如果目标变量是离散型,则可以选择分类算法;如果是连续型,则需要选择回归算法。

  • 其次应该考虑实际的数据问题,应该充分了解数据,对实际数据了解的越充分,越容易创建符合实际需要的应用程序。

  • 主要应该了解数据的以下特征:
    1)特征值是离散型变量还是连续型变量
    2)特征值中是否有缺失的值,何种原因造成
    3)数据中是否有异常值
    4)某些特征发生的频率如何

  • 通过上面对数据的充分了解,可以帮助我们缩小算法的选择范围,一般并不存在最好的算法和可以给出最好效果的算法,一般发现最好算法的关键环节是反复试错的迭代过程

1.5 开发机器学习应用程序的步骤

  1. 收集数据:我们可以通过很多方法手机数据,比如制作网络爬虫从网站抽取数据,也可以使用公开的数据源

  2. 准备输入数据:得到数据之后,还必须确保数据格式符合要求,使用标准的数据格式可以融合算法和数据源,方便匹配操作;此外,还要为机器学习算法准备特定的数据格式,一般某些算法要求目标变量和特征值是字符串变量,而另外一些算法则可能要求是整数类型。

  3. 分析输入数据:主要是人工分析得到的数据,确保数据中没有垃圾数据。

  4. 训练算法:将前两步得到的格式化数据输入到算法,从中抽取信息

  5. 测试算法,为了评估算法,必须测试算法工作的效果。对于监督学习,必须已知用于评估算法的目标变量值;对于无监督学习,也必须用其他评测手段来检验算法的成功率。如果不满意算法的输出结果,不改变算法的前提下,问题常常与数据的收集和准备有关

  6. 使用算法:将机器学习算法转化为应用程序,执行实际任务,以检验上述步骤是否可以在实际环境中正常运行。

总之,对待实际的问题时,我们要充分了解当前数据的信息,充分利用数据的信息,借此选择出相对较好的机器学习算法,来帮助我们更好的解决实际的问题

1.6 python语言的优势

  • python语法清晰
  • 易于操作纯文本文件
  • 使用广泛,存在大量的开发文档
1.6.1 python语言特色
  • MATLAB:虽然有许多内嵌的特征可以轻松构造机器学习应用,且运算速度也很快,但是其软件费用太高。
  • Java和C:程序设计语言也有矩阵数学库,但是代码量大,为了实现一个简单的工作,需要花费大量时间编写很多无用且冗长的代码。
  • python:清晰简练,易于理解
1.6.2 python语言缺点
  • 唯一的不足是性能问题,python程序运行的效率不如Java和C代码高,但是可以利用python调用C代码,便可以同时利用C和python的优点,逐步开发机器学习应用程序。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【机器学习实战】1、机器学习主要任务 的相关文章

随机推荐

  • git使用X篇_2_Git全套教程IDEA版(git、GitHub、Gitee码云、搭建公司内部GitLab、与IDEA集成等内容)

    本文是根据以下视频及网上总结进行更新后的介绍git使用的博文 包含了git GitHub Gitee码云 搭建公司内部GitLab 与IDEA集成等内容 笔记来源 尚硅谷 5h打通Git全套教程IDEA版 涵盖GitHub Gitee码云
  • 初识docker之如何运行一个容器

    手把手运行一个镜像 1 容器的特点2 启动容器的参数3 docker run d it name test p 900 8080 v opt usr local 78b258e36eed d 后台执行容器 it 保持stdin和为容器创建t
  • 一文搞懂Redis架构演化之路

    你好 我是 Kaito 这篇文章我想和你聊一聊 Redis 的架构演化之路 现如今 Redis 变得越来越流行 几乎在很多项目中都要被用到 不知道你在使用 Redis 时 有没有思考过 Redis 到底是如何稳定 高性能地提供服务的 我使用
  • Java Stream流处理Map 详细用法

    文章目录 Java Stream流处理Map 详细用法 实体类 Stream方法 Java Stream流处理Map 详细用法 实体类 package com jzj model 当前描述 author jiazijie since 202
  • Code First Migrations更新数据库结构的具体步骤

    Code First Migrations更新数据库结构的具体步骤 作者 寒羽枫 cityhunter172 http blog csdn net cityhunter172 article details 8062420 我对 CodeF
  • Kaldi声学模型训练

    我的书 淘宝购买链接 当当购买链接 京东购买链接 支持标准的基于ML训练的模型 线性变换 如LDA HLDA MLLT STC 基于fMLLR MLLR的说话人自适应 支持混合系统 支持SGMMs 基于fMLLR的说话人识别 模型代码 可以
  • MAC 设计师必备的设计绘图软件 推荐与下载

    Mac设计师必备的设计绘图软件 为广大设计师推荐一些Mac上实用且强大的软件 使用好的软件 事半功倍 设计出精美的作品 Mac上优秀的设计类软件非常多 绝对不止这几款软件 看看以下内容 希望对你有帮助 如有更好的设计类软件大家也可以留言推荐
  • 放弃大厂高薪的程序员,涌进体制内

    本文转载自 InfoQ 作者 罗燕珊 我现在最庆幸的是 下班终于能看到太阳了 2020 年 8 月 20 日下午 5 点半 何双准备下班 他特地朝窗外拍了张照片并发在朋友圈 配图文案仅仅只有 太阳 92 年出生的何双原先是一名程序员 去年年
  • 数据统计(基于文件输入输出)

    输入一些整数 求出它们的最大值 最小值 平均值 保留三位小数 输入保证这些数都是不超过1000的整数 样例输入 2 8 3 5 1 7 3 6 样例输出 1 8 4 375 基于文件重定向 define LOCAL 作用 仅在本机使用重定向
  • 小程序报错:{“errMsg”:“navigateTo:fail can not navigateTo a tabbar page”}

    小程序报错 errMsg navigateTo fail can not navigateTo a tabbar page 错误显示 VM791 1 Error MiniProgramError errMsg navigateTo fail
  • 验证码报错 java.desktop/sun.awt.FontConfiguration.getVersion(FontConfiguration.java: 问题解决

    验证码报错 org springframework web util NestedServletException Handler dispatch failed nested exception is java lang Internal
  • 【C语言】选择排序

    一 算法描述 在一遍遍历中将最小的数排到前面 几次遍历后前面就是排号序的 经过n 1次遍历 二 选择排序代码 void select int a int n int i j min temp for i 0 i
  • 矩阵和向量的乘法顺序

    矩阵和向量的乘法顺序 似乎经常有人被这个问题转晕 向量有两种表达形式 行向量和列向量 对应的矩阵也有行矩阵和列矩阵 采用哪种形式和左右手系无关 行矩阵 三个轴向量为前三行 最后一行为位移变换 连乘时从左到右接合 左边的变换先应用 变换向量时
  • Ubuntu 18.02编译opencv

    https blog csdn net public669 article details 99044895 spm 1001 2014 3001 5506 https blog csdn net Mr robot strange arti
  • 利用STM32CubeMX软件生成USB_HOST读写U盘

    一 测试平台 MCU STM32F429IGT6 工具 STM32CubeMX软件 编译软件 MDK 二 配置步骤 1 打开STM32CubeMX软件 创建新的工程文件 点击ACCESS TO MCU SELECTOR选项 2 选择芯片型号
  • 1-4、Lua基本语法

    1 4 Lua基本语法 文章目录 1 4 Lua基本语法 1 赋值语句 2 局部变量与代码块 3 控制结构语句 if语句 while语句 for语句有两大类 Lua像C和PASCAL几乎支持所有的传统语句 赋值语句 控制结构语句 函数调用等
  • MFC之图标(标题)的动态使用15

    1 图标 标题 的动态使用 我们将实现左上角动态图标的显示 首先按照向导创建新的项目 由于我们的图标是属于框架 所以在框架类处理 1 首先在框架类定义图标数组用于存储图片 我这里有四张所以大小为4 private HICON m icon
  • 程序员35岁以后就没有出路了吗?听听京东10年测开的分析

    国内的互联网行业发展较快 所以造成了技术研发类员工工作强度比较大 同时技术的快速更新又需要员工不断的学习新的技术 因此淘汰率也比较高 超过35岁的基层研发类员工 往往因为家庭原因 身体原因 比较难以跟得上工作节奏 所以裁员往往优先考虑这类员
  • MCU接收串口字符型数据转换成数据型数据

    转自 http blog csdn net langaopeng article details 7672252 做MCU开发时 常常碰到串口接收的数据是字符型数据 是ASCII码 而我们需要解析的是数据型的 如 串口接收到的是 236 8
  • 【机器学习实战】1、机器学习主要任务

    文章目录 1 1 何谓机器学习 1 2 机器学习重要性 1 3 机器学习主要任务 1 4 如何选择合适的算法 1 5 开发机器学习应用程序的步骤 1 6 python语言的优势 1 6 1 python语言特色 1 6 2 python语言