AI之路(二)——关于统计学习(statistical learning)Part 1 概论

2023-11-06

从今日起,正式开启AI之路,在人工智能学习领域,无论机器学习还是深度学习,统计学习是入门的最好参考教材,是不可或缺的。因此,这漫漫求索之路,就从统计学习开始吧。
我所选择的是李航所著的统计学习(第二版),计划将我对本书的自学总结或心得,能及时地在此发布,希望能在业余时间里用一年甚至更短的时间内完成此书的学习。
Now,Let’s GO!

统计学习的特点

统计学习(statistical learning) 是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。统计学习也称为统计机器学习(statistical machine learning)。
统计学习的主要特点是:(1)统计学习以计算机及网络为平台,是建立在计算机及网络上的;(2)统计学习以数据为研究对象,是数据驱动的学科;(3)统计学习的目的是对数据进行预测与分析;(4)统计学习以方法为中心,统计学习方法构建模型并应用模型进行预测与 分析;(5)统计学习是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科,并且在发展中逐步形成独自的理论体系与方法论。
赫尔伯特·西蒙(Herbert A.Simon)曾对“学习”给出以下定义:“如果一个系统能够通过执行某个过程改进它的性能,这就是学习。”按照这一观点,统计学习就是计算机系统通过运用数据及统计方法提高系统性能的机器学习。现在,当人们提及机器学习时,往往是指机器学习。

统计学习的对象

统计学习研究的对象是数据(data)。它从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去。作为统计学习的对象,数据是多样的,包括存在于计算机及网络上的各种数字、文字、图像、视频、音频数据以及它们的组合。
统计学习关于数据的基本假设是
同类数据具有一定的统计规律性
,这是统计学习的前提。这里的同类数据是指具有某种共同性质的数据,例如英文文章、互联网网页、数据库中的数据等。由于他们具有统计规律性,所以可以用概率统计方法处理它们。比如,可以用随机变量描述数据中的特征,用概率分布描述数据的统计规律。在统计学习中,以变量或变量组表示数据。数据分为由连续变量和离散变量表示的类型。

统计学习的目的

统计学习用于对数据的预测与分析,特别是对未知新数据的预测与分析。对数据的预测可以使计算机更加智能化,或者说使计算机的某些性能得到提高;对数据的分析可以让人们获得新的知识,给人们带来新的发型。
对数据的预测与分析是通过构建概率统计模型实现的。统计学习总的目标就是考虑学习什么样的模型和如何学习模型,以使模型能对数据进行准确的预测与分析,同时也要考虑尽可能地提高学习效率。

统计学习的方法

统计及学习的方法是基于数据构建概率统计模型从而对数据进行预测与分析。统计学习由监督学习(supervised learning)、无监督学习(unsupervised learning)和强化学习(reinforcement learning)等组成。监督学习和无监督学习是最主要的统计学习。
统计学习方法可以概况如下:从给定的、有限的、用于学习的训练数据(training data)集合出发,假设数据是独立同分布产生的;并且假设要学习的模型属于某个函数的集合,称为假设空间(hypothesis space);应用某个评价准则(evaluation criterion),从假设空间中选取一个最优模型,使它对已知的训练数据及未知的测试数据(test data)在给定的评价准则下进行最优的预测;最优模型的选取由算法实现。这样,统计学习方法包括模型的假设空间、模型选择的准则以及模型学习的算法。称其为统计学习方法的三要素,简称为模型(model)、策略(strategy)和算法(algorithm)。

实现统计学习方法的步骤如下:
(1)得到一个有限的训练数据集合;
(2)确定包含所有可能的模型的假设空间,即学习模型的集合;
(3)确定模型选择的准则,即学习的策略;
(4)实现求解最优模型的算法,即学习的算法;
(5)通过学习方法选择模型;
(6)利用学习的最优模型对新数据进行预测或分析。

统计学习的研究

统计学习研究一般包括统计学习方法、统计学习理论及统计学习应用三个方面。统计学习方法的研究旨在开发新的学习方法;统计学习理论的研究在于探求统计学习方法的有效性与效率,以及统计学习的基本理论问题;统计学习应用的研究主要考虑将统计学习方法应用到实际问题中去,解决实际问题。

统计学习的重要性

近年来,统计学习已经被成功地应用到人工智能、模式识别、数据挖掘、自然语言处理、语音处理、计算视觉、信息检索、生物信息等许多计算机应用领域中,并且成为这些领域的核心技术。人们确信,统计学习将会在今后的科学发展和技术应用中发挥越来越大的作用。
统计学习学科在科学技术中的重要性主要体现在以下几个方面:
(1)统计学习是处理海量数据的有效方法。我们处于一个信息爆炸的时代,海量数据的处理与利用是人们必然的需求。现实中的数据不但规模大,而且常常具有不确定性,统计学习往往是处理这类数据最强有力的工具。
(2)统计学习是计算机智能化的有效手段。智能化是计算机发展的必然趋势,也是计算机技术研究与开发的主要目标。近几十年来,人工智能等领域的研究表明,利用统计学习模仿人类智能的方法,虽有一定的局限性,还是实现这一目标的最有效的手段。
(3)统计学习是计算机科学发展的一个重要组成部分。可以认为计算机科学由三维组成:系统、计算、信息。统计学习主要属于信息这一维度,并在其中起着核心作用。

生如夏花之绚烂,死如秋叶之静美

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

AI之路(二)——关于统计学习(statistical learning)Part 1 概论 的相关文章

随机推荐

  • 状态压缩技巧:动态规划的降维打击

    刷题认准labuladong 东哥带你手把手撕力扣 点击下方卡片即可搜索 我们号之前写过十几篇动态规划文章 可以说动态规划技巧对于算法效率的提升非常可观 一般来说都能把指数级和阶乘级时间复杂度的算法优化成 O N 2 堪称算法界的二向箔 把
  • 史上最全的maven pom.xml文件教程详解

    原文地址 http www zuidaima com share 1781583829978112 htm
  • 部署Prometheus

    1 解压prometheus压缩包 root node5 tar xf prometheus 2 38 0 linux amd64 tar gz C usr local 2 对压缩后的文件做软连接 root node5 ln sv usr
  • 人工智能技术的应用越来越广,极大促进了无人机产业的发展

    备受关注的第二十三届中国国际高新技术成果交易会 简称 高交会 于12月27日在深圳开幕 本届高交会分别在深圳会展中心 福田 和深圳国际会展中心 宝安 同期举办 吸引了众多优秀展商一展风采 本届高交会采用了 线上 线下 联动的方式 线下展览总
  • Shell脚本基础介绍

    shell基础简介 编写脚本通常使用某种基于解释器的编程语言 而shell脚本不过就是一些文件 我们能将一系列需要执行的命令写入其中 然后通过shell来执行这些脚本 进入Linux系统 Ubuntu 打开终端Terminal 表示普通用户
  • 【深度学习】- NLP系列文章之 1.文本表示以及mlp来处理分类问题

    系列文章目录 1 文本分类与词嵌入表示 mlp来处理分类问题 2 RNN LSTM GRU三种方式处理文本分类问题 3 评论情绪分类 还是得开个坑 最近搞论文 使用lstm做的ssd的cache prefetching 意味着我不能再划水了
  • JS实现一键回到顶部的功能(兼容所有浏览器,超级详细)

    我们在浏览网页的时候 大部分都有一个一键回到顶部的按钮 无论是pc端还是移动端 这个功能都很常见 我在一次面试的时候 也要求手写这个功能 首先我们新建一个空页面 把body的高度设置为3000px 这样做的目的是让浏览器出现滚动条 不然我们
  • 动态数组的实现

    public class MyArrayList
  • 栈与队列 数据结构 C语言

    目录 一 栈 1 类型定义 2 接口函数 3 功能实现 初始化栈 进栈 删除栈顶 出栈 销毁栈 其他功能 一 栈 先进后出 后进先出 1 类型定义 typedef int STDataType typedef struct Stack ST
  • 如何用Python进行大数据挖掘和分析?快速入门路径图!

    大数据无处不在 在时下这个年代 不管你喜欢与否 在运营一个成功的商业的过程中都有可能会遇到它 什么是 大数据 大数据就像它看起来那样 有大量的数据 单独而言 你能从单一的数据获取的洞见穷其有限 但是结合复杂数学模型以及强大计算能力的TB级数
  • main函数参数int main(int argc, char *argv[])解析

    main函数可以不带参数 也可以带参数 这个参数可以认为是 main函数的形式参数 C语言规定main函数的参数只能有两个 习惯上这两个参数写为argc和argv 所以C99标准中规定只有以下两种定义方式是正确的 int main void
  • Redis使用Zset做一个排行榜,当权值一样时,怎么按时间排序

    前言 zset是根据score进行排序 当score相同时 默认按照member的字典序进行排序 案例说明 127 0 0 1 6379 gt zadd t1 2 c 1 b 2 a integer 3 127 0 0 1 6379 gt
  • 关于pytorch的backward()

    pytorch中的loss backward 是梯度反传 计算每一个变量的grad 只是之前在纠结GAN的两个loss什么时候反传 参数什么时候更新的时候 观察到backward 后 内存的存储量下降 原来反传完毕之后 就把中间计算变量都释
  • VS code配置C语言,详细教程,初学者专用(附需要的插件)(win系统)

    vscode配置C语言首先下载vscode 这里我就不多说了 我们自己在使用vscode配置c语言后发现c语言根本就不能运行 是因为我们缺少一个配置c语言的插件需要我们自己下载 因为vscode不提供 这里是插件的链接 需要大家自己去提取
  • Windows10自带远程桌面连接Linux--CentOS的操作系统

    加粗样式看到网上好多的都是关于ubuntu类型的连接 或者就是自己在下个软件去连接Linux 而并非是用自带的 本文将为大家自动rdp去连接 1 默认库不包含xrdp 需要安装epel库 yum install epel release y
  • C++ 子类继承父类纯虚函数、虚函数和普通函数的区别

    C 三大特性 封装 继承 多态 今天给大家好好说说继承的奥妙 1 虚函数 C 的虚函数主要作用是 运行时多态 父类中提供虚函数的实现 为子类提供默认的函数实现 子类可以重写父类的虚函数实现子类的特殊化 2 纯虚函数 C 中包含纯虚函数的类
  • Class Not Found-Maven工程单元测试类报错

    很显然 Class Not Found已经说明了相关的类class文明招不到 这一点可以通过打开target目录的classes文件夹得到印证 该问题原因在在于Maven工程不会自动的为我们给java类进行编译 所以就导致了有时候我们jav
  • rocketMQ记录

    https segmentfault com a 1190000017841402 停止命令 sh bin mqshutdown namesrv sh bin mqshutdown broker
  • excel 计算 分位值

    XLFN QUARTILE EXC Result 1 G G 2 和 PERCENTILE 都可以用来计算一组数据的分位数 但是它们的计算方式略有不同 XLFN QUARTILE EXC Result 1 G G 2 是 Excel 中的一
  • AI之路(二)——关于统计学习(statistical learning)Part 1 概论

    从今日起 正式开启AI之路 在人工智能学习领域 无论机器学习还是深度学习 统计学习是入门的最好参考教材 是不可或缺的 因此 这漫漫求索之路 就从统计学习开始吧 我所选择的是李航所著的统计学习 第二版 计划将我对本书的自学总结或心得 能及时地