【视频解读】动手学深度学习V2_02深度学习介绍

2023-11-13

1.AI地图

image-20230505062036141

  1. 人工智能的地图,x轴是不同模式,由符号学到概率模型 到机器学习,Y轴是我想做的东西,最底下的是感知,我得了解这是什么东西,然后做推理,形成自己的知识,最后做规划。最底层的就是感知,就是我能够看到这个物体,比如这个屏幕等,做推理是基于我现在看到的东西,会发现什么事情,第三个知识是比较难的事情,根据我看到的数据和现象,来形成我的知识,我能进行比较长远一点的规划,也就是我的未来怎么做。
  2. 这里对几个比较大的领域做了一点规划,第一是自然语言处理,自然语言处理在过去取得了比较大的进步,但是还是停留在比较简单的感知上面,比如自然语言处理应用比较多的是机器翻译,如中文翻译成英文,就是几秒的事情,很多是潜意识里面感知的问题,所以人在几秒内能够反应过来的范围都属于感知的范围。
  3. 计算机视觉能够稍微往前走一点,我在图片里面能够做一些推理。
  4. 自然语言处理最初是符号学,首先语言是一个符号,接下来发展为概率模型和机器学习。
  5. 计算机视觉因为图片里面都是一些像素,很难用符号学来解释,所以计算机视觉大部分是用概率模型或机器视觉。
  6. 深度学习是机器学习的一种,他能做机器视觉,也能做自然语言处理,也能做强化学习。
  7. 过去8年里,从Alexnet开始,最热的方向就是机器视觉和自然语言处理。

2.深度学习应用的突破

1.图像分类

image-20230505071313275

  • Imagenet是一个比较大的图片分类数据集,包含1000类物体的图片,大概有1000万张图片。

image-20230505071437004

  • 这张图展示的是从10年到17年,Y轴是错误率。每个点表示每个paper的错误率,10年的错误率还是挺高的,最好的是26%左右,

2012年有一个比较大的下降,这也是深度学习的开始,在接下来的五年里面,深度学习已经把图像分类的误差降到非常低。17年几乎所有的团队都能把误差降到5%以内。基本上可以达到人类在图片识别上的精度。在图片分类这个工作,深度学习已经做的非常好了。

2.物体检测与分割

image-20230505071947897

  • 物体检测:我们不仅仅想知道这个图片里面的内容,我们还想知道是什么,在什么位置。
  • 物体分割:想知道每个像素是属于飞机,还是属于某个人,是更深层次的应用。

3.样式迁移

image-20230505075712340

  • 样式图片内容图片合成一张,类似一个滤镜,可以任意切换风格。

4.人脸合成

image-20230505075855066

  • 人脸合成的图片都是假的,通过随机树开始合成的一些照片,人类难以分辨出这些图片是真还是假。

5.文字生成图片

image-20230505080051368

  • baby 萝卜遛狗的图片
  • 牛油果椅子。

6.文字生成

image-20230505080220693

  • 如何来开一个比较有效的董事会议。
  • SQL语言,编程,这也是非常强大的语言生成模型。

7.无人驾驶

image-20230505080410701

8.案例研究–广告点击

image-20230505080500915

  • 问题:给你一个用户输入,如何给你一些广告。
  • 这个问题可以分成三个阶段,第一输入一个关键词时,给你一些广告,接下来就是机器学习的模型,给你一个广告后,客户的点击概率是什么样子,p为人会点击这个广告的概率,根据点击率和广告主付你多少钱,然后一乘,点击率乘以竞价,会得到一个数字,把它作为一个排序,排名高的我会拍到前面,排名低的我会舍去。
  • 这是广告点击的三个步骤,1.触发广告,2.预测一个点击率3.最后得到一个排序

image-20230505080549797

image-20230505081107397

  • 里面最重要的一个就是预测点击率,首先看到广告时要进行特征提取,包括广告主产品描述产品图片等信息,把这些特征放到模型之后,就可以预测出点击率的数据。主要包括两个步骤,特征提取模型预测
  • 我们可以把过去所有的广告展现用户点击数据存下来,因为我知道用户有没有点,所以我是有真实的用户点击行为,把它作为训练数据,放到一个模型里面进行训练.

image-20230505081553381

  • 一个完整的故事是这样的,我有些领域专家,模型控制用户展现,用户点击数据用反过来训练新的模型。
  • 数据科学家拿到数据进行模型训练。
  • AI专家主要提升模型精度和性能。
  • 一个机器学习领域里面有三类人,领域专家【对应用有非常深的了解,知道一些机器学习的事情,更多是了解机器学习的给我的产品带来什么样的影响】,数据科学家【数学科学家会把原始数据转化成计算机能够理解的数据,然后训练模型】和AI专家【关注某几个点,然后进一步提升】。每个人既可以是领域专家,也可以是数据科学家。

3.QA

1.机器学习在图像分割领域为什么有效,有没有定论?

  • 模型的可解释性是深度学习和机器学习比较关注的地方,因为它们是一个黑盒,你训练一个模型,你也不知道它为什么效果好,或者不好。对于深度学习来讲,其可解释性做的并不好,对于机器学习来说,对于一些简单的模型,我们有一些简单的理解,对于比较复杂的模型,我们基本是放弃其可解释性的研究。
  • 有效性和可解释性是两个概念。为什么有效,当然我可以给出很多解释, 但是可解释性是另外一个概念,人是不是能够理解这个模型,它为什么能够工作,它什么时候不工作,以及在什么时候出现偏差,这是可解释性要理解的问题。一个模型在一个什么样的问题上有应用,会有一些解释,什么样的模型会考虑空间信息,什么样的模型会考虑时间的信息,什么样的模型泛化性能好一些,这是是不是工作的可解释性,但是更一般的,目前还没有太多的进展。

2.领域专家什么意思?

我想去做农业上的物体识别,我想去看一下今年的收成怎么样?我用一个无人机,去把图片拍下来,然后就会看到树的一些图片,作为数据科学家,我不懂二月份树要长成什么样子,领域专家会告诉你,这个树长多少叶子是比较好的,数据科学家就会把领域专家的一些需求翻译成能够做的一些任务,所以说领域专家是提需求的一些人,是甲方,数据科学家是乙方。

3.MXnet要装GPU版本,必须要卸载CPU版本吗?

需要。该课程是基于pytorch,会有一些不一样。

4.深度学习不能用数学规范表述,只能直觉上理解是吗?

这个不一定,深度学习模型是可以用数学来表述的,接下来也是会介绍很多数学的东西,但是用数学来解释,它为什么工作,为什么不工作,这是目前做的不好的一个地方。

5.符号学可以与机器学习融合起来吗?

这个确实是可以的,符号学在深度学习目前有一些新的进展,比如符号学就是做一些符号学的推理,目前图神经网络可以做一些复杂的推理过程,模型够复杂的情况下,确实可以做一些推理的工作。

6.数据科学家和AI专家的区别在哪里?

  • 没有太多区别,数据科学家,给一个数据,我赶紧出一个模型,能工作就很好了,我关心的是如何把一个领域专家问题,抽象为实际的业务问题,变成机器学习能够完成的一个任务,训练一个还不错的模型,AI专家有可能也是数据科学家,我不仅能够把模型训练出来能用,而且能够把模型做的精度很高,资深数据科学家你可以认为是AI专家。
  • 数据科学家是有两条路,一条是不断开发新的领域,比如说机器学习在农业上的应用,在医疗上的应用,这是往广的方向上走,往深的方向上走的话,可以成为AI的专家。在某一块,我可以成功这一块了解最多的人。

7.Mac是不是支持Pytorch

可以支持Pytorch,只能用CPU,简单的任务是可以做的,负责的任务是比较难一些。

8.自然语言仅仅在感知层面似乎不太合适,因为语言的理解和产出,不仅仅是感知,也涉及语言知识,也涉及到规划,比如机器对话,下一步要做些什么。

语言是一个很复杂的过程,自然语言处理,我们做的还很一般,虽然能做一些感知,不如深度学习在机器视觉的领域做的应用好一些,地图是一个大致的分类,不用特别纠结。

9.如何寻找自己领域的paper的经验。

后面会讲。

10.无人驾驶,误判率在下降,但是误判的影响非常严重。

  • uncertainty或者roubustness,我的数据在数据发生偏移或者极端情况下,我会不会做出很不好的答案。解决方法之一就是把不同的模型融合到一起,通过多个模型来进行投票。在竞赛中,我们会提到如何通过多个模型来提
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【视频解读】动手学深度学习V2_02深度学习介绍 的相关文章

随机推荐

  • Python 三目运算符讲解(作用、语法、代码示例)

    这篇文章介绍三目运算符的作用 语法 利用例子体验一下三目运算符 三目运算符的作用 化简代码量的 化简的是非常简单的if else的代码 也就是if条件成立就执行一句代码 不成立就执行另外一句代码 三目运算符含义 三目运算符也叫作三元运算符或
  • Linux - 系统性能监控

    重点讨论一些有助于监视系统整体性能的工具 当理解了工作负荷的系统整体性能特征之后 还可以使用这组工具标识出哪些特定进程是整体工作负荷的性能瓶颈 在许多情况下 系统监视工具有助于推动系统调优工作 使得关键的性能瓶颈得到极大减少或消除 另一些情
  • PHP反序列化漏洞——云演

    昨天搞了搞掌控的反序列化 突然想到当时打CTF时老师给我们冲了个云演的靶场 就去看了看 也有反序列化漏洞 顺手搞搞加深一下印象 第一题 点进去后是这样的 还记得昨天的 php中有一类特殊的方法叫 Magic function 魔术方法 这里
  • tf.keras遇见的坑:Output tensors to a Model must be the output of a TensorFlow `Layer`

    报错为 Output tensors to a Model must be the output of a TensorFlow Layer 再编写TEXT CNN模型时 代码报错 以下为报错代码 convs inputs keras la
  • 如何用Flask和Redis来动态维护代理池

    我们在爬虫时可能会遇到封IP的问题 那么利用代理就可以进行IP的伪装 然后进行爬虫的请求 我们有时会需要非常多的ip 那么维护一个代理池 代理的队列 可以存入或取出 需要对整个池进行定期的检查和更新 以此来保证代理的高质量 也就是代理的检测
  • 腹部仿体abdomen phantom的MATLAB实现及探讨

    abdomen phantom 官网给出的切片图如下 我利用MATLAB实现的情况如下 切片像素矩阵为256 256时 中心切片如图 切片像素矩阵为512512时 中心切片如图 可见 1 512512尺寸的在线对区域差别明显 多一条竖直线
  • 学习Java——自动拆装箱

    目录 引言 基本数据类型 数据类型有什么好处 整数的取值范围 超出范围怎么办 包装类型 为什么需要包装类 拆箱与装箱 自动拆箱与装箱 实现原理 哪些场景会用到 场景一 将基本数据类型放入集合类 场景二 包装类型和基本类型的大小比较 场景三
  • AD软件点击启动没有反应

    文章目录 一 AD无法启动 二 解决方法 一 AD无法启动 之前用了很久的AD16 突然某一天打开电脑 点开AD 结果一点反应没有 我还楞了一下 怎么今天你小子不想上班了 然后又点了一次 还是没反应 于是头铁继续试了几次 离了个大谱 一点东
  • vue-element-admin 页面内点详情跳转

    之前都是点击按钮以弹窗的形式展示信息 现在有个需求是点了页面内的详情按钮后进行路由跳转 跳到一个新的页面上去 1 先添加路由 route index js path test component Layout redirect test n
  • Windows Server2016 安装docker 所踩的坑

    献给小白用户 首先参考官网文档 https docs microsoft com zh cn virtualization windowscontainers deploy containers deploy containers on s
  • 2023年最新前端面试题汇总大全二(含答案超详细,Vue,TypeScript,React,微信小程序,Webpack 汇总篇)-- 持续更新

    HTML篇 CSS篇 JS篇 Vue篇 TpeScript篇 React篇 微信小程序篇 前端面试题汇总大全 含答案超详细 HTML JS CSS汇总篇 持续更新 前端面试题汇总二 逐步更新 五 Vue 篇 1 谈谈你对MVVM开发模式的理
  • 万物革新人们刷脸支付需求越来越多元化

    随着时代的进步 技术的革新 消费者的消费逐渐感性化 它们已经不满足于大众化的同类消费 独出心裁 别具匠心的个性化消费逐渐成为潮流 刷脸支付的出现 让消费者拥有更具科技感 新鲜感 以及高效的消费体验 更是尽可能的满足了年轻一代消费者的支付需求
  • “新卷王”X-volution

    编辑 Happy 首发 AIWalker 在本文中 华为上交 华为海思提出了一种集成卷积与自注意力的Xvolution 它将卷积与自注意力进行了集成 同时利用卷积的局部特征提取能力与自注意力的全局建模能力 更重要的是 它通过结构重参数化机制
  • 链表大小排序方法c语言,C语言数据结构 链表与归并排序实例详解

    C语言数据结构 链表与归并排序实例详解 归并排序适合于对链表进行原址排序 即只改变指针的连接方式 不交换链表结点的内容 归并排序的基本思想是分治法 先把一个链表分割成只有一个节点的链表 然后按照一定顺序 自底向上合并相邻的两个链表 只要保证
  • sklearn中的线性回归模型中的transform()模型讲解

    利用sklearn进行线性拟合时 通常要进行数据转换 目的在于将数据集中的数据转换为可供Python进行解算的矩阵 举一个栗子来说明 假设我们使用多项式回归来做模拟 阶次为2 有4个特征 易知 我们的多项式展开为 由上式易知 4个特征加一个
  • 下载后端传来的excel文件

    html内容
  • MATLAB应用3——深度视觉 奥比中光Astra S显示RGB和深度信息

    首先从官网下载OpenNI驱动并安装 以及添加环境变量 MATLAB代码 参考 https blog csdn net limingmin2020 article details 109445787 首次使用需编译mxNI cpp文件 生成
  • SCI期刊画图常用颜色归纳总结

    我导师曾审稿300 他经常教导我们 论文中图片的质量是非常重要的 我审稿时主要看稿件的图表 PS 当然他说实验方法和结果很很很重要 还有其他的就不讨论了 因为本篇文章主要讲关于论文画图的事 我通常用PS画学术图 当然其他软件都可以 比如我师
  • 打印A4纸图片需要多少像素和分辨率?

    我们如果要设计杂志用的图片 A4大小的需要多少像素大小和分辨率呢 一般来说 给铜版纸使用的300dpi就够用了 太小打印出来不一定清晰 太大的话耗费内存和CPU处理起来十分慢 所以300dpi是一个很好的分界线 A4物理大小是21厘米 29
  • 【视频解读】动手学深度学习V2_02深度学习介绍

    1 AI地图 人工智能的地图 x轴是不同模式 由符号学到概率模型 到机器学习 Y轴是我想做的东西 最底下的是感知 我得了解这是什么东西 然后做推理 形成自己的知识 最后做规划 最底层的就是感知 就是我能够看到这个物体 比如这个屏幕等 做推理