西电机器学习简答题核心考点汇总(期末真题,教材西瓜书)

2023-11-16


前言

主要针对西安电子科技大学《机器学习与数据挖掘课程》的简答题核心考点进行汇总,包含总共8章的核心简答。
【期末期间总结资料如下】
在这里插入图片描述

针对西电计科院软件工程专业云计算方向大三下学期方厚章老师的《机器学习与数据挖掘》期末考试复习资料。大部分答案来自于方厚章老师的PPT,放心使用。
考试主要包括:简答题和计算题,均为大题。
(如需要机器学习计算题和简答题全部笔记资料,可以联系邮箱oax_knud@163.com
其他资料参考:西电计算机专业课资料汇总


一、机器学习和深度学习区别以及原因

传统特征机器学习(比如方向梯度直方图HOG)跟深度学习有什么不同?深度学习的超越传统特征机器学习的原因是?

不同之处:

  1. 特征构造不同:传统的特征学习依靠与人工构造特征,其中HOG,LBP等解决了如何描述数据问题。而深度学习时通过学习自动生成合适的特征,深度学习模拟人类视觉特征,将特征划分为低层特征和高级特征,其中低级特征一般是在网络前几层学习到的(纹理特征),在网络深层一般学习到更高级的特征,例如头部,手臂等。高级特征几乎不会出现在传统的特征提取当中。
  2. 特征映射不同:传统的机器学习把特征映射到目标空间,SVM,adaboost等都是解决如何把输入特征映射到目标空间然后完成分类,回归任务。而深度学习中最后的分类被全连接层代替。
  3. 处理数据量不同:传统的机器学习方法可能更适合小数据集,深度学习更适合处理大数据问题。
  4. 使用的设备不同:深度学习依赖于更加高端的设备(GPU),传统的机器学习可能仅需CPU就可以实现。
  5. 时间不同:深度学习训练时间长,传统特征学习训练时间短。

原因:

  1. 深度学习在模型训练的同时,对特征抽取进行集成。传统的机器学习依赖于特定领域的专家进行人工特征提取;深度学习不需要对任何特征有先验知识,将特征抽取和分类放在一起完成。
  2. 科技发展,有了GPU,TPU等更高级的硬件设备。深度学习融合了这些高端设备。

二、卷积核,池化层作用

1x1卷积核的作用,池化层的作用

1*1卷积核的作用:

  1. 1×1卷积可以控制输入特征图的深度,可以减小或增大它,或者在不改变深度时仅添加非线性。
  2. 融合不同特征图通道间同一位置的信息并且减小通道数。输出特征图的通道数与卷积核的个数有关,当卷积核的个数小于输入特征图的通道数时,可以起到减小通道数的作用,同时将输入特征图的多通道特征通过单个卷积核进行卷积操作融合。
  3. 融合不同特征图通道间同一位置的信息并且增加非线性。当输入特征图和输出的特征图的通道数完全相同时,1*1卷积核可以为输入数据的特征图增加非线性。

池化层的作用:
池化层是将初级的视觉特征筛选并结合成更高级、抽象的视觉特征的过程。通过采样实现,经过池化层后,特征图数量不变,尺寸变小。因此池化主要功能是:

  1. 保留主要特征的同时减少参数和计算量。经过MaxPool可以减小卷积核的尺寸,同时又可以保留相应特征,所以主要用来降维
  2. 在一定程度上能防止过拟合,由于这一层没有参数,不需要学习。
  3. 特征不变性,这种不变性包括translation(平移),rotation(旋转),scale(尺度).这就使网络的鲁棒性增强了,有一定抗扰动的作用

三、SVM转化为对偶问题的优点

  1. 对偶问题将原始问题中的不等式约束转为了对偶问题中的等式约束
  2. 改变了问题的复杂度。由求特征向量w转化为求比例系数α,在原始问题下,求解的复杂度与样本的维度有关,即w的维度。在对偶问题下,只与样本数量有关(对应为m)。
    • SVM原始问题模型严重依赖于数据集的维度 d,如果维度 d 太高就会严重提升运算时间。
    • 对偶问题事实上把SVM 从依赖 d 个维度转变到依赖 m 个数据点,考虑到在最后计算时只有支持向量才有意义,所以这个计算量实际上比 m 小很多。
  3. 求解更高效,因为只用求解α系数,而α系数只有在支持向量才非0,其它全部为0。
  4. 方便核函数的引入,进而推广到非线性分类问题。

四、核函数的作用

当样本在原始空间线性不可分时,可将样本从原始空间映射到一个更高维的特征空间,使得样本在这个特征空间内线性可分。在求解对偶问题时仅需计算特征向量的内积。

  1. 引入了核函数,把高维向量的内积转变成了求低维向量的内积问题。即在特征空间的内积等于它们在原始样本空间中通过核函数 K计算的结果。
  2. 核函数是一种表征映射、实现内积逻辑关系且降低计算复杂度的一类特殊函数,定义为K(x,y)=<ϕ(x),ϕ(y)>,一方面数据变成了高维空间中线性可分的数据;另一方面不需要求解具体的映射函数,只需要给定具体的核函数即可。

五、特征的相似度定义,性质

定义:特征相似度是将样本之间的相似性进行数值化表示。
性质:

  • 非负性:d(x,y)的取值范围为[0,1]之间,仅当d(x,x)=1
  • 对称性:d(x,y)=d(y,x)

六、预剪枝与后剪枝优缺点

预剪枝优点和缺点

  • 优点1:预剪枝让决策树的很多分支没有展开, 降低了过拟合风险
  • 优点2:显著减少训练时间和测试时间开销
  • 缺点1:欠拟合风险。有些分支的当前划分虽然不能提升泛化性能,但在其基础上进行的后续划分却有可能导致性能显著提高。预剪枝基于“贪心”本质禁止这些分支展开,带来了欠拟合风险

后剪枝的优缺点

  • 优点1:后剪枝比预剪枝保留了更多的分支,欠拟合风险小,泛化性能往往优于预剪枝决策树
  • 缺点1:训练时间开销大:后剪枝过程是在生成完全决策树之后进行的,需要自底向上对所有非叶结点逐一考察

七、密度直接可达,密度可达,密度相连定义

7、密度直接可达,密度可达,密度相连定义

八、DBSCAN相对于k-menas的优缺点

DBSCAN的主要优点:

  1. 可以对任意形状的稠密数据集进行聚类,相对的, K-Means之类的聚类算法一般只适用于凸数据集。
  2. 可以在聚类的同时发现异常点,对数据集中的异常点不敏感。 聚类结果没有偏倚,相对的, K-Means之类的聚类算法初始值对聚类结果有很大影响。

DBSCAN的主要缺点:

  1. 如果样本集的密度不均匀、聚类间距差相差很大时,聚类质量较差,这时用DBSCAN聚类一般不适合。
  2. 如果样本集较大时,聚类收敛时间较长。
  3. 调参相对于传统的K-Means之类的聚类算法稍复杂,主要需要对距离阈值e,邻域样本数阈值MinPts联合调参,不同的参数组合对最后的聚类效果有较大影响。

九、LDA和PCA区别

LDA(线性判别式分析 Linear Discriminant Analysis)属于机器学习中的监督学习算法,常用来做特征提取、数据降维和任务分类。LDA算法的目标是使降维后的数据类内方差最小,类间方差最大(即使数据在低维度上进行投影,投影后希望每一种类别数据的投影点尽可能的接近,而不同类别的数据中心之间的距离尽可能的大。)
相同点:

  1. 两者均可以对数据进行降维。
  2. 两者在降维时均使用了矩阵特征分解的思想。
  3. 两者都假设数据符合高斯分布。

不同点:

  1. LDA是有监督的降维方法,而PCA是无监督的降维方法
  2. LDA降维最多降到类别数k-1的维数,而PCA没有这个限制。
  3. LDA除了可以用于降维,还可以用于分类。
  4. LDA选择分类性能最好的投影方向,而PCA选择样本点投影具有最大方差的方向。

总结

21年大部分考题和20年保持相同,考试题量较大,但是答案和难度较低。建议在简答题上只写核心内容,否则后续计算题时间可能不够。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

西电机器学习简答题核心考点汇总(期末真题,教材西瓜书) 的相关文章

随机推荐

  • vue计时器代码和倒计时代码

    计时器
  • Spring MVC拦截器和跨域请求

    一 拦截器简介 SpringMVC的拦截器 Interceptor 也是AOP思想的一种实现方式 它与Servlet的过滤器 Filter 功能类似 主要用于拦截用户的请求并做相应的处理 通常应用在权限验证 记录请求信息的日志 判断用户是否
  • easyui 获取并设置当前时间

    得到当前日期 formatterDate function date type var day date getDate gt 9 date getDate 0 date getDate var month date getMonth 1
  • Java基础复习之类与对象、封装、构造方法、String类

    个人觉得重点的部分会用彩色标出 面向对象思想 1 面向对象思想概述 面向过程思想 遇到一个问题 一步一步的去解决他 强调的是过程 典型代表语言是C语言 面向对象思想 遇到一个问题 找一个可以解决问题的对象 可以是人 也可以是别的 强调是对象
  • Windows7下IPV6设置方法详解

    Windows 7下配置IPV6的方法和Vista基本类似 需要注意的是 鉴于各个校园或其他场所的网络配置环境不同 如果按如下方法配置不成功可以进一步咨询相关网络管理人员 或重新选择连网客户端 下面来看具体的两个设置方法吧 步骤 方法 方法
  • %c与%s的区别与划分

    字符和字符串 c格式对应的是单个字符 s格式对应的是字符串 include
  • Elasticsearch Split和shrink API

    背景 尝试解决如下问题 单分片存在过多文档 超过lucene限制 分析 1 一般为日志数据或者OLAP数据 直接删除索引重建 2 尝试保留索引 生成新索引 数据写入新索引 查询时候包含 old index new index 3 尝试spl
  • 2023年第十四届蓝桥杯大赛python组省赛真题(已更新完)

    本篇更新蓝桥杯省赛真题的后5道 6 试题 F 公因数匹配 时间限制 10 0s 内存限制 512 0MB 本题总分 15 分 问题描述 给定 n 个正整数 Ai 请找出两个数 i j 使得 i lt j 且 Ai 和 Aj 存在大于 1 的
  • 线程(Linux系统实现)

    目录 1 线程概述 2 主线程和子线程 3 创建线程 线程函数 创建线程示例 4 线程退出 线程退出的原理主要包括以下两个方面 5 线程回收 回收子线程数据 6 线程分离 7 线程取消 8 线程 ID 比较 1 线程概述 线程是轻量级的进程
  • SIFT特征简介

    过程 1 尺度空间建立及极值点搜索 初步搜索 2 关键点精确定位 直线拟合使得关键点精确定位 x y sigma 消除边缘响应 初步搜寻特征点后 得到特征点的层数 像素坐标 x y 方向 文中分为18或36个离散方向 1 SIFT算法具的特
  • python dict遍历性能,Python:遍历list vs over dict items效率

    这取决于您使用的是哪个版本的Python 在Python 2中 some dict items 创建一个新的列表 这将占用一些额外的时间并占用更多的内存 另一方面 一旦创建了列表 它就是一个列表 因此在完成列表创建的开销之后 应该具有相同的
  • 用户行为路径数据埋点方案设计案例

    用户行为路径数据埋点方案设计案例 案例背景 业务需要对用户行为进行数据分析 现缺失这部分数据 需要设计采集方案获取数据满足业务分析需求 定义 数据采集方案是为埋点所设计的采集方案 所谓埋点就是在产品 通常是网页 app 中需要提取数据的地方
  • 小程序上传线上地址文件

    web上传的时候可以使用new Blob 但是在小程序中不能使用 当时的文件还是二进制的文件流 小程序上传不能使用线上地址 后来想了很多办法 最后把文件流使用wx saveFile先保存到本地 拿到result savedFilePath的
  • FPGA基础知识点

    FPGA知识点 Verilog基础语法 基础知识 逻辑值 逻辑0 表示低电平 也就是对应电路GND 逻辑1 表示高电平 也就是对应电路VCC 逻辑X 表示未知 有可能是高电平也有可能是低电平 逻辑Z 表示高阻态 外部没有激励信号 是一个悬空
  • Docker第七回(私有Registry)

    一 Docker Registry的分类 Registry用来保存docker镜像 包括镜像的层次结构和元数据 用户可以自建Registry 也可以使用官方的docker hub Sponsor Registry 第三方的Registry
  • 如何解决fiddler抓包时出现443的问题

    之前公司的app使用的http协议 因此不需要安装证书也能够转包 后来改成https协议后 在使用fiddler进行抓包时 一直出现tunnel to 443 百度了好久也没有具体的解决办法 后来发现需要在手机端安装fiddler的证书才行
  • stylefeng 文档_基于SpringBoot+spring mvc+Mybatis+beetl+bootstrap实现的简洁开源网站后台管理系统Guns...

    package com stylefeng guns config import io swagger annotations ApiOperation import org springframework boot autoconfigu
  • 面经——嵌入式常见面试题总结100题(上)

    参考 嵌入式常见面试题总结 1 作者 天泉证道 发布时间 2018 11 08 09 33 43 网址 https guoyanzhang blog csdn net article details 83855895 目录 1 字符型驱动设
  • oracle nvl函数

    1 nul函数将一个null值转换为一个实际的值 数据类型可以是日期 数字 字符 数据类型必须匹配 nvl commision 0 nvl hiredate 01 JAN 87 nvl job id no manager nvl to ch
  • 西电机器学习简答题核心考点汇总(期末真题,教材西瓜书)

    文章目录 前言 一 机器学习和深度学习区别以及原因 二 卷积核 池化层作用 三 SVM转化为对偶问题的优点 四 核函数的作用 五 特征的相似度定义 性质 六 预剪枝与后剪枝优缺点 七 密度直接可达 密度可达 密度相连定义 八 DBSCAN相