机器学习个人总结(王道版)

2023-05-16

  1. 机器学习流程:
    预处理->特征工程->机器学习算法(选择合适的算法)->评估
    强化学习:用人工智能去调参
    数据也是一种财富
  2. 离散型数据:由记录不同类别个体的数目所得到的数据,又称计数数据,所
    有这些数据全部都是整数,而且不能再细分,也不能进一步提高他
    们的精确度。
  3. 连续型数据:变量可以在某个范围内取任一数,即变量的取值可以是连续
    的,如,长度、时间、质量值等,这类数据通常是非整数,含有小数
    部分。
  4. 注:只要记住一点,离散型是区间内不可分,连续型是区间内可分
  5. 人工智能内部就是高阶函数,输入的数据必须是数值(离散或连续),不能输入字符串
  6. 图片是一大推浮点数,像素点(像素值0-255),黑白图片可以看成二维数组,彩色三维(RGB)
  7. 数据的结构组成
    在这里插入图片描述
  8. 特征工程是什么?
    特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,从而提高了模型对未知数据预测的准确性
  9. 预测问题分为两大类?、
  • 分类 :预测的是一个类别
  • 回归:预测的是概率,值
  1. 调参:
  • 参数:模型自动训练的参数
  • 超参数:自己调的参数
  1. 特征处理
  • 数值型数据:标准缩放.1、归一化 2、标准化 3、缺失值
  • 类别型数据:one-hot编码
  • 时间类型:时间的切分
  1. 归一化
    在这里插入图片描述
    mx和mi可以为1和-1
  • 缺点:容易受极值影响。在特定场景下最大值最小值是变化的,另外,最大值与最小值非常容易受异常点影响,所以这种方法鲁棒性较差,只适合传统精确小数据场景。
  • 好处:容易更快地通过梯度下降找 到最优解
  1. 标准化
    在这里插入图片描述
    在这里插入图片描述

  2. 结合归一化来谈标准化
    在这里插入图片描述

  3. 如何处理数据中的缺失值
    在这里插入图片描述

  4. 特征选择原因
    在这里插入图片描述

  5. 特征选择是什么
    在这里插入图片描述
    方差阈值第一个,删除低方差保留高方差,就是要保留不同的特征
    在这里插入图片描述

  6. fit_trasform()
    fit():计算待标准化数据的均值和方差等参数。
    transform()的功能是对数据进行标准化。是将数据进行转换,比如数据的归一化和标准化,将测试数据按照训练数据同样的模型进行转换,得到特征向量。
    fit_transform()的功能就是对数据先进行拟合处理,然后再将其进行标准化

  7. PCA(主成分分析)是什么
    在这里插入图片描述
    在这里插入图片描述

  • 点到先的垂直距离和最小,这样就确定了对于的线,也确定了每个点在新的维度上的特征值
    在这里插入图片描述
  1. 我们应该怎么做?
    (1)算法是核心,数据和计算是基础
    在这里插入图片描述
    在这里插入图片描述

  2. 机器学习开发步骤
    在这里插入图片描述
    在这里插入图片描述

  3. 机器学习模型是什么
    在这里插入图片描述

  4. 监督学习和非监督学习
    在这里插入图片描述
    在这里插入图片描述

  • 逻辑回归是分类问题
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
  1. 分类问题
    在这里插入图片描述

  2. 回归问题
    在这里插入图片描述

  3. 测试集与训练集划分
    在这里插入图片描述

  4. 特征工程—fit_transform转换器
    1、实例化 (实例化的是一个转换器类(Transformer))(测试集用)
    2、调用 fit_transform(对于文档建立分类词频矩阵,不能同时调用)(训练集用)
    3、fit()计算平均值方差等,transform进行数据的转换

  5. 特征工程—估计器(预估器)
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

  6. 估计器的工作流程
    在这里插入图片描述

  7. 分类算法-k 近邻算法(KNN)

  • 定义:如果一个样本在特征空间中的 k 个最相似(即特征空间中最邻近)的样本中的大多数属 于某一个类别,则该样本也属于这个类别。
    来源:KNN 算法最早是由 Cover 和 Hart 提出的一种分类算法
  • 计算距离公式
    两个样本的距离可以通过如下公式计算,又叫欧式距离
    在这里插入图片描述
    在这里插入图片描述
  1. knn中k 值取多大?有什么影响?
    在这里插入图片描述
    在这里插入图片描述
  2. k近邻算法的优缺点
  • 优点:
    在这里插入图片描述

  • 缺点:
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

  1. 交叉验证:
    在这里插入图片描述
  2. 网格搜索
    在这里插入图片描述
  3. 混淆矩阵
    在分类任务下,预测结果(Predicted Condition)与正确标记(True Condition)之间存 在四种不同的组合,构成混淆矩阵(适用于多分类)
    在这里插入图片描述
  4. 精确率与召回率
    在这里插入图片描述
    在这里插入图片描述
  5. TPR、FPR、ROC、AUC
    ![在这里插入图片描述](https://img-blog.csdnimg.cn/c2f8c55f322640f580c9c03d4533d557.
  • FPR越小越好
    在这里插入图片描述
  • 下面的面积越大越好
  • AUC是下面的面积
  1. knn分类算法
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    39
  2. 拉普拉斯平滑系数
    在这里插入图片描述
  • 分子和分母加上一个系数,分母加alpha*特征词数目
  1. 朴素贝叶斯分类优缺点
    在这里插入图片描述

  2. 信息熵
    在这里插入图片描述

  3. 信息增益
    在这里插入图片描述

  4. 信息增益的计算
    在这里插入图片描述

  5. 案例
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

  6. DictVectorizer()可以非数值转化成数值,ont-hot编码

  7. 决策树的划分依据

  • 信息增益
  • 信息增益率
  • 基尼值和基尼指数
    在这里插入图片描述
  1. 决策树优缺点及改进
    在这里插入图片描述

  2. 集成学习方法

集成学习通过建立几个模型组合的来解决单一预测问题。它的工作原理是生成多个分类 器/模型,各自独立地学习和作出预测。这些预测最后结合成单预测,因此优于任何一个单 分类的做出预测。

  1. 什么是随机森林
    在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由 个别树输出的类别的众数而定。
  2. 为什么要随机抽样训练集?
    在这里插入图片描述
  3. 随机森林的优点
    在这里插入图片描述
  4. 线性模型
    在这里插入图片描述
  5. 线性回归
    在这里插入图片描述
  6. 损失函数
    在这里插入图片描述
  7. 求w
  • 正规方程
    在这里插入图片描述

在这里插入图片描述

  • 梯度下降
    在这里插入图片描述
  1. L1正则和L2的区别
    在这里插入图片描述
    在这里插入图片描述

  2. scikit-learn和tensorflow优缺点
    在这里插入图片描述

  3. 梯度下降和正规方程的区别
    在这里插入图片描述
    在这里插入图片描述

  4. 欠拟合原因以及解决办法
    在这里插入图片描述

  5. 过拟合原因以及解决办法
    在这里插入图片描述

  6. L2正则化
    在这里插入图片描述
    在这里插入图片描述

  7. 逻辑回归是分类算法(解决二分类)
    在这里插入图片描述

  8. sigmoid函数
    在这里插入图片描述

  9. 逻辑回归公式
    在这里插入图片描述

  10. LogisticRegression总结
    在这里插入图片描述

  11. 面对一个机器学习问题,通常有两种策略
    略。
    一种是研发人员尝试各种模型,选择其中表 现最好的模型做重点调参优化。这种策略类似于奥运会比赛,通过强强竞争来选拔最优的运 动员,并逐步提高成绩。另一种重要的策略是集各家之长,如同贤明的君主广泛地听取众多 谋臣的建议,然后综合考虑,得到最终决策。后一种策略的核心,是将多个分类器的结果统 一成一个最终的决策。使用这 类策略的机器学习方法统称为集成学习。其中的每个单独的 分类器称为基分类器。

  12. Boosting(串行)(迭代式学习)
    在这里插入图片描述
    在这里插入图片描述

  13. Bagging(并行)
    在这里插入图片描述

在这里插入图片描述
69. 集成学习的基本步骤
(1)找到误差互相独立的基分类器。
(2)训练基分类器。
(3)合并基分类器的结果。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

机器学习个人总结(王道版) 的相关文章

  • 2.2 mavros发布姿指令控制PX4

    说明 使用遥控飞行 px4在stablize模式下 xff0c 我们使用遥控器去控制px4飞行 xff1b 在飞行过程中 xff0c 通常我们用4个通道就可以控制飞机飞行 xff1b 其中roll pitch yaw打杆的量就是我们期望无人
  • 关于PX4上PID调参

    使用PX4 log view 工具 地址 setp response for roll rate 找到setp response for roll rate这个图片 从图片中可以看到 xff0c roll方向的角速度响应时间不够快 xff1
  • 【record】1、Prometheus-V2 初体验

    一 环境搭建 平时习惯使用虚拟机 xff0c 刚好阿木的公众号里面有送镜像 xff0c 于是在V1的时候就用这个镜像在run了 xff0c 这次V2出来 xff0c 直接pull就可以开始起飞了 xff1b xff08 感觉用虚拟机加镜像是
  • 【record】2、使用非官方遥控器适配prometheus的驱动修改

    0 前言 xff1a prometheus V2推荐使用阿木的遥控器 但是家里遥控器实在太多了 xff0c 所以就尝试修改一下prometheus里关于joystick的驱动 xff0c 使其适配prometheus的控制 xff1b 本篇
  • 【recode】3、地面站使用步骤与体验

    一 前言 从Prometheus的V1到V2 xff0c 无人机的状态显示是在终端中 xff0c 在一堆字符中寻找想要关注的信息 xff0c 确实硬核 xff1b 而今 xff0c 随着社会与科技的发展 xff0c Prometheus也开
  • 【recode】4、二维码自主降落与重复测试code修改

    0 前言 使用二维码辅助无人机降落 xff0c 模拟飞机先飞到二维码上空一定的高度 xff0c 然后切换到command control模式 xff1b 飞机会自动识别二维码的位置然后调整自身的X和Y位置信息 xff0c 同时控制高度进行下
  • 【code review】2、关于高度的估计过程

    0 前言 在定高模式中 xff0c 飞控需要有当前高度的信息 xff0c 也就是z的position信息 xff0c 进行Z轴的位置环控制 xff1b 那么这个Z轴的位置信息是怎么来的呢 xff1f 本文为在解读wukong FPV源码中Z
  • (开源)正点原子飞控+北醒tof+优象光流——室内定点(一)

    1 说明 xff1a 前几篇文章讲述了如何使用tof的数据实现飞机的定高 xff1b 接下来分享的是如何使用光流来定点 xff1b 主要分为以下几个步骤 xff1a 1 xff09 添加光流驱动 xff0c 获得x y轴方向的观测速度 xf
  • STM32的三种更新固件的方式

    说明 xff1a stm32有三种更新固件的方式 xff0c 分别为 xff08 1 xff09 DFU模式 xff08 Development Firmware Upgrade 即 开发固件升级 xff09 xff1b xff08 2 x
  • 有哪些比较好用的安卓模拟器(电脑端)

    模拟器帮助我们实现在电脑上玩手游的下载 目前市面上安卓模拟器软件看着种类繁多 xff0c 哪些模拟器比较好用呢 xff1f 但其实只有两大技术流派 xff1a Bluestacks和Virutalbox Bluestacks的历史可以追溯到
  • [icm42688]_readme

    记录一个使用icm42688的坑 xff1b 上图为42688的引脚连接图 xff1b 引脚说明处标注如果FSYNC不使用需要接地 xff1b 在实际测试驱动的过程中 xff0c 由于没有将该pin接地 xff0c 所以无法读取id 从机没
  • atbetaflight——指定commit号编译固件

    一 说明 在开发过程中 xff0c 比如成员A上传了一次code 而成员B需要测试本次提交的code xff0c 但是由于没有搭建ci 成员B就需要自己拉code编译 xff0c 本文将详细说明编译步骤 xff1b 二 步骤 1 使用vsc
  • atbf中imu数据的读取与处理方式

    一 说明 本文为作者在阅读atbf源码的过程中 xff0c 对atbf中imu数据的读取和处理方式的个人理解 xff0c 可能存在不对之处 xff0c 意在抛砖引玉 xff0c 请各位老师多多指正 xff1b 二 数据读取流程图 1 tar
  • atbf中imu数据读取逻辑分析仪抓取

    一 说明 使用逻辑分析仪抓区imu的spi和中断io的信号 xff0c 从而侧面描述atbf在imu上的数据读取方式 xff1b 二 硬件说明 1 硬件材料 1 mcu at32F437开发板 2 imu icm42688p 3 逻辑分析仪
  • cmake-自动识别新增子模块

    实际的项目中可能会有这种需求 xff0c 随着项目的进行 xff0c 会有新增的子模块 xff0c 如果每新增一个子模块 xff0c 顶层CMakeLists txt都要同步修改一次 xff0c 一般工程代码加入了版本控制 xff0c 那么
  • CSDN每日一练c++难题-大数加法 C语言

    题目名称 xff1a c 43 43 难题 大数加法 时间限制 xff1a 1000ms内存限制 xff1a 256M 题目描述 大数一直是一个c语言的一个难题 现在我们需要你手动模拟出大数加法过程 请你给出两个大整数加法结果 输入描述 x
  • Ubuntu软件包资源官网下载教程(包含所有下载源)

    官网地址 国外 xff1a Ubuntu Ubuntu Packages Search https packages ubuntu com 国内 xff1a Ubuntu Ubuntu Packages Search https packa
  • 基于ROS的YOLOV3实现目标检测项目过程记录

    lt link rel 61 34 stylesheet 34 href 61 34 https csdnimg cn release blogv2 dist mdeditor css editerView ck htmledit view
  • darknet_ros(yolo移植到ros系统)代码分析

    lt link rel 61 34 stylesheet 34 href 61 34 https csdnimg cn release blogv2 dist mdeditor css editerView ck htmledit view
  • DSP28335的PWM信号

    DSP的PWM信号 简介 DSP28335共12路16位的ePWM xff0c 能进行频率和占空比控制 ePWM的时钟TBCLK 61 SYSCLKOUT HSPCLKDIV CLKDIV PWM信号频率由时基周期寄存器TBPDR和时基计数

随机推荐

  • Kubernetes (k8s)最佳安全实践指南

    对于大部分 Kubernetes 用户来说 xff0c 安全是无关紧要的 xff0c 或者说没那么紧要 xff0c 就算考虑到了 xff0c 也只是敷衍一下 xff0c 草草了事 实际上 Kubernetes 提供了非常多的选项可以大大提高
  • DSP28335 CAN模块详解

    1 CAN2 0B协议简述 TMS320F28335上有2个增强型CAN总线控制器 xff0c 符合CAN2 0B协议 xff0c 其总线波特率可达到1Mbps 符合CAN2 0B协议的数据帧为扩展数据帧 xff0c 即采用29位标识符 数
  • DSP28335看门狗复位

    1 看门狗时钟 看门狗时钟发生器 WDCLK 61 CLKOUT 512 xff0c 当HALT时停止 6 bits预定标WDPS选择 xff1a 将WDCLK再分频后送给看门狗定时器 WDPS为WDCR的2 0 位 其6 bits配置作用
  • DSP28335 看门狗初始化函数

    DSP28335 看门狗初始化函数 看门狗初始化程序 入口参数为系统定时复位时间 在需要复位看门狗计数器的地方调用程序ServiceDog 此程序在文件DSP2833x SysCtrl c中 详细说明在 TMS320x
  • Keil5编译error:core_cm3.h

    当打开现成的工程项目时 xff0c 编译出现一堆错误 xff0c 大部分错误出现关于 core cm3 h 这个文件 xff0c 那么大概率可能跟Keil5的版本有关 xff0c 如下 xff1a 可能原因 xff1a 打开魔术棒 gt T
  • Simulink创建子系统,创建引用模型,调用模型,加密模型

    Simulink创建子系统 创建引用模型 调用模型 加密模型 一 创建子系统 1 创建新工程 并添加Logical Operator Unit Delay连线 完成如下图 全选所有模块 右键选择 基于所选内容创建子系统 ctrl G 完成如
  • 自动驾驶 2D 单目\双目\多目视觉方法 一(Pseudo-LiDAR,Mono3D,FCOS3D,PSMNet)

    文章目录 概述单目3D感知3D目标检测单目深度估计 双目3D感知双目3D目标检测双目深度估计 Pseudo LiDAR1 核心思路总结2 要点分析 Mono3DFCOS3DPSMNet 概述 自动驾驶中必不可少的3D场景感知 因为深度信息
  • [C语言] 利用库函数实现查找指定键值对功能

    1 功能描述 键值对 xff08 key 61 value xff09 字符串 xff0c 在开发中经常使用 要求1 xff1a 请自己定义一个接口 xff0c 实现根据key获取 要求2 xff1a 编写测试用例 要求3 xff1a 键值
  • 【C++】Clang-Format:代码自动格式化(看这一篇就够了)

    文章目录 Clang format格式化C代码1 引言 amp 安装1 1引言1 2 安装 2 配置字解释2 1 language 编程语言2 2 BaseOnStyle 基础风格2 3 AccessModifierOffset 访问性修饰
  • 生产者消费者问题(Producer-consumer problem)

    概述 生产者消费者问题 xff0c 也称有限缓冲问题 xff08 英语 xff1a Bounded buffer problem xff09 xff0c 是一个多线程同步问题的经典案例 该问题描述了两个共享固定大小缓冲区的线程 即所谓的 生
  • Yolov3+C+++opencv+VS2015训练过程及检测(很详细)

    运行环境 我的运行环境是C 43 43 43 opencv 43 VS2015 43 yolov3 xff0c 切记opencv的版本最好是opencv 3 4 2版以上的 xff0c 这个版本以后才有了DNN函数库来实现机器学习的相关内容
  • RAID容量在线计算器

    RAID容量计算器在线工具 xff0c 可以简单快速地获取各RAID需要的硬盘 xff0c 可用容量 以下地址任意打开一个即可快速获取RAID硬盘 容量 好用的工具就是要给大家一起分享 https www synology cn zh cn
  • C++代码自动检测工具clang-format和clang-tidy

    文章目录 96 clang format 96 安装方法命令格式使用案例更多关于 96 clang format 96 96 clang tidy 96 简单介绍检测原理安装方法使用方法更多关于 96 clang tidy 96 clang
  • Python作为人工智能首选编程语言,你能了解多少呢?

    为何人工智能 AI 首选Python xff1f 读完这篇文章你就知道了 我们看谷歌的TensorFlow基本上所有的代码都是C 43 43 和Python xff0c 其他语言一般只有几千行 如果讲运行速度的部分 xff0c 用C 43
  • 错误代码:WHEA_INTERAL_ERROR—蓝屏

    非常奇怪哦 xff0c 什么都没干 xff0c 笔记本电脑打不开 xff0c 蓝屏 xff0c 呀呀呀 xff0c 搞了一个小时 xff0c 最后终于解决解决办法很简单 xff0c 拔掉所有外设 xff0c 如鼠标 xff0c 键盘 xff
  • NB-IoT技术实战开发 ----- NB-IoT介绍

    一 1 初识NB IoT 1 NB IoT介绍2 物联网技术发展2 1有线物联网2 2 无线网络网 3 为什么需要NB IOT4 NB IOT优势5 NB IOT解决方案亮点和价值5 1 广覆盖5 2 低功耗5 3低成本5 4 大连接 6
  • 已知两个长度分别为m 和 n 的升序链表,若将它们合并为一个长度为 m+n 的降序链表,则最坏情况下的时间复杂度是()

    王道书第七面的第六题 xff0c 理解了一下午终于解决 xff01 算法的本质 xff1a 两个表进行比较 xff0c 其中一个表比较完之后 xff0c 剩下的直接插入 因此最好的情况 xff0c 不用想的太复杂 xff0c 其实就只是短的
  • 用例间的三种关系(小白必看)

    用例间的三种关系 xff0c 瞎子都能看懂 xff01 xff01 xff01 1 包含2 泛化3 扩展 1 包含 指向分解出来的用例 把一个复杂的步骤分解为较小的步骤 2 泛化 指向父用例 继承关系 xff0c 子用例有特别功能 eg1
  • ev加密视频转换成MP4格式,亲测可用

    需要的话私信我即可 ev4加密视频转换 觉得有用的话点个关注吧 xff0c 谢谢大家 需要该破解软件的话 xff0c 直接评论区留言即可 xff0c 我每天都会看csdn的 xff0c 杜绝二次间接收费 xff0c 全程免费分享 xff0c
  • 机器学习个人总结(王道版)

    机器学习流程 xff1a 预处理 gt 特征工程 gt 机器学习算法 选择合适的算法 gt 评估 强化学习 xff1a 用人工智能去调参 数据也是一种财富离散型数据 xff1a 由记录不同类别个体的数目所得到的数据 xff0c 又称计数数据