统计学习方法学习1.0

2023-11-02

决策树

决策树是一种分类和回归方法

优点:模型可读性,分类速度快

过程:特征选择、决策树的生成、决策树的剪枝

损失函数:正则化的极大似然函数

特征选择:多个特征时,如何选择某个特征作为判断的依据

  1. 信息增益:

              熵定义:

               熵越大,随机变量的不确定性越大。

               条件熵:

                已知随机变量X的条件下随机变量Y的不确定性。

                信息增益 = 熵 - 条件熵(也就是互信息)

                 表示由于特征A而使得对数据集D进行分类的不确定性减少程度。

优点:如果根节点的熵最大,下一个特征如果得到正确的分类结果,那么下一个特征的条件熵就是0,信息增益最大,所以这个特征比较好。

缺点:存在偏向于选择取值较多的特征的问题,所以可以使用信息增益比,信息增益与训练集D在特征A下的熵

决策树的生成:

                 1、多个特征时,通过信息增益的值挨个选择特征,最后生成树结构

                  2、ID3通过信息增益,C4.5通过信息增益比

  决策树的剪枝:

                  防止出现过拟合情况,删除某些子节点或者叶节点

                 通过最小化损失函数来做剪枝,其中加上了类似于正则项的东西

                  

 

 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

统计学习方法学习1.0 的相关文章

随机推荐

  • stm32 USB HID单点触摸屏上报安卓触摸信号

    此工程在个人博客使用stm32配置自定义的HID设备基础上修改 在上个博客中我们介绍了如何使用stm32配置成自定义的HID设备 使用usb通讯 但是仅仅只是实现了基于USB的通讯 真正需要运用的时候还需要在此基础上定义我们自己的协议 然后
  • Unity接入越南社交软件Zalo登录之获取用户信息

    根据Unity接入越南社交软件Zalo登录 Android 之SDK接入接入SDK后 需要获取用户name id 头像 性别的信息 这一篇文章教你如何获取 根据官网文档获取用户信息API ZaloSDK Instance getProfil
  • CPU和线程概述、线程池如何合理设置

    目录 1 物理核 虚拟核 单核cpu和多核cpu 2 进程和线程 理解 对比 线程切换 线程开销 3 串行 并发 并行 串行 并发 并行 4 多核下线程数量选择 计算密集型 IO密集型 提高性能的方向 5 并发编程网上关于线程池的总结 参考
  • PAT A1039使用string也可以不超时!!!

    亲测 直接使用map
  • AJAX & Axios 总结

    AJAX Axios 1 AJAX 1 1 作用 与服务器进行数据交换 异步交互 异步和同步 1 2 基本使用 1 3 案例 SelectUserServlet register html register html中的
  • 层层逼近,了解Norm系需要解决的问题及其衍生变体

    引自 https zhuanlan zhihu com p 33173246 https blog csdn net xiao lxl article details 72730000 https github com switchable
  • linux audit日志通过syslog转发到远端

    流程 开启audit 配置rsyslog读audit log文件 转发到远端 1 开启audit 重启audit service auditd restart 确认audit log产生日志 cat var log audit audit
  • filebeat-sidecar模式采集pod应用日志

    文章目录 1 将镜像上传服务器 2 新增sidecar yml文件 3 kubectl部署应用 部署应用 查看应用部署情况 查看pod运行情况 查看容器 应用服务 运行情况 查看容器 filebeat 运行情况 查看pod日志 4 kafk
  • Linux内核设计与实现(五)

    文章目录 什么是内核同步 1 临界区和竞争条件 2 加锁 2 1 造成并发执行的原因 2 2 了解需要保护什么 3 死锁 4 争用和扩展性 内核同步方法 1 原子操作 1 1 原子整数操作 1 2 原子位操作 2 自旋锁 2 1 自旋锁方法
  • 时序预测

    时序预测 MATLAB实现基于TSO XGBoost金枪鱼算法优化XGBoost的时间序列预测 多指标评价 目录 时序预测 MATLAB实现基于TSO XGBoost金枪鱼算法优化XGBoost的时间序列预测 多指标评价 预测效果 基本介绍
  • java+selenium环境搭建

    目录 1 写在前面的话 2 下载谷歌驱动 3 添加Selenium依赖 我这里添加的是4 0 0版本的 4 在操作过程中可能出现的问题 解决办法 目录 1 写在前面的话 2 下载谷歌驱动 3 添加Selenium依赖 我这里添加的是4 0
  • MTK 平台Camera 驱动架构

    记录下 Mtk的Hal3架构笔记 正在进行学习 后续仍会更新 一 MtkCam3的代码结构及学习资料 mtk online里搜Camera 可以搜到很全面的Mtk Hal3的学习文档 Mtk整理的文档很棒 简单到位 https online
  • 嵌入式(线程的取消和互斥)

    线程的取消 意义 随时杀掉一个线程 int pthread cancel pthread t thread 注意 线程的取消要有取消点才可以 不是说取消就取消 线程的取消点主要是阻塞的系统调用 运行段错误调试 可以使用gdb调试 使用gdb
  • Linux之进程组、守护进程

    转自 https blog csdn net happiness llz article details 82749105 进程组 概念和特性 进程组 也称之为作业 BSD于1980年前后向Unix中增加的一个新特性 代表一个或多个进程的集
  • 序列密码,最安全的密码体制

    序列密码体制是理论上最安全的密码体制 因为Shannon证明了一次一密密码体制是绝对安全的 每个字节明文都对应这一个字节的密钥 而序列密码的设计就是基于此而设计 序列密码 明 文 密 文 密
  • Mysql可变长度列VARCHAR、BLOB和TEXT问题

    在对这些可变长度类型的列进行大量的增删后可能会出现碎片 建议定期执行 OPTIMIZE TABLE 表名 以优化性能 但以上命令只对MyISAM BDB和InnoDB存储引擎的表生效 以下方式也可以优化innodb存储引擎的表中的碎片 al
  • oc swift 混编

    oc 和 swift 互调 swift 中使用 oc swift 中调用 oc 的类 创建一个oc的项目 在项目里创建swift文件的话 Xcode会自动提示 要不要创建桥接文件 如下图所示 选择Create Bridging Header
  • Python大数据-对淘宝用户的行为数据分析

    目录 一 项目背景 二 项目目标 三 分析思路 四 数据清洗 1 读取查看数据的基本信息和数据的完整性 2 一致化处理 3 查看是否有缺失值 五 数据分析 1 不同时间下PV UV的流量变化情况 2 不同购物行为在不同时间维度下的变化情况
  • 可惜了,昔日硬核神器已停止服务……幸亏还有这款开源工具撑着

    大家好 我是小莫理 不知道有多少朋友还记得一个叫Magi的搜索引擎 它比传统的搜索引擎更智能 但是很遗憾 服务已经暂停了 无论是比较知名的F搜 密搜还是多吉搜 服务模式都因为各种原因发生了变化 第三方的搜索引擎似乎是被某种神秘力量所牵绊着
  • 统计学习方法学习1.0

    决策树 决策树是一种分类和回归方法 优点 模型可读性 分类速度快 过程 特征选择 决策树的生成 决策树的剪枝 损失函数 正则化的极大似然函数 特征选择 多个特征时 如何选择某个特征作为判断的依据 信息增益 熵定义 熵越大 随机变量的不确定性