机器学习算法——决策树3(CART决策树算法)

2023-11-04

CART决策树使用“基尼指数”(Gini index)来选择划分属性。

我们希望决策树的分支结点所包含的样本尽可能属于同一类别,即节点的纯度越来越高。

数据集D的纯度可用基尼值来度量:

\color{red}{Gini(D)=\sum_{k=1}^{|y|}\sum_{k'\neq k}p_{k}p_{k'}=1-\sum_{k=1}^{|y|}p_{k}^2}

Gini(D)越小,则数据集D的纯度越高。

属性a的基尼指数定义为:

{\color{Red} Gini\_index(D,a)=\sum_{v=1}^{V}\frac{|D^v|}{|D|}Gini(D^v)}

在候选属性集合A中,选择那个使得划分后基尼指数最小的属性作为最优划分属性,即

{\color{Red} a_*=arg\ min\ Gini\_index(D,a)}

前面讲完了ID3、C4.5算法和CART决策树算法怎么选择最优划分属性,下面讲解决策树通用算法流程:

输入:训练集D={{x1,y1},{x2,y2},...,{xm,ym}}

属性集A={a1,a2,...,ad}

过程:函数TreeGenerate(D,A)

生成节点node;

if D中样本全属于同一类别C then

        将node标记为C的叶节点;return

end if

if A≠\phi OR D中样本在A上取值相同 then

        将node标记为叶节点,其类别标记为D中样本数最多的类;return

end if

从A中选择最优划分属性a_*

for a_* 的每一个值a^{v}_{*}do

        为node生成一个分支;令D_v表示D中在a_*上取值为a^{v}_{*}的样本子集;

        if D_v为空 then

                将分支节点标记为叶节点,其类别标记为D中样本最多的类;return

        else

                以TreeGenerate(D_v,A\{a_*}) 为分支节点

        end if

end for

输出:以node为根节点的一颗决策树。

下一章讲解决策树的剪枝处理。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

机器学习算法——决策树3(CART决策树算法) 的相关文章

随机推荐

  • 第11天-审批中心

    2 工作流介绍 2 1 概念介绍 工作流 Workflow 就是通过计算机对业务流程自动化执行管理 它主要解决的是 使在多个参与者之间按照某种预定义的规则自动进行传递文档 信息或任务的过程 从而实现某个预期的业务目标 或者促使此目标的实现
  • 计算机c盘满了怎么移到d盘去,Win10电脑c盘满了怎么转移到d盘?

    许多用户在使用电脑的时候因为不良的使用习惯 经常将一些文件或者程序安装在电脑的C盘中 最终导致C盘爆满电脑卡顿 那么我们要怎么把C盘的文件转移D盘呢 下面小编就带着大家一起看看吧 操作方法 1 双击 这台电脑 打开 在这台电脑中我们就可以看
  • 蓝桥杯 巧克力

    首先这是一道贪心思想的题目 贪心思想我觉得是考 思维 模拟 的题目 正文 依据题目要求总价最少 那么我们就从价格低的巧克力开始选择 每一天放置一块巧克力 假如当前巧克力k1单价最便宜 保质期为k1 date 那么尽量把当前巧克力放置在第k1
  • 模型的显存和参数量计算

    写在前面 以此记录关于模型显存和参数量的一些理解和计算 首先是 运算量 和 参数量 两个概念 参数量 这个比较好理解 例如卷积层中的卷积核c i k k n o 其参数量就是相乘的结果 而且 无论输入图像的尺寸怎么变 YOLO实现中的mul
  • input输入框添加内部图标

    有可能在制作网页的过程中遇到各种美化表单设计 这次我们来试着做一个demo 将input输入框添加内部图标 话不多说 看一下最终效果 我们的思路是 在一个div中 加入一个div和一个input标签 小div在左侧 input放右侧 用bo
  • 工程伦理答案

    今年是在线考试 刚刚考完 来一波分享吧 目录 1 客观题 2 主观题 3 主观题第3题答案 个性化推荐服务 应该怎么做才能合情合理又合法 1 客观题 2 主观题 这一部分我还没写完呢 唉 工程伦理主观题 案例分析 任选其一 500 1000
  • 进程-CPU和MMU/环境变量/创建子进程

    进程的相关概念 1 并发 2 单道程序设计 3 多道程序设计 4 cpu mmu 5 进程控制块 6 进程状态 环境变量 1 常用的环境变量作用 2 函数 进程控制原语 1 fork函数 循环创建子进程的架构 2 exec函数 各个函数的参
  • 解决chrom浏览器iframe嵌套写cookie问题

    chrom浏览器iframe嵌套写cookie 1 请求地址协议 2 response头部设置 3 提供如下方式进行设置 1 后端web服务代码如下 2 nginx服务器设置 场景分析描述 chrom浏览器环境下当前网站被第三方iframe
  • gitlab合并分支_拯救狗屎代码:基于 Gitlab 的代码审查,简单实用

    code review 的目的是提高代码质量 减少开发bug 俗话说 三人行必有我师 众人拾柴火焰高 gitlab提供了code review机制 对基于gitlab的code review 直接以具体例子的形式做个实践总结 gitlab提
  • PyTorch 2.0 重磅发布:编译、编译、还是编译!

    内容一览 昨晚召开的 PyTorch Conference 2022 中 官方正式发布了 PyTorch 2 0 本文将梳理 PyTorch 2 0 与 1 x 相比的最大差异 关键词 PyTorch 2 0 编译器 机器学习 在 PyTo
  • 55. Jump Game

    贪心算法 Jump Game I Given an array of non negative integers you are initially positioned at the first index of the array Ea
  • 【2023最新版】JetBrains Space注册+桌面版安装+IDE远程开发连接JetBrains Space

    目录 一 JetBrains Space 1 官网 2 简介 3 注册 二 安装桌面版 1 下载Jetbrains toolbox 2 安装Space Desktop 安装 登录 三 IDE连接JetBrains Space 以Pychar
  • 提供计算机屏蔽电缆djypvp价格便宜,计算机屏蔽电缆-DJYPVP价格

    计算机屏蔽电缆 DJYPVP价格一 用途 选用介点常数小的高压聚乙烯绝缘 采用对绞 对屏 总屏 或三线组绞合 组屏蔽 组屏总屏 等结构形式 具有介质损耗小 传输信号能力强 抗干扰性能好等特点 能可靠传输微弱模拟信号或数字信号 可广泛地用于发
  • Java中URI 和 URL 的区别

    URI 和 URL 的区别 文章目录 URI 和 URL 的区别 1 URI 2 URL 3 总结 参考文章 https blog csdn net zcc7up article details 73551250 1 URI 表示一个 统一
  • 自己写的一个非常简洁的DDS信号发生器以及验证

    DDS其实就是输出点 直接画出波形 例子1 假设基带采样时钟是360M 如果每个完整的正弦波形用360个点画出来 构造出来的DDS波形是360M 360 1M 例子2 在同样的采样时钟之下 如果我们要DDS出一个0 5M的波形怎么办呢 其实
  • Hive性能优化全面解析

    问题导读 1 Hive表设计层面优化有哪些内容 2 语法和参数层面如何进行优化 3 如何进行Join Group By Order By COUNT DISTINCT优化 4 Hive架构层面如何优化 在工作中使用hive比较多 也写了很多
  • ES6的模块化实现(数据共享)

    组件模块化 将一些数据只能在接收了的文件中使用 在多人开发中就不会出现自己的的内容被别人改了的现象 只要导出了就可以在多个文件中使用 可以一次性导出多个数据 也可以一次接收多个数据 下面是方法 方法一 直接共享 导出 export 数据 导
  • android 签字版

    public class DrawLineLayout extends View private static final float STROKE WIDTH 5f Need to track this so the dirty regi
  • jdbc 通过rs.getString()获取数据库中的时间字段问题

    在mysql中的一张表中存在一个字段opr time为datetime类型 在JDBC 中通过rs getString opr time 来获取使会在日期后面添加 0 例如日期为 2014 06 01 12 10 20 查询出来为 2014
  • 机器学习算法——决策树3(CART决策树算法)

    CART决策树使用 基尼指数 Gini index 来选择划分属性 我们希望决策树的分支结点所包含的样本尽可能属于同一类别 即节点的纯度越来越高 数据集D的纯度可用基尼值来度量 Gini D 越小 则数据集D的纯度越高 属性a的基尼指数定义