GBDT浅谈以及代码实现

2023-11-05

GBDT作为近年很热门的模型,其性能非常突出,用途也是涵盖了从特征选择到分类、回归,被广大从业者和爱好者所使用。

网上关于gbdt的原理和数学推导已经有很多,我就谈谈我个人的浅见,如有错误还望指正。同时还附上我自己实现的简单的python代码,功能比较简单,并且性能也不高,只作为自己对模型的理解,欢迎拍砖。

从大的框架来说,主要可以分解成两个部分:构建树和梯度提升。GBDT中的树一般都是CART,即分类回归树,这是GBDT强大的第一个原因。分类回归树能同时处理分类和回归问题,根据不同的问题类型,采用不同的属性分裂准则。在实现的时候,个人觉得,如何高效地分裂属性是需要好好考虑的。参考xgboost的实现方式,其对列进行了采样,不仅提升了性能,也防止了过拟合。第二个强大的原因就是梯度提升,在前一颗树的残差基础上进行拟合,不得不感叹是一个非常好的思路。让我想到了孔子的“吾日三省吾身”,也就是每次训练完之后,就看看自己和圣人的差距有多少,然后在下一次训练的时候尽量去弥补这个差距。当然了,前提是圣人不会再提升了,否则自己永远也赶不上了。在具体实现的时候,如何体现“梯度提升”,如何对函数求导也是一个难点。好在在friedman的论文中,已经提供了一个比较简便的方法,推导也在论文中给出,因此我的代码就参考了论文中算法6的步骤,即对类似softmax的输出求残差,实现起来比较容易。

我实现的GBDT模型很简单,都没有加入正则化,而且分类的性能好像也不高,跑起来又费时费力,所以欢迎提出改进建议和意见。

https://github.com/bound2020/simple_gbdt

后期有时间的话,比较想做的事是阅读xgboost的源代码,希望有志的人可以一起加入。

2014年kaggle的criteiro比赛第一名是几个台湾牛人,他们自己撸了一个gbdt,效果不错。我们如果写不出那么牛逼的代码,那看看总行吧?把代码读懂,理解了总行吧?这里是我对他们造的gbdt代码解读,写的略微简单了点,有些细节也没搞的很明白,仅供参考。

https://github.com/bound2020/Code-Destructor/tree/master/kaggle-2014-criteo/gbdt

对于xgboost的源码,网上早已有大牛解读了,同样也一起看下,以加深理解。

http://mlnote.com/2016/10/29/xgboost-code-review-with-paper/

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

GBDT浅谈以及代码实现 的相关文章

  • 将 ical 附件的邮件消息的内容类型设置为“text/calendar; method=REQUEST”

    我正在尝试使用 App Engine 邮件 API 从 App Engine 发送 iCalendar 格式的 ics 文件 这在 GMail 中非常有效 但是 Outlook 无法识别该文件 我认为问题在于内容类型设置为 文本 日历 而不
  • 有什么好的适用于 Google App Engine 应用程序的 AJAX 框架吗? [关闭]

    Closed 这个问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 我正在尝试在我的 Google App Engine 应用程序中实现 AJAX 因此我正在寻找一个好的
  • 在 Python 中延迟转置列表

    所以 我有一个延迟生成的可迭代的三元组 我试图弄清楚如何将其转换为 3 个可迭代对象 分别由元组的第一个 第二个和第三个元素组成 然而 我希望这件事能懒惰地完成 所以 举例来说 我希望 1 2 3 4 5 6 7 8 9 将变成 1 4 7
  • 创建 xyz 海拔数据的曲面图

    我正在尝试用 python 创建一座山的表面图 其中我有一些 xyz 数据 最终结果应该类似于that https i stack imgur com rKQV0 png 该文件的格式如下 616000 0 90500 0 3096 712
  • NumPy 数组与 SQLite

    我在 Python 中见过的最常见的 SQLite 接口是sqlite3 但是有什么东西可以很好地与 NumPy 数组或 rearray 配合使用吗 我的意思是 它可以识别数据类型 不需要逐行插入 并提取到 NumPy rec 数组中 有点
  • DataFrame.loc 的“索引器太多”

    我读了关于切片器的文档 http pandas pydata org pandas docs stable advanced html using slicers一百万次 但我从来没有理解过它 所以我仍在试图弄清楚如何使用loc切片Data
  • 将列表值转换为 pandas 中的行

    我有数据帧 其中一列具有相同长度的 numpy ndarray 值 df list 0 Out 92 array 0 0 0 0 29273096 0 30691767 0 27531403 我想将这些列表值转换为数据框并从 df iloc
  • Asyncio:从未检索到任务异常的怪异

    假设我有一个简单的代码 import asyncio async def exc print 1 0 loop asyncio get event loop loop create task exc try loop run forever
  • 右键单击 QPushButton 上的 contextMenu

    对于我的应用程序 我在 Qt Designer 中创建了一个 GUI 并将其转换为 python 2 6 代码 关于一些QPushButton 与设计器创建 我想添加右键单击上下文菜单 菜单选项取决于应用程序状态 如何实现这样的上下文菜单
  • 尝试校准keras模型

    我正在尝试通过 Sklearn 实现来校准我的 CNN 模型CalibratedClassifierCV 尝试将其包装为KerasClassifier并覆盖预测功能但没有成功 有人可以说我做错了什么吗 这是模型代码 def create m
  • 类变量:“类列表”与“类布尔值”[重复]

    这个问题在这里已经有答案了 我不明白以下示例的区别 一次类的实例可以更改另一个实例的类变量 而另一次则不能 示例1 class MyClass object mylist def add self self mylist append 1
  • “KMeans”对象没有属性“k”

    我使用 Yellowbrick 包绘制数据集的肘部曲线 以使用 KMeans 作为模型找到数据集的最佳簇数 我正在使用 Scikit learn KMeans 和 Yellowbrick kelbowvisualizer 函数 生成了肘部曲
  • 将 str.contains 映射到 pandas DataFrame

    python 初学者 我正在寻找创建字符串的字典映射以及关联的值 我有一个数据框 想要创建一个新列 如果字符串匹配 则会将该列标记为 x df pd DataFrame comp dell notebook dell notebook S3
  • 在 4K 屏幕上使用 Matplotlib 和 TKAgg 或 Qt5Agg 后端

    我在 Ubuntu 16 04 上使用 Matplotlib 2 0 和 Python 3 6 来创建数据图 电脑显示器的分辨率为 4k 分辨率为 3840x2160 绘图数字看起来非常小 字体也很小 我已经尝试过TKAgg and Qt5
  • 如何将Python包从旧版本安装到新版本?

    我正在使用 python 3 7 最近在 Linux 中安装了 python 3 8 是否有任何 bash 命令或脚本可以获取 3 7 的所有软件包列表并在 3 8 版本中一一安装 我想避免每个包裹都手工完成 注意 我将它们安装在我的系统中
  • 将二进制数据视为文件对象?

    在此代码片段 由另一个人编写 中 self archive是一个大文件的路径并且raw file是以二进制数据形式读取的文件内容 with open self archive rb as f f seek offset raw file s
  • 关闭正在运行代码的 IPython Notebook

    怎么运行的 我在 IPython Notebook 中运行了一些代码 一些迭代工作 我不小心关闭了正在运行的笔记本的浏览器 但回到 IPython 仪表板 我发现这个特定的笔记本尚未关闭 所以如果我再次打开笔记本 我会在它正在执行的代码前面
  • 如何仅读取 CSV 文件每行的第一列 [重复]

    这个问题在这里已经有答案了 如何在Python中读取CSV文件每行的第一列 我的数据是这样的 1 abc 2 bcd 3 cde 我只需要循环第一列的值 另外 当我在 calc 中打开 csv 文件时 每行中的数据都在同一个单元格中 这正常
  • 将二进制数转换为包含每个二进制数的数组

    我试图将二进制值转换为每个 1 0 的列表 但我得到默认的二进制值而不是列表 我有一个字符串 我将每个字符转换为二进制 它给了我一个列表 其中每个字符都有一个字符串 现在我试图将每个字符串拆分为值为 0 1 的整数 但我什么也得不到 if
  • 如何在不同的目录中执行python脚本?

    Solved对于可能觉得这有帮助的人 请参阅下面我的答案 我有两个脚本 a py 和 b py 在我当前的目录 C Users MyName Desktop MAIN 中 我运行 gt python a py 第一个脚本 a py 在我当前

随机推荐

  • 【事业单位笔试】zrzyb信息中心-社会招聘-笔试记录

    写在前面的话 虽然说本人在21年校招时有北京银行 农银金科 中信银行研发 京东发 邮储银行 中软 郑州铁路局等的offer 奈何个人原因还是选择了有北京户口的现在的工作单位 虽然只有两年 但也是时候准备考虑一下今后的发展了 感谢大家支持 我
  • 电机控制进阶——PID速度控制

    之前的几篇文章 电机控制基础篇 介绍的电机编码器原理 定时器输出PWM 定时器编码器模式测速等 本篇在前几篇的基础上 继续来学习电机控制 通过PID算法 来进行电机的速度控制 并进行实验测试 PID基础 PID即 Proportional
  • 海外新冠疫情 API数据接口

    海外新冠疫情 计费模式 免费额度 点数单价 每日限制 会员免费 100次 免费 10000次 更新时间 2022 07 11 02 51 15接口状态 正常 返回海外新冠数据 请求地址 HTTPGET POST https www mait
  • 毕业设计 嵌入式 单片机智能路灯

    文章目录 1 简介 2 绪论 2 1 项目背景 2 2 需求分析 3 系统设计 3 1 功能设计 3 1 1 系统角色分析 3 1 2 开发环境 3 2 总体设计 3 3 硬件部分 3 3 1 整体架构 3 3 2 stm32部分 3 3
  • 短视频去水印小程序源码 附带详细搭建教程

    开发语言 PHP 数据库 MySQL 无需授权 文件完全开源 可以二次开发 后台可以自己添加自己的接口 压缩包里包含一个免费 接口 不敢保证能一直使用 下载地址
  • 慌的一批!妹子一个rm -rf把公司服务器数据删没了...

    来源 https www cnblogs com zhouyu629 p 3734494 html 作者 zhouyu 责编 linse 经历了两天不懈努力 终于恢复了一次误操作删除的生产服务器数据 对本次事故过程和解决办法记录在此 警醒自
  • mysql字符串函数

    mysql的字符串函数 对于针对字符串位置的操作 第一个位置被标记为1 1 ASCII str 返回字符串str的最左面字符的ASCII代码值 如果 str是空字符串 返回 0 如果 str是 NULL 返回 NULL mysql gt s
  • 解决bootstrapTable动态添加的一行不会被$(“#bootstrap-table“).bootstrapTable(‘getSelections‘)获取到

    背景 业务需要bootstrapTable表格选中某一行数据 并将按钮表示为可点击状态 当选中多行或没选中数据时设置为不可点击状态 解决 a class btn btn success i class fa fa plus i 所选行下方添
  • (23)[CS13] LSTM Generating:Generating Sequences With Recurrent Neural Networks

    计划完成深度学习入门的126篇论文第二十三篇 UT的Alex Graves等领导研究通过LSTM来生成不同风格的文本和手写体handwriting ABSTRACT INTRODUCTION 摘要 本文通过对一个数据点的预测 说明了LSTM
  • Anaconda(Miniconda) 安装(Windows下)

    下载地址 https www anaconda com download or https conda io miniconda html 下载之后直接安装 可能需要设置路径 之后在cmd中输入 conda list 查看安装内容 如需要更
  • 测试用例的设计方法(七种)详细分析

    1 需求分析法 需求分析法 按照需求 设计测试用例 其中的需求分为两种 用户需求 软件需求 1 验证需求是否正确 完整 无二义性 并且逻辑一致 2 要从 黑盒 的角度 设计出充分并且必要的测试集 以保证设计和代码都能完全符合需求 2 等价类
  • 2023华为OD机试真题【数字游戏】

    题目内容 小明玩一个游戏 系统发1 n张牌 每张牌上有一个整数 第一张给小明 后n张按照发牌顺序排成连续的一行 需要小明判断 后n张牌中 是否存在连续的若干张牌 其和可以整除小明手中牌上的数字 输入描述 输入数据有多组 每组输入数据有两行
  • vue中native的用法

    vue中native的用法 官方解释 你可能想在某个组件的根元素上监听一个原生事件 可以使用 v on 的修饰符 native 举例 比如a标签可以直接绑定原生事件 如果你通过自定义封装了button标签 命名mao button 这时候绑
  • js 取数组对象的交集内容

    一 简单数组 两数组a 1 2 3 b 2 4 5 求a b数组 var a 1 2 3 var b 2 4 5 并集 var union a concat b filter function n return a indexOf n 1
  • vue3+element Plus使用el-tabs标签页,页面刷新不会到默认页(1)

    当我们使用el tabs标签页 在页面刷新后就会回到默认的那一页 如果我们想让页面停留在当前页 可以使用localStorage存储当前页的值 1 引入el tabs
  • vue cli3 性能优化实战

    性能优化 知识追寻者搞了个人站点后 心血来潮来了一波前端性能优化实战 个人站点地址 https zszxz com index 生成分析报告 在 packge json 中引入 analyz vue cli service build mo
  • 企业微信的外部联系人回调处理技巧

    一 关于设置接收事件服务器的信息 在企业微信管理后台的 客户联系 客户 页面 点开 API 小按钮 再点击 接收事件服务器 配置 进入配置页面 要求填写URL Token EncodingAESKey三个参数 URL是企业后台接收企业微信推
  • vbs 文件用于删除符合条件的文件夹

    数据库备份后的文件夹名称为 2011 06 30 2011 07 01 2011 07 02 2011 07 03 2011 07 04 2011 07 05 文件夹内为数据库的备份文件 现考虑只保存最后两天的文件夹 因此 做了一个定时任务
  • go 进阶 RPC相关: 一. RPC 与 Protobuf 基础问题

    目录 一 什么是RPC 1 RPC 实现原理 2 有http为什么还要出现RPC 3 Protobut Protobuf 编码方式 Protobuf 数据存储方式 Protobuf对于数据存储的三大原则 Protobuf 序列化原理 4 其
  • GBDT浅谈以及代码实现

    GBDT作为近年很热门的模型 其性能非常突出 用途也是涵盖了从特征选择到分类 回归 被广大从业者和爱好者所使用 网上关于gbdt的原理和数学推导已经有很多 我就谈谈我个人的浅见 如有错误还望指正 同时还附上我自己实现的简单的python代码