如何实施xgboost增量训练？

2024-02-18

问题是由于列车数据大小，我的列车数据无法放入 RAM 中。所以我需要一种方法，首先在整个训练数据集上构建一棵树，计算残差构建另一棵树等等（就像梯度提升树一样）。显然如果我打电话model = xgb.train(param, batch_dtrain, 2)在某些循环中 - 它不会有帮助，因为在这种情况下它只是为每个批次重建整个模型。

尝试在第一批训练后保存模型。然后，在连续运行时，为 xgb.train 方法提供已保存模型的文件路径。

这是我为了说服自己它有效而进行的一个小实验：

首先，将波士顿数据集分为训练集和测试集。然后将训练集分成两半。将模型与上半部分进行拟合，得到一个分数作为基准。然后用后半部分拟合两个模型；一种模型将具有附加参数xgb_模型。如果传递额外的参数没有影响，那么我们期望它们的分数相似。但幸运的是，新模型的性能似乎比第一个模型好得多。

import xgboost as xgb
from sklearn.cross_validation import train_test_split as ttsplit
from sklearn.datasets import load_boston
from sklearn.metrics import mean_squared_error as mse

X = load_boston()['data']
y = load_boston()['target']

# split data into training and testing sets
# then split training set in half
X_train, X_test, y_train, y_test = ttsplit(X, y, test_size=0.1, random_state=0)
X_train_1, X_train_2, y_train_1, y_train_2 = ttsplit(X_train, 
                                                     y_train, 
                                                     test_size=0.5,
                                                     random_state=0)

xg_train_1 = xgb.DMatrix(X_train_1, label=y_train_1)
xg_train_2 = xgb.DMatrix(X_train_2, label=y_train_2)
xg_test = xgb.DMatrix(X_test, label=y_test)

params = {'objective': 'reg:linear', 'verbose': False}
model_1 = xgb.train(params, xg_train_1, 30)
model_1.save_model('model_1.model')

# ================= train two versions of the model =====================#
model_2_v1 = xgb.train(params, xg_train_2, 30)
model_2_v2 = xgb.train(params, xg_train_2, 30, xgb_model='model_1.model')

print(mse(model_1.predict(xg_test), y_test))     # benchmark
print(mse(model_2_v1.predict(xg_test), y_test))  # "before"
print(mse(model_2_v2.predict(xg_test), y_test))  # "after"

# 23.0475232194
# 39.6776876084
# 27.2053239482

参考：https://github.com/dmlc/xgboost/blob/master/python-package/xgboost/training.py https://github.com/dmlc/xgboost/blob/master/python-package/xgboost/training.py

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何实施xgboost增量训练？的相关文章

在 Python 中使用 Selenium 处理“接受 Cookie”弹出窗口

我一直在尝试用硒抓取这个房地产网站的一些信息但是当我访问该网站时我需要接受 cookie 才能继续这仅在机器人访问网站时发生而不是在我手动执行时发生当我尝试通过 xpath 或 id 查找相应的元素时正如我在手动检查页面时找到
on_delete=models.PROTECT 和 on_delete=models.CASCADE 在 Django 模型上有什么作用？

我对 Django 很熟悉但最近注意到有一个on delete models CASCADE and on delete models PROTECT模型的选项 on delete models CASCADE and on delete
如何确定非阻塞套接字是否真正连接？

这个问题不仅限于Python 这是一个一般的套接字问题我有一个非阻塞套接字想要连接到一台可访问的机器在另一端该端口不存在为什么 select 仍然成功我预计会超时 sock send 因管道损坏而失败 select 之后如何确定
python 中分割字符串以获得一个值？

需要帮助假设我在名为 input 的变量中有一个字符串 Sam Person name kind input split 通过执行上述操作我得到两个具有不同字符串 Sam 和 Person 的变量有没有办法只获取第一个值 name S
可以在 TensorFlow 中使用排名相关作为成本函数吗？

我正在处理偶尔充满异常值的极其嘈杂的数据因此我主要依靠相关性来衡量我的神经网络的准确性是否可以明确使用诸如等级相关性斯皮尔曼相关系数之类的东西作为我的成本函数到目前为止我主要依赖 MSE 作为相关性的代理我现在面临三个主要障碍
Pandas重置索引未生效[重复]

这个问题在这里已经有答案了我不确定我在哪里误入歧途但我似乎无法重置数据帧上的索引当我跑步时test head 我得到以下输出正如您所看到的数据帧是一个切片因此索引超出范围我想做的是重置该数据帧的索引所以我跑test rese
带图像的简单 GUI [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我试图在简单的 GUI 上显示一些卡
如何从 Dockerfile 安装 Python 3.7 和 Pip

我正在尝试构建基于 Ubuntu 18 04 的自定义 Docker 映像 Ubuntu 预装了 Python 3 6 但我想 1 安装 Python 3 7 2 将其设置为默认 Python 版本这样就可以使用python代替pytho
Python igraph：从图中删除顶点

我正在使用安然电子邮件数据集并尝试删除没有 enron com 的电子邮件地址即我只想拥有安然电子邮件当我尝试删除那些没有 enron com 的地址时一些电子邮件由于某些原因被跳过下面显示了一个小图其中顶点是电子邮件地址这是
sudo pip install python-Levenshtein 失败，错误代码 1

我正在尝试在 Linux 上安装 python Levenshtein 库但每当我尝试通过以下方式安装它时 sudo pip install python Levenshtein 我收到此错误命令 usr bin python c 导入
定义函数后对其进行修饰？

I think答案是否定的但我似乎找不到明确的说法我有以下情况 def decorated function function functools wraps function def my function print Hello s
“char”/“character”类型的类型提示

char 或 character 没有内置的原始类型因此显然必须使用长度为 1 的字符串但是为了暗示这一点并暗示它应该被视为一个字符如何通过类型提示来实现这一点 grade chr A 一种方法可能是使用内置的 chr 函数来表示这一
Python 中的 @staticmethod 与 @classmethod

方法和方法有什么区别装饰的 https peps python org pep 0318 with staticmethod http docs python org library functions html staticmethod和
将 Pandas 列中的列表拆分为单独的列

这是我在 pandas 数据框中的特征列 Feature Cricket 82379 Kabaddi 255 Reality 4751 Cricket 15640 Wildlife 730 LiveTV 13 Football 4129
Matplotlib Scatter - ValueError：RGBA 序列的长度应为 3 或 4

我正在尝试为我的功能绘制图表但不断收到此错误 ValueError RGBA sequence should have length 3 or 4 每当我只有 6 种形状时代码就可以完美运行但现在我将其增加到 10 种它就不起作用了
Python组合目录中的所有csv文件并按日期时间排序

我有 2 年的每日数据分成每月文件我想将所有这些数据合并到一个按日期和时间排序的文件中我正在使用的代码组合了所有文件但不按顺序我正在使用的代码 import pandas as pd import glob os import cs
如何在sphinx中启用数学？

我在用sphinx http sphinx pocoo org index html与pngmath http sphinx pocoo org ext math html module sphinx ext pngmath扩展来记录我的代
如何禁止 celery 中的 pickle 序列化

Celery 默认使用 pickle 作为任务的序列化方法如中所述FAQ http ask github com celery faq html isn t using pickle a security concern 这代表一个安全漏
在 Python 模块中使用 InstaLoader

我正在尝试使用 Instaloader 下载与主题标签相关的照片以进行图像分析我在GitHub存储库中找到了一个全面的方法如何在终端中执行它但是我需要将脚本集成到Python笔记本中这是脚本 instaloader no vide
期望最大化算法的数值示例[重复]

这个问题在这里已经有答案了由于我不确定给出的公式有人可以提供 EM 算法的简单数字示例吗一个非常简单的具有 4 或 5 个笛卡尔坐标的坐标就可以了那这个呢 http en wikibooks org wiki Data Mining

随机推荐

我是 php 新手想知道这些服务器标签之间是否有任何差异 and 第一个是安全打开和关闭标签变体第二个是所谓的短打开标签第二个选项并不总是可用如果可能请使用第一个选项您可以在 php ini 中的 Short open tag

如何使用 AJAX 作为 iframe 的替代品？

目前我在网站上使用 iframe 来显示其他页面例如表单的内容我遇到的问题是在登录页面上当用户使用 iframe 内的表单登录时它只显示登录 iframe 内的下一页这是完全无用的我听说 AJAX 对于此类事情更加灵活和动态
使用代理时如何停止 NodeJS“Request”模块更改请求

抱歉如果这听起来令人困惑我使用 NodeJS 请求模块编写了一个脚本该模块在网站上运行并执行函数然后返回数据当我不使用代理时通过将其设置为 false 该脚本工作得非常好这不是不允许使用 Selenium puppeteer
以编程方式获取Android中传入和传出呼叫的通话记录

我正在制作一个应用程序我想在其中获取所有来电去电和未接来电的通话记录我怎样才能做到这一点这里的所有答案都使用managedQuery现在已弃用它应该替换为getContext getContentResolver query 方法
什么时候适合使用 C++11 *_until 超时函数而不是相应的 *_for 函数？

在 C 11 中 until仅当使用稳定时钟即仅以不变的速率向前移动的时钟时超时函数才会按预期运行因为system clock不是一个稳定的时钟这意味着像这样的代码的行为可能会非常令人惊讶 using namespace st
React Web 应用程序现在无法正常工作或部署

I do not understand what I am doing wrong here It worked absolutely fine before this I was ready to deploy it to GitHub
C# 中的日期计算[重复]

这个问题在这里已经有答案了在我的应用程序 c 中我需要添加n距离今天的日期还有几天我知道我可以使用DateTime AddDays n 方法而且这个方法效果很好但在我的情况下我只想添加工作日或仅添加星期一和星期五或任何其
禁用 CAST AS 以优化实体框架中的查询

我在用着实体框架5我想从中选择数据甲骨文10g数据库问题是数据库表很大并且生成的查询实体框架是无效的我想摆脱那些CAST column AS type 有什么设置可以关闭它们吗 C code var context new APPDB
正则表达式可以是数字字符，也可以是字母数字但不仅仅是字母字符

要验证必须同时包含数字和字母的字段我可以使用 0 9 a zA Z a zA Z 0 9 0 9a zA Z 但我想另外接受仅数字字符串你的意思是你至少想要一个号码您可以使用前瞻断言 d a z d i
Pandas 获取映射函数中元素的索引

我正在使用 pandas 来分析到不同节点的现有 ssh 会话因为我已经解析了 ssh 守护进程日志并且我有一个包含以下列的 DataFrame Node 建立连接的节点名称会话会话ID Start 指示连接何时开始的时间戳 Fin
我应该如何为最终的 64 位编译器准备 32 位 Delphi 程序？ [复制]

这个问题在这里已经有答案了可能的重复迁移到 Delphi 2010 和 Unicode 时如何为 64 位做好准备 https stackoverflow com questions 1568685 how to also prepar
从java调用带有表值参数的存储过程

在我的应用程序中我想执行类似的查询SELECT FROM 表 WHERE col IN list 其中 list 可以有可变的值我正在使用 MS SQL 服务器数据库当我用谷歌搜索这个问题时我发现了这个链接 http www som
如何检查 Kafka 中的消费者是否消费了某个主题

如何检查特定消费者群体是否完全消费了某个主题这相当于在标准排队系统中检查队列是否为空这并不明显因为每个消费者只能看到给定的分区因此它不知道其组中的其他消费者是否消耗了他们的部分我想这应该以某种方式完成AdminUtils or Z
如何使div相对于父级的高度为100%？

我坚持下面这样的事情我需要将右上 div 设为 100 高度其背景颜色将覆盖主 div 的整个高度 div style width 100 margin auto text align left border 1px solid 628
Magento 2 标签翻译显示大括号

显示双花括号之间的多个翻译的标签我在 Magento 2 的前端和后端都遇到这个问题这是我到目前为止所尝试过的清除并刷新缓存重新部署静态内容将 Magento 2 2 5 更新至 2 2 6 请查看图片以获取更多信息 Magent
如何获取 JavaFX 中某个阶段的关闭事件？

在JavaFX中如果用户单击阶段的关闭按钮 X 最右上方的十字如何获取事件我希望我的应用程序在窗口关闭时打印调试消息 System out println Application Close by click to Close But
为什么表别名通常都是小写？

我总是这样看例子但为什么呢这是一个好的做法吗因此它们与查询的其余部分通常以大写形式编写不同至于这是否是最佳实践如果您以全部大写形式编写查询那么它肯定会使您的查询更易于阅读和理解
如果代码中没有 return 语句，函数在 C 程序中返回什么

我做了一个关于如何在 C 中递归地反转单链表的函数功能如下 struct node reverseSLL2 struct node p struct node temp struct node temp1 if p NULL temp1
NEST 查询精确文本匹配

我正在尝试编写一个 NEST 查询该查询应根据精确的字符串匹配返回结果我在网上研究过有关于使用术语匹配匹配短语的建议我已经尝试了所有这些但我的搜索返回的结果包含部分搜索字符串例如在我的数据库中我有以下几行电子邮件地址电
如何实施xgboost增量训练？

问题是由于列车数据大小我的列车数据无法放入 RAM 中所以我需要一种方法首先在整个训练数据集上构建一棵树计算残差构建另一棵树等等就像梯度提升树一样显然如果我打电话model xgb train param batch dtrai

如何实施xgboost增量训练？

如何实施xgboost增量训练？ 的相关文章

随机推荐

热门标签

如何实施xgboost增量训练？的相关文章