xgboost 多类工作中的 base_score 有什么用？

2023-11-26

我正在尝试探索 Xgboost 二元分类以及多类的工作原理。在二进制类的情况下，我观察到基本分数被认为是起始概率，并且在计算时也显示出重大影响Gain and Cover.

在多类别的情况下，我无法弄清楚的重要性基本分数参数，因为它向我显示了相同的值Gain and Cover对于不同的（任何）base_score 值。

我也无法找出原因因数 2计算时有吗cover对于多类，即2*p*(1-p)

有人可以帮我解决这两部分吗？

为了回答你的问题，让我们看看多类分类在 xgboost 中到底做了什么multi:softmax目标，比如说 6 个类别。

假设您想训练一个分类器，指定num_boost_round=5。您希望 xgboost 为您训练多少棵树？正确答案是 30 棵树。原因是因为 softmax 期望每个训练行都有num_classes=6不同的分数，以便 xgboost 可以计算梯度/hessian w.r.t.这 6 个分数中的每一个分数，并使用它们为每个分数构建一棵新树（有效更新 6 个并行模型，以便为每个样本输出 6 个更新分数）。

为了要求 xgboost 分类器输出每个样本的最终 6 个值，例如从测试集中，您需要调用bst.predict(xg_test, output_margin=True) (where bst是你的分类器并且xg_test例如测试集）。正则的输出bst.predict(xg_test)实际上与选择具有最高值 6 的类别相同bst.predict(xg_test, output_margin=True).

您可以使用查看所有树木bst.trees_to_dataframe()如果您有兴趣，可以使用函数（其中bst是你训练过的分类器）。

现在的问题是什么base_score do in multi:softmax案件。答案是 - 在添加任何树之前，将其添加为 6 个类别中每个类别分数的起始分数。所以如果你，例如申请base_score=42.您将能够观察到所有值bst.predict(xg_test, output_margin=True)也将增加42。同时对于softmax将所有班级的分数增加等量不会改变任何事情，因此在这种情况下multi:softmax申请base_score不同于 0 没有任何明显的效果。

将此行为与二元分类进行比较。虽然几乎相同multi:softmax对于 2 个类别，最大的区别在于 xgboost 只尝试为类别 1 生成 1 分，而类别 0 的分数等于0.0。因为当你使用base_score在二元分类中，它仅添加到类别 1 的分数中，从而增加类别 1 的起始预测概率。理论上，对于多个类别，例如通过多个基本分数（每个班级一个），这是你无法使用的base_score。相反，你可以使用set_base_margin应用于训练集的功能，但默认情况下工作不太方便predict，所以之后你需要始终使用它output_margin=True并添加与您使用的值相同的值set_base_margin用于您的训练数据（如果您想使用set_base_margin在多类情况下，您需要按照建议压平边距值here).

其工作原理示例：

import numpy as np
import xgboost as xgb
TRAIN = 1000
TEST = 2
F = 10

def gen_data(M):
    np_train_features = np.random.rand(M, F)
    np_train_labels = np.random.binomial(2, np_train_features[:,0])
    return xgb.DMatrix(np_train_features, label=np_train_labels)

def regenerate_data():
    np.random.seed(1)
    return gen_data(TRAIN), gen_data(TEST)

param = {}
param['objective'] = 'multi:softmax'
param['eta'] = 0.001
param['max_depth'] = 1
param['nthread'] = 4
param['num_class'] = 3


def sbm(xg_data, original_scores):
    xg_data.set_base_margin(np.array(original_scores * xg_data.num_row()).reshape(-1, 1))

num_round = 3

print("#1. No base_score, no set_base_margin")
xg_train, xg_test = regenerate_data()
bst = xgb.train(param, xg_train, num_round)
print(bst.predict(xg_test, output_margin=True))
print(bst.predict(xg_test))
print("Easy to see that in this case all scores/margins have 0.5 added to them initially, which is default value for base_score here for some bizzare reason, but it doesn't really affect anything, so no one cares.")
print()
bst1 = bst

print("#2. Use base_score")
xg_train, xg_test = regenerate_data()
param['base_score'] = 5.8
bst = xgb.train(param, xg_train, num_round)
print(bst.predict(xg_test, output_margin=True))
print(bst.predict(xg_test))
print("In this case all scores/margins have 5.8 added to them initially. And it doesn't really change anything compared to previous case.")
print()
bst2 = bst

print("#3. Use very large base_score and screw up numeric precision")
xg_train, xg_test = regenerate_data()
param['base_score'] = 5.8e10
bst = xgb.train(param, xg_train, num_round)
print(bst.predict(xg_test, output_margin=True))
print(bst.predict(xg_test))
print("In this case all scores/margins have too big number added to them and xgboost thinks all probabilities are equal so picks class 0 as prediction.")
print("But the training actually was fine - only predict is being affect here. If you set normal base margins for test set you can see (also can look at bst.trees_to_dataframe()).")
xg_train, xg_test = regenerate_data() # if we don't regenerate the dataframe here xgboost seems to be either caching it or somehow else remembering that it didn't have base_margins and result will be different.
sbm(xg_test, [0.1, 0.1, 0.1])
print(bst.predict(xg_test, output_margin=True))
print(bst.predict(xg_test))
print()
bst3 = bst

print("#4. Use set_base_margin for training")
xg_train, xg_test = regenerate_data()
# only used in train/test whenever set_base_margin is not applied.
# Peculiar that trained model will remember this value even if it was trained with
# dataset which had set_base_margin. In that case this base_score will be used if
# and only if test set passed to `bst.predict` didn't have `set_base_margin` applied to it.
param['base_score'] = 4.2
sbm(xg_train, [-0.4, 0., 0.8])
bst = xgb.train(param, xg_train, num_round)
sbm(xg_test, [-0.4, 0., 0.8])
print(bst.predict(xg_test, output_margin=True))
print(bst.predict(xg_test))
print("Working - the base margin values added to the classes skewing predictions due to low eta and small number of boosting rounds.")
print("If we don't set base margins for `predict` input it will use base_score to start all scores with. Bizzare, right? But then again, not much difference on what to add here if we are adding same value to all classes' scores.")
xg_train, xg_test = regenerate_data() # regenerate test and don't set the base margin values
print(bst.predict(xg_test, output_margin=True))
print(bst.predict(xg_test))
print()
bst4 = bst

print("Trees bst1, bst2, bst3 are almost identical, because there is no difference in how they were trained. bst4 is different though.")
print(bst1.trees_to_dataframe().iloc[1,])
print()
print(bst2.trees_to_dataframe().iloc[1,])
print()
print(bst3.trees_to_dataframe().iloc[1,])
print()
print(bst4.trees_to_dataframe().iloc[1,])

其输出如下：

#1. No base_score, no set_base_margin
[[0.50240415 0.5003637  0.49870378]
 [0.49863306 0.5003637  0.49870378]]
[0. 1.]
Easy to see that in this case all scores/margins have 0.5 added to them initially, which is default value for base_score here for some bizzare reason, but it doesn't really affect anything, so no one cares.

#2. Use base_score
[[5.8024044 5.800364  5.798704 ]
 [5.798633  5.800364  5.798704 ]]
[0. 1.]
In this case all scores/margins have 5.8 added to them initially. And it doesn't really change anything compared to previous case.

#3. Use very large base_score and screw up numeric precision
[[5.8e+10 5.8e+10 5.8e+10]
 [5.8e+10 5.8e+10 5.8e+10]]
[0. 0.]
In this case all scores/margins have too big number added to them and xgboost thinks all probabilities are equal so picks class 0 as prediction.
But the training actually was fine - only predict is being affect here. If you set normal base margins for test set you can see (also can look at bst.trees_to_dataframe()).
[[0.10240632 0.10036398 0.09870315]
 [0.09863247 0.10036398 0.09870315]]
[0. 1.]

#4. Use set_base_margin for training
[[-0.39458954  0.00102317  0.7973728 ]
 [-0.40044016  0.00102317  0.7973728 ]]
[2. 2.]
Working - the base margin values added to the classes skewing predictions due to low eta and small number of boosting rounds.
If we don't set base margins for `predict` input it will use base_score to start all scores with. Bizzare, right? But then again, not much difference on what to add here if we are adding same value to all classes' scores.
[[4.2054105 4.201023  4.1973724]
 [4.1995597 4.201023  4.1973724]]
[0. 1.]

Trees bst1, bst2, bst3 are almost identical, because there is no difference in how they were trained. bst4 is different though.
Tree                 0
Node                 1
ID                 0-1
Feature           Leaf
Split              NaN
Yes                NaN
No                 NaN
Missing            NaN
Gain       0.000802105
Cover          157.333
Name: 1, dtype: object

Tree                 0
Node                 1
ID                 0-1
Feature           Leaf
Split              NaN
Yes                NaN
No                 NaN
Missing            NaN
Gain       0.000802105
Cover          157.333
Name: 1, dtype: object

Tree                 0
Node                 1
ID                 0-1
Feature           Leaf
Split              NaN
Yes                NaN
No                 NaN
Missing            NaN
Gain       0.000802105
Cover          157.333
Name: 1, dtype: object

Tree                0
Node                1
ID                0-1
Feature          Leaf
Split             NaN
Yes               NaN
No                NaN
Missing           NaN
Gain       0.00180733
Cover         100.858
Name: 1, dtype: object

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

xgboost 多类工作中的 base_score 有什么用？的相关文章

torch.stack() 和 torch.cat() 函数有什么区别？

OpenAI 的强化学习 REINFORCE 和 actor critic 示例具有以下代码加强 https github com pytorch examples blob master reinforcement learning r
使用 Keras、Tensorflow 进行多时间序列维度的 RNN 时间序列预测

我正在尝试在某些时间序列集上运行 RNN LSTM 网络值得一提的是时间序列正在分类我有大约 600 个不同的时间序列每个序列都有 930 个带有特征的时间步长我已将数据结构化为 numpy 3D 数组其结构如下 X 666 o
caret::train：为 mlpWeightDecay（RSNNS 包）指定更多非调整参数

我在使用插入符号包和 RSNNS 包中的 mlpWeightDecay 方法指定学习率时遇到问题 mlpWeightDecay 的调整参数是大小和衰减将大小保持为 4 并在 c 0 0 0001 0 001 0 002 上调整衰减的示例
混淆矩阵错误“分类指标无法处理多标签指标和多类目标的混合”

我得到了 Classification metrics can t handle a mix of multilabel indicator and multiclass targets 当我尝试使用混淆矩阵时出错我正在做我的第一个深度学
在Python中执行局部标准差

我试图获取图像每个像素的局部标准差这意味着对于每个像素我想计算其值及其邻居值的标准差我用了this http docs scipy org doc numpy reference routines statistics html图书馆
如何在 k 均值中使用欧氏距离以外的不同距离公式

我正在处理纬度经度数据我必须根据两点之间的距离进行聚类现在两个不同点之间的距离是 ACOS SIN lat1 SIN lat2 COS lat1 COS lat2 COS lon2 lon1 6371 我想在 R 中使用 k 均值有什
是否有可能在每个训练步骤中获得目标函数值？

在通常的 TensorFlow 训练循环中例如 train op tf train AdamOptimizer minimize cross entropy with tf Session as sess for i in range n
Caffe，在层中设置自定义权重

I have a network In one place I want to use concat As on this picture 不幸的是该网络无法训练为了理解为什么我想连续改变权重这意味着 FC4096 中的所有值一开始都
如何计算两个字符串向量之间的余弦相似度

我有 2 个维度为 6 的向量我想要一个介于 0 和 1 之间的数字 a c HDa 2Pb 2 BxU BuQ Bve b c HCK 2Pb 2 09 F G 谁能解释我应该做什么使用lsa包和该包的手册 create some f
在 Python 中计算分布的对数似然

有什么简单的方法计算任何分布的对数似然适合数据 OP 的解决方案 Python 有 82 个标准发行版可以找到here https docs scipy org doc scipy reference stats html continu
在提供给 sklearn 管道中的分类器之前获取所选特征的名称和数量

我在用sel SelectFromModel ExtraTreesClassifier 10 threshold mean 选择我的数据集中最重要的特征然后我想将这些选定的特征提供给我的 keras 分类器但是我的基于 keras 的神
如何防止 Keras 在训练期间计算指标

我正在使用 Tensorflow Keras 2 4 1 并且有一个无监督的自定义指标它将我的几个模型输入作为参数例如 model build model returns a tf keras Model object my met
如何反转 dropout 来补偿 dropout 的影响并保持期望值不变？

我正在学习神经网络中的正则化deeplearning ai课程在dropout正则化中教授说如果应用dropout 计算出的激活值将比不应用dropout时测试时更小因此我们需要扩展激活以使测试阶段更简单我理解这个事实但我
将索引数组转换为 NumPy 中的 one-hot 编码数组

给定一个一维索引数组 a array 1 0 3 我想将其一次性编码为二维数组 b array 0 1 0 0 1 0 0 0 0 0 0 1 创建归零数组b有足够的列即a max 1 然后对于每一行i 设置a i 第列至1 gt
根据两个预先计算的直方图报告两个样本的 K-S 统计量

Problem 在这里我绘制了存储在文本文件中的 2 个数据集在列表中 dataset 每个包含 218 亿个数据点这使得数据太大而无法作为数组保存在内存中我仍然能够将它们绘制为直方图但我不确定如何通过2 样本KS测试 http
预测测试图像时出现错误 - 无法重塑大小数组

我正在尝试使用 TensorFlow 和 Keras 在 Python 中进行图像识别并且我已经关注了下面的博客 https stackabuse com image recognition in python with tensorfl
在监督分类中，使用partial_fit() 的MLP 比使用fit() 的表现更差

我正在使用的学习数据集是灰度图像flatten让每个像素代表一个单独的样本第二张图像在训练后将被逐像素分类Multilayer perceptron MLP 前一个分类器我遇到的问题是MLP当它一次接收到所有训练数据集时表现更好 fit
Tensorflow conv2d_transpose 大小错误“out_backprop 的行数与计算的不匹配”

我正在张量流中创建一个卷积自动编码器我得到了这个确切的错误 tensorflow python framework errors InvalidArgumentError Conv2DBackpropInput Number of row
ValueError：请使用“Layer”实例初始化“TimeDistributed”层

我正在尝试构建一个可以在音频和视频样本上进行训练的模型但出现此错误ValueError Please initialize TimeDistributed layer with a Layer instance You passed Te
如何定义“f_n-chi-square”函数并使用“uniroot”求置信区间？

I want to get a 95 confidence interval for the following question 我已经写了函数f n在我的 R 代码中我首先使用 Normal 随机采样 100 个样本然后定义函数h

随机推荐

MongoDB E11000重复键错误

我有一个模型在第一次发布后不断出错我正在创建一个调度应用程序该应用程序有 X 天包含房间和房间的时间段我遇到的问题是在数据库中创建日期对象为了便于阅读我只需要一个键值对 day model js var mongoose req
现代 C++ 方法重复代码设定次数

很简单是否有一种更简单的方法来重复一个块一定次数其中块内部不需要计数器变量简单的解决方案当然是 for int i 0 i lt repetitions i do your thing i is not used here 然而既然
全局字典不需要关键字global来修改吗？ [复制]

这个问题在这里已经有答案了我想知道为什么我可以更改全局字典而不用global关键词为什么其他类型必须这样做这背后有什么逻辑吗例如代码 usr bin env python3 stringvar mod dictvar key1 1
从返回堆栈恢复的片段

我正在使用兼容包来将 Fragment 与 Android 2 2 一起使用当使用片段并将它们之间的转换添加到后台堆栈时我希望实现与活动的 onResume 相同的行为即每当片段弹出后被带到前台对用户可见时backstack 我
Bash，不同文件测试的令人困惑的结果（test -f）

我在 bash 中对这个表达式感到困惑 var empty var test f var echo test if such file exists 0 and this file exists amazing test f echo le
在 Django 中合并两个具有相同主键的不相关表/模型

我有两个具有相同主键的不相关表 ip mac 11 11 11 11 48 C0 09 1F 9B 54 33 33 33 33 4E 10 A3 BC B8 9D 44 44 44 44 CD 00 60 08 56 2A 55 55 5
flutter：NoSuchMethodError：在 null 上调用 getter 'isEmpty'

我正在调用 Web API 并接收配置文件模型作为响应当我使用下面的代码时它会抛出一个错误 try if profile message isEmpty Navigator of context pushNamed home else
将字符串拆分为多个不同的字符

我想使用一个或多个分隔符来分割字符串例如 a b c 拆分为和将给出列表 a b c 目前我在标准库中看不到任何东西可以做到这一点而且我自己的尝试有点笨拙例如 def my split string split chars if
Flutter SliverAppBar 与选项卡覆盖内容

我已经遵循了这个教程 https medium com diegovoper flutter collapsing toolbar sliver app bar 14b858e87abe 创建带有 TabBar 的折叠工具栏问题是当我滚
如何找到某个网站的JSON数据的链接

我刚刚完成了一个关于如何开发一个 Android 应用程序的教程该应用程序使用 JSON 数据从博客中检索更新的帖子用于检索帖子的 JSON 数据的链接是以 api get recent summary 结尾的博客名称如何找到不同网站
onchange 不适用于单选按钮

我有一些单选按钮应该调用 hider something 当它们发生变化时即当它们被选中或取消选中时这是可行的即当选中时它们会调用 JS 函数但是如果由于从该组中选择另一个单选按钮而未选中它们则它不会再次调用 js 脚本除
为什么当我重新声明 Perl foreach 控制变量时没有收到警告？

为什么重新声明没有发出警告 i在下面的代码中 usr bin perl use strict use warnings use Data Dumper for my i 1 3 my i DUMMY print Dumper i 实际上您
字符串到布尔值转换的最佳性能

将字符串转换为布尔值时以下哪个选项具有最佳性能 boolean value new Boolean true booleanValue boolean value Boolean valueOf true boolean value Bo
在 Oracle 中找不到请求的 .Net Framework 数据提供程序

string constr 数据源 DESCRIPTION ADDRESS PROTOCOL tcp HOST spp01 PORT 1521 CONNECT DATA SID Global 用户 ID SYSMAN 密码 testman3
将两个 Uint32Array 值转换为 Javascript 数字

我找到了一个代码here将 Javascript 数字转换为内部 IEEE 表示形式作为两个 Uint32 值 function DoubleToIEEE f var buf new ArrayBuffer 8 new Float64Arr
收到“530 5.7.0 必须首先发出 STARTTLS 命令。”通过netcat发送邮件时出错

我正在尝试使用 netcat 发送电子邮件这就是我得到的 MacBook Pro nc smtp gmail com 25 220 mx google com ESMTP h8sm66301168eew 16 gsmtp Helo gma
用jquery更改flash src？

您好我有一个显示一些链接的闪存菜单但是当用户登录时我想将菜单从 menu1 更改为 menu2 这样它将显示我的帐户而不是注册下面的代码适用于我的闪光灯 div div
如何在android中以编程方式更改应用程序小部件中的图像

我设计了一个 Android 应用程序小部件其中有两个ImageView我想更改两个图像ImageView当单击图像以及调用方法时现在我用RemoteView像这样 RemoteViews views1 new RemoteViews
为什么 Activity 中的 onCreate() 受到保护？

为什么Activity中的onCreate 受到保护或者我应该问为什么它有效受保护的方法只能在类本身或其后代的内部调用所以Android系统不能像 act onCreate 那样调用它那么怎么称呼呢顺便说一句为什么 OnCl
xgboost 多类工作中的 base_score 有什么用？

我正在尝试探索 Xgboost 二元分类以及多类的工作原理在二进制类的情况下我观察到基本分数被认为是起始概率并且在计算时也显示出重大影响Gain and Cover 在多类别的情况下我无法弄清楚的重要性基本分数参数因为它向我显示

xgboost 多类工作中的 base_score 有什么用？

xgboost 多类工作中的 base_score 有什么用？ 的相关文章

随机推荐

热门标签

xgboost 多类工作中的 base_score 有什么用？的相关文章