使用 xgboost 分类器进行多类分类？

2024-01-29

我正在尝试使用 xgboost 进行多类分类，并使用此代码构建了它，

clf = xgb.XGBClassifier(max_depth=7, n_estimators=1000)

clf.fit(byte_train, y_train)
train1 = clf.predict_proba(train_data)
test1 = clf.predict_proba(test_data)

这给了我一些好的结果。我的案例的对数损失低于 0.7。但浏览了几页后，我发现我们必须使用 XGBClassifier 中的另一个目标来解决多类问题。以下是这些页面的推荐内容。

clf = xgb.XGBClassifier(max_depth=5, objective='multi:softprob', n_estimators=1000, 
                        num_classes=9)

clf.fit(byte_train, y_train)  
train1 = clf.predict_proba(train_data)
test1 = clf.predict_proba(test_data)

该代码也可以工作，但与我的第一个代码相比，它需要花费很多时间才能完成。

为什么我的第一个代码也适用于多类案例？我已经检查过它的默认目标是二元：用于二元分类的逻辑，但它对于多类确实效果很好？如果两者都正确，我应该使用哪一个？

事实上，即使默认的 obj 参数XGBClassifier is binary:logistic，它会内部判断标签y的类别数。当类号大于2时，会修改obj参数为multi:softmax.

https://github.com/dmlc/xgboost/blob/master/python-package/xgboost/sklearn.py https://github.com/dmlc/xgboost/blob/master/python-package/xgboost/sklearn.py

class XGBClassifier(XGBModel, XGBClassifierBase):
    # pylint: disable=missing-docstring,invalid-name,too-many-instance-attributes
    def __init__(self, objective="binary:logistic", **kwargs):
        super().__init__(objective=objective, **kwargs)

    def fit(self, X, y, sample_weight=None, base_margin=None,
            eval_set=None, eval_metric=None,
            early_stopping_rounds=None, verbose=True, xgb_model=None,
            sample_weight_eval_set=None, callbacks=None):
        # pylint: disable = attribute-defined-outside-init,arguments-differ

        evals_result = {}
        self.classes_ = np.unique(y)
        self.n_classes_ = len(self.classes_)

        xgb_options = self.get_xgb_params()

        if callable(self.objective):
            obj = _objective_decorator(self.objective)
            # Use default value. Is it really not used ?
            xgb_options["objective"] = "binary:logistic"
        else:
            obj = None

        if self.n_classes_ > 2:
            # Switch to using a multiclass objective in the underlying
            # XGB instance
            xgb_options['objective'] = 'multi:softprob'
            xgb_options['num_class'] = self.n_classes_

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

machinelearning

scikitlearn

xgboost

使用 xgboost 分类器进行多类分类？的相关文章

Django 的内联管理：一个“预填充”字段

我正在开发我的第一个 Django 项目我希望用户能够在管理中创建自定义表单并向其中添加字段当他或她需要它们时为此我在我的项目中添加了一个可重用的应用程序可在 github 上找到 https github com stephen
元组有什么用？

我现在正在学习 Python 课程我们刚刚介绍了元组作为数据类型之一我阅读了它的维基百科页面但是我无法弄清楚这种数据类型在实践中会有什么用处我可以提供一些需要一组不可变数字的示例吗也许是在 Python 中这与列表有何不同每
如何用python脚本控制TP LINK路由器

我想知道是否有一个工具可以让我连接到路由器并关闭它然后从 python 脚本重新启动它我知道如果我写 import os os system ssh l root 192 168 2 1 我可以通过 python 连接到我的路由器但是
将html数据解析成python列表进行操作

我正在尝试读取 html 网站并提取其数据例如我想查看公司过去 5 年的 EPS 每股收益基本上我可以读入它并且可以使用 BeautifulSoup 或 html2text 创建一个巨大的文本块然后我想搜索该文件我一直在使用
Pandas 日期时间格式

是否可以用零后缀表示 pd to datetime 似乎零被删除了 print pd to datetime 2000 07 26 14 21 00 00000 format Y m d H M S f 结果是 2000 07 26 14
Python zmq SUB 套接字未接收 MQL5 Zmq PUB 套接字

我正在尝试在 MQL5 中设置一个 PUB 套接字并在 Python 中设置一个 SUB 套接字来接收消息我在 MQL5 中有这个 include
如何使用 Pandas、Numpy 加速 Python 中的嵌套 for 循环逻辑？

我想检查一下表的字段是否TestProject包含了Client端传入的参数嵌套for循环很丑陋有什么高效简单的方法来实现吗非常感谢您的任何建议 def test parameter a list parameter b list g
YOLOv8获取预测边界框

我想将 OpenCV 与 YOLOv8 集成ultralytics 所以我想从模型预测中获取边界框坐标我该怎么做呢 from ultralytics import YOLO import cv2 model YOLO yolov8n pt
datetime.datetime.now() 返回旧值

我正在通过匹配日期查找 python 中的数据存储条目我想要的是每天选择今天的条目但由于某种原因当我将代码上传到 gae 服务器时它只能工作一天第二天它仍然返回相同的值例如当我上传代码并在 07 01 2014 执行它时它
Python 2：SMTPServerDisconnected：连接意外关闭

我在用 Python 发送电子邮件时遇到一个小问题 me my email address you recipient s email address me email protected cdn cgi l email protectio
Python beautifulsoup 仅限 1 级文本

我看过其他 beautifulsoup 得到相同级别类型的问题看来我的有点不同这是网站我正试图拿到右边那张桌子请注意表的第一行如何展开为该数据的详细细分我不想要那个数据我只想要最顶层的数据您还可以看到其他行也可以展开但在本例
如何使用 Mysql Python 连接器检索二进制数据？

如果我在 MySQL 中创建一个包含二进制数据的简单表 CREATE TABLE foo bar binary 4 INSERT INTO foo bar VALUES UNHEX de12 然后尝试使用 MySQL Connector P
pyspark 将 twitter json 流式传输到 DF

我正在从事集成工作spark streaming with twitter using pythonAPI 我看到的大多数示例或代码片段和博客是他们从Twitter JSON文件进行最终处理但根据我的用例我需要所有字段twitter J
加快网络抓取速度

我正在使用一个非常简单的网络抓取工具抓取 23770 个网页scrapy 我对 scrapy 甚至 python 都很陌生但设法编写了一个可以完成这项工作的蜘蛛然而它确实很慢爬行 23770 个页面大约需要 28 小时我看过scr
如何在 Windows 命令行中使用参数运行 Python 脚本

这是我的蟒蛇hello py script def hello a b print hello and that s your sum sum a b print sum import sys if name main hello sys
如何在 pygtk 中创建新信号

我创建了一个 python 对象但我想在它上面发送信号我让它继承自 gobject GObject 但似乎没有任何方法可以在我的对象上创建新信号您还可以在类定义中定义信号 class MyGObjectClass gobject GO
使用for循环时如何获取前一个元素？ [复制]

这个问题在这里已经有答案了可能的重复 Python 循环内的上一个和下一个值 https stackoverflow com questions 1011938 python previous and next values inside
Django-tables2 列总计

我正在尝试使用此总结列中的所有值文档 https github com bradleyayers django tables2 blob master docs pages column headers and footers rst 但页
如何计算Python中字典中最常见的前10个值

我对 python 和一般编程都很陌生所以请友善我正在尝试分析包含音乐信息的 csv 文件并返回最常听的前 n 个乐队从下面的代码中每听一首歌曲都是一个列表中的字典条目格式如下 album Exile on Main Street
Pandas 每周计算重复值

我有一个Dataframe包含按周分组的日期和 ID df date id 2022 02 07 1 3 5 4 2022 02 14 2 1 3 2022 02 21 9 10 1 2022 05 16 我想计算每周有多少 id 与上周重

随机推荐

Sphinx 过滤器 - 过滤器属性之间可以有“OR”吗？

我正在使用 sphinx 列出数据库中的一些项目几乎100 我只是还没弄清楚如何创建一个OR两个不同的过滤器之间例如我在数据库中的对象有开始日期和结束日期我可以filter starting date x y and filter
jquery-file-upload 插件：如何更改上传路径？

我正在尝试使用 blueimp jquery file upload 插件似乎是一个很好的上传器但文档没有帮助当我使用可下载的演示脚本时一切正常但是当我想更改上传路径时这不起作用我尝试在index php中更改操作路径如下
Iterable> 无法确认函数中的泛型 T

这是我的问题 const iterable 1 2 3 function flat
ASP.NET Core 使用多种身份验证方法

同时使用 Cookie 身份验证中间件和 JWT 身份验证中间件当我登录用户时我创建自定义声明并将其附加到基于 cookie 的身份我还从外部源获取一个 jwt 令牌它有自己的声明我使用此令牌来访问外部资源启用身份验证时我的控
选择列表的字典键和值

Dictionary
RecyclerView 平滑滚动到中心位置。安卓

我正在使用水平布局管理器RecyclerView 我需要做RecyclerView接下来的方式当单击某个项目时平滑滚动到该位置并将该项目放在中心RecyclerView 如果可能的话例如从 20 项中选择 10 项所以我没有问题
在 postgres 中创建超级用户

我正在寻找使用 Vagrant 设置 Rails 环境为此它是通过 bash shell 方法配置的其中包括以下行 sudo u postgres createuser
Django：从数据库获取一个对象，如果没有匹配的则为“无”

是否有任何 Django 函数可以让我从数据库中获取对象或者如果没有匹配则没有现在我正在使用类似的东西 foo Foo objects filter bar baz foo len foo gt 0 and foo get or Non
Laravel 5.5 Collection 哪里喜欢

我正在使用集合过滤数据但我需要使用类似的方法我曾尝试这样写 name LIKE value 但它不起作用这是我的方法 protected function filterData Collection collection transf
消除“switch”语句[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案消除使用的方法有哪些switch代码中的语句 Switch 语句本身并不是反模式但如果您正在编写面向对象的代码则应该考虑是否可以更
在将连续查询添加到生产 influxdb 之前测试连续查询的最佳方法是什么？

将新的连续查询添加到生产数据库 influxdb 的最佳方法是什么克隆生产 influxdb 吗我希望避免这种情况有没有一种好的方法可以通过网络管理界面来测试和尝试它们我想你可以创建临时测量设置 CQ 插入一些示例数据并在 CQ
删除 Windows Phone 芒果中的后备条目

我如何删除 wp7 1 中的后退堆栈我有 3 个页面当我从 A 导航到 B 时说 A B C 在 B 中有一个按钮可以添加新的联系方式当我单击它时页面导航到页面C 和在页面 C 中有一个完成按钮当我单击完成按钮时页面导
使用 Ecto 的原始 SQL

我对 Elixir 和 Phoenix Framework 的世界还很陌生我正在尝试遵循 TheFireHoseProject 教程但在使用 Ecto 查询原始 SQL 时遇到问题该教程说这应该有效 defmodule Queries
Perl 如何解析未加引号的裸词？（裸词、标识符）

未加引号的单词在 Perl 中似乎有很多含义 print STDERR msg hash key func param gt arg my x str 如何确定这些的含义下图显示了 Perl 如何按优先级降序解析标识符它也适用于由以下链
进行特征选择、PCA 和标准化的正确顺序？

我知道特征选择可以帮助我删除贡献度较低的特征我知道 PCA 有助于将可能相关的特征减少为一个从而减少维度我知道标准化会将特征转换为相同的尺度但这三个步骤有推荐的顺序吗从逻辑上讲我认为我应该首先通过特征选择来剔除不好的特征然后对
jQuery .get 缓存工作得太好了？

我使用 jQuery get 函数加载模板文件然后通过针对特定 DOM 元素将加载的 HTML 显示到页面的一部分它工作得很好但我最近意识到由于一些令我困惑的原因它正在缓存我的模板文件并屏蔽我所做的更改不要误会我的意思我和下一
google-play-services-maps:17.0.0 即使使用 Android Studio 创建的默认项目也无法正常工作

请帮我我想创建一个基于 Google 地图的项目但是在Android Studio中构建gradle后出现以下错误 ERROR Failed to resolve com google android gms play service
如何在颤动中找到包含在任何元素中的另一个列表的列表？

var firstList 1 2 3 4 5 var secondList 3 5 compare result 3 5 return true var firstList 1 2 3 4 5 var secondList 6 7 8 c
如何在 intellij 社区版中按严重性（主要、次要、严重）对声纳结果进行分组

我想分类SonarQube结果按严重程度严重我已经安装了SonarQubeintellij社区版版本14 1 4 中的插件当我尝试运行声纳时Analyze gt Inspect代码检查窗口按规则显示所有问题但不按主要次要和严重
使用 xgboost 分类器进行多类分类？

我正在尝试使用 xgboost 进行多类分类并使用此代码构建了它 clf xgb XGBClassifier max depth 7 n estimators 1000 clf fit byte train y train train1

使用 xgboost 分类器进行多类分类？

使用 xgboost 分类器进行多类分类？ 的相关文章

随机推荐

热门标签

使用 xgboost 分类器进行多类分类？的相关文章