scikit-learn 中的 class_weight 参数如何工作？

2023-11-29

我很难理解如何class_weightscikit-learn 的逻辑回归中的参数运行。

情况

我想使用逻辑回归对非常不平衡的数据集进行二元分类。这些类别被标记为 0（阴性）和 1（阳性），观察到的数据比例约为 19:1，大多数样本具有阴性结果。

第一次尝试：手动准备训练数据

我将拥有的数据分成不相交的数据集进行训练和测试（大约 80/20）。然后我手工对训练数据进行随机采样，得到比19:1不同比例的训练数据；从 2:1 -> 16:1。

然后，我在这些不同的训练数据子集上训练逻辑回归，并绘制召回率 (= TP/(TP+FN)) 作为不同训练比例的函数。当然，召回率是根据观察到的比例为 19:1 的不相交 TEST 样本计算的。请注意，虽然我在不同的训练数据上训练了不同的模型，但我在相同（不相交）的测试数据上计算了所有模型的召回率。

结果正如预期的那样：在 2:1 的训练比例下，召回率约为 60%，当达到 16:1 时，召回率下降得相当快。有几个比例为 2:1 -> 6:1，召回率远高于 5%。

第二次尝试：网格搜索

接下来，我想测试不同的正则化参数，因此我使用 GridSearchCV 并制作了一个由多个值组成的网格C参数以及class_weight范围。将我的 n:m 比例的负:正训练样本翻译成字典语言class_weight我以为我只是指定几个字典如下：

{ 0:0.67, 1:0.33 } #expected 2:1
{ 0:0.75, 1:0.25 } #expected 3:1
{ 0:0.8, 1:0.2 }   #expected 4:1

我还包括None and auto.

这一次的结果完全出乎意料。对于每个值，我的所有回忆都很小（class_weight except auto。所以我只能假设我对如何设置的理解class_weight字典错了。有趣的是，class_weight对于所有值，网格搜索中“auto”的值约为 59%C，我猜它平衡为 1:1？

我的问题

你如何正确使用class_weight在训练数据中实现与实际提供的数据不同的平衡？具体来说，我传递给什么字典class_weight使用 n:m 比例的负：正训练样本？
如果你通过了各种class_weight字典到 GridSearchCV，在交叉验证期间，它会根据字典重新平衡训练折叠数据，但使用真实的给定样本比例来计算测试折叠上的评分函数吗？这一点至关重要，因为任何指标只有来自观察到的比例的数据才对我有用。
什么是auto的价值class_weight尽量按比例做？我阅读了文档，我认为“平衡数据与其频率成反比”只是意味着它使其达到 1:1。它是否正确？如果没有，有人可以澄清吗？

首先，仅仅依靠回忆可能并不好。通过将所有内容分类为正类，您可以简单地实现 100% 的召回率。我通常建议使用 AUC 来选择参数，然后找到您感兴趣的操作点（例如给定的精度水平）的阈值。

For how class_weight有效：它会惩罚样本中的错误class[i] with class_weight[i]而不是 1。所以较高的班级权重意味着您想要更加重视某个班级。从你的说法来看，0 类的出现频率似乎是 1 类的 19 倍。所以你应该增加class_weight类 1 相对于类 0，例如 {0:.1, 1:.9}。如果class_weight总和不等于 1，它基本上会改变正则化参数。

For how class_weight="auto"有效，你可以看看这次讨论。在开发版本中您可以使用class_weight="balanced"，这更容易理解：它基本上意味着复制较小的类，直到拥有与较大类中的样本一样多的样本，但以隐式方式进行。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

scikitlearn

scikit-learn 中的 class_weight 参数如何工作？的相关文章

AttributeError：模块“keras.engine”没有属性“Layer”

当我试图运行时Parking Slot mask rcnn py文件我收到如下错误mrcnn model py文件我该如何解决 gt 2021 06 17 08 25 18 585897 W tensorflow stream execut
Pandas groupby：根据另一列中的值更改一列中的值

我会尽力解释我的问题但我是 Pandas 新手所以请耐心等待我有一个 Pandas 数据框df Random ID Seq ID Type Seq Token 0 8 1 User First 1 8 2 Agent Second 2
Cassandra：在 session.execute() 期间“无法完成对任何主机的操作”

卡桑德拉版本 1 2 2Thrift API 版本 19 35 0CQL支持的版本 2 0 0 3 0 1 默认 3 0 1 适用于 python 3 4 的 cassandra 驱动程序使用 sudo 运行 cassandra bin c
意外的缩进错误，但缩进看起来正确

我一直在尝试运行此代码但它引发了缩进错误无论我尝试什么结果都是一样的如果我删除之前的缩进def str self 和代码的其余部分它工作正常但在输出时它不显示问题而是显示问题对象 def str self Indentat
从第二个 DF 中查找一个 DF 中属于同等大小的矩形（由两个点给出）的点的快速（矢量化）方法

我的数据框 A 如下所示 type latw lngs late lngn 0 1000 45 457966 9 174864 45 458030 9 174907 1 1000 45 457966 9 174864 45 458030 9
使用 lxml 和 xpath 解析 xml 文件时如何保留 &

我试图从输入 xml 文件中提取一些信息并使用 lxml 和 xpath 指令将其打印到输出文件中我在读取如下所示的 xml 标签时遇到问题
Django - 403 Forbidden CSRF 验证失败

我在 Django 中为我的网站提供了一个联系表单当我在本地测试它时它工作正常但现在当我尝试实时提交我的联系表单时它总是出现 403 禁止 CSRF 验证失败 view def contact request if reques
为什么tcl/tkinter只支持BMP字符？

我正在尝试在基于 tkinter 和 tcl 构建的 gui 中查询和显示 utf 8 编码字符但是我发现 tkinter 无法显示 4 字节字符即大于 U FFFF 的 unicode 代码点为什么会这样呢实现非 BMP 字符对
Flask / Werkzeug - 套接字卡在 CLOSE_WAIT 中

我遇到过一种情况 API 构建于Flask 宁静 https github com flask restful flask restful间歇性变得无反应目前它从 Werkzeug 运行我知道它仅用于非生产用途并且是单线程的让事情变
Python 的贝叶斯垃圾邮件过滤库

我正在寻找一个可以进行贝叶斯垃圾邮件过滤的 Python 库我查看了 SpamBayes 和 OpenBayes 但两者似乎都没有维护我可能是错的谁能推荐一个好的 Python 或 Clojure Common Lisp 甚至 Rub
我怎样才能用Python中的语音识别来检测一个单词

我知道如何用 Python 检测语音但这个问题更具体如何让 Python 只监听一个单词然后如果 Python 可以识别该单词则返回 True 我知道我可以让 Python 一直监听然后做出类似的东西伪代码 while True
忽略 NaN 的列表理解

我正在尝试构建一个列表理解其条件是不导入 nan 值但运气不佳以下是当前代码以及结果输出什么条件会将 nan 从列表中删除 def generate labels filtered df columnName return labe
Django：在管理界面中显示多对多项目的列表

这可能是一个简单的问题但我似乎无法理解我在 models py 中有两个简单的模型 Service 和 Host Host services 与 Service 具有 m2m 关系换句话说一台主机有多个服务一个服务可以驻留在多个主
如何将字符串转换为二进制？

我需要一种方法来获取 python 中字符串的二进制表示形式例如 st hello world toBinary st 是否有一个模块可以以某种巧妙的方式执行此操作像这样的东西吗 gt gt gt st hello world gt g
使用 Keras 时，验证集中未见的类别会出现错误

我有由数值变量和分类变量组成的数据分类变量有很多类别因此我使用嵌入来表示这些类别我的模型是一个简单的神经网络我知道当你定义嵌入层时你需要通过input dim number of categories 1为了解释训练中看不见的类别
将人员分配到床位 - 自动化方法[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我每年都会帮助举办青年营将与会者分配到卧室是一项艰巨的任务有 92 个卧室活动持续一周与会者停留的时间长短不一而且床需要重复
python - 从完整地址获取邮政编码

我有一个数据框其中一列中有完整地址我需要创建一个仅包含邮政编码的单独列有些地址只有五位数字的邮政编码而其他地址则有额外的四位数字如何拆分列以获取邮政编码示例数据 d name bob john address 123 6th S
在 Python 中将主题标头添加到 server.sendmail()

我正在编写一个 python 脚本来从终端发送电子邮件在我目前发送的邮件中它没有主题我们如何为此电子邮件添加主题我当前的代码 import smtplib msg From email protected cdn cgi l ema
为文件中的每个单词创建字典并计算其后面的单词的频率

我正在尝试解决一个难题却迷失了方向这就是我应该做的 INPUT file OUTPUT dictionary Return a dictionary whose keys are all the words in the file br
Django ALLOWED_HOSTS 与 CORS(django-cors-headers)

ALLOWED HOSTS 和 CORS 之间有什么区别如果我定义了 ALLOWED HOSTS 我还需要定义 CORS 吗我没有使用 django 模板我也有可能动态定义这两个吗我认为没有我使用 django 作为后端并在不同

随机推荐

为什么在reduce中使用减法结果不一致？

鉴于以下情况 val rdd List 1 2 3 我假设rdd reduce x y gt x y 会回来 4 i e 1 2 3 4 但它返回了2 Why 来自 RDD 源代码以及docs Reduces the elements o
非异步执行路径能否在“异步”方法中返回同步结果

考虑以下方法 public async Task
为什么 $state.transitionTo 或 $state.go 不显示新的 HTML 部分？

下面是一段代码用于在每次 UI 路由器状态更改之前检查用户权限一切正常除了当权限正常时到新状态的转换使用 state go 如下所示或使用 state transitionTo 似乎根本没有做任何事情控制台消息已记录但仅此而
matplotlib 未正确显示 3D 平面的交集 [重复]

这个问题在这里已经有答案了我想绘制两个平面并找到它们的相交线但我得到这个结果无法判断它们相交的位置因为一个平面覆盖另一个平面 3D 投影应该隐藏平面的不可见部分我如何使用来获得这个结果绘图库你可以清楚地看到这些平原should相
如何在 GtkTreeView 中交替亮/暗行？

我已阅读并尝试了该问题的现有解决方案但无法让它们发挥作用我希望有人能指出我做错了什么或者告诉我为什么这些解决方案不再有效 https thegnomejournal wordpress com 2011 03 15 styling g
我可以根据之前的参数设置默认参数吗？

是否可以使用函数参数列表中先前的参数作为参数列表中后续参数的默认值例如 void f int a int b a int c b 如果可以的话有什么使用规则吗答案是否定的你不能您可以使用重载获得您想要的行为 void f int
Flexbox - justify-content: center 和align-items: center 不起作用？

我有一个非常基本的 Flex 设置并且无论出于何种原因有问题的 div 不会在其父标签内垂直居中您可以在下面看到单独的测试用例 likeness rank table border radius 3px margin bottom 2
如何在 Java Swing 中创建圆形标题边框

我确实了解要创建标题边框您需要执行以下操作 BorderFactory createTitledBorder Your Title 然而这会创建一个矩形边框而我需要一个带有弯角的矩形现在据我了解您可以通过以下方式创建自己的自定义
如何从 JSON 数组将数据加载到自定义列表视图

我已将数据从 JSON 数组加载到普通列表视图如下所示 JSONArray jArray new JSONArray result final String array spinner new String jArray length f
file_get_contents 在代理后面？

在工作中我们必须使用代理来访问 80 端口例如我们为每个用户都有自己的自定义登录名我的临时解决方法是使用curl 通过代理以我自己的身份登录并访问我需要的外部数据是否有某种高级 php 设置我可以设置以便在内部每当它尝试调用类似
RealityKit 中的粒子系统

RealityKit中有粒子系统吗如果是这样有人可以指出我正确的文档文章吗到目前为止我在 RealityKit 模块中没有找到任何粒子系统 RealityKit 中的粒子系统可用于visionOS 1 0 and tvOS 17
带有 VSTS 的 SonarCloud 出现错误 Duplicate ProjectGuid: "00000000-0000-0000-0000-000000000000"

我们将 SonarCloud 添加到大型解决方案的构建管道中我们的解决方案中仅分析了一个项目但我们看到了此警告警告以下项目没有有效的 ProjectGuid 并且不是使用有效的解决方案 sln 构建的因此将从分析中跳过 D a 1
如何在控制台应用程序中使文本居中？ [复制]

这个问题在这里已经有答案了我正在创建一个控制台应用程序我需要将文本居中有没有一种简单的方法可以做到这一点或者我是否必须在文本之前放置空格直到它居中感谢您的帮助例如使用作为控制台的中心你好世界 string s Hello
R - Rselenium - 使用 = 'id' 导航下拉菜单/列表/框

如何通过 using id 导航动态下拉列表例如 remDr findElement using id value main ddYear 我可以找到并单击使用findElement 单击后如果我知道我的目标选择有多少个向下箭头我可以
将sql字符串拆分为单词

我想将字符串拆分成如下所示的单词所有字符串的输出应该相同 INPUT 1 This is a string 2 This is a string 3 This is a string 4 This is a string OUTPUT 这
不使用 MFMessageComposeViewController 发送消息

我喜欢制作自己的 iMessages 消息应用程序该应用程序基本上已准备就绪但我不知道如何在不显示 MFMessageComposeViewController 的情况下发送 iMessage 我知道有办法他们在 ByteSMS 和所
缩小 C++0x 中的转换范围。是只有我这么认为，还是这听起来像是一个重大改变？

C 0x 将使以下代码和类似代码格式错误因为它需要所谓的缩小转换范围 of a double to a int int a 1 0 我想知道这种初始化在现实世界的代码中是否经常使用此更改会破坏多少代码如果您的代码受到影响需要付出很大
使用两个 Android 应用程序的内容提供程序示例

我想要insert or delete我当前的 Android 应用程序中另一个 Android 应用程序数据库中的值我搜索了很多大家都说用 content provider 它不与两个应用程序一起使用所有两个应用程序都在一个应用程序
android:largescreens: = "true" 的属性值语法无效

我正在开发一个 android 应用程序 minSdkVersion 为 11 targetSdkVersion 为 17 我正在为多种屏幕尺寸设计这个应用程序所以我将对所有屏幕的支持放在清单文件中我希望这个应用程序支持所有密度我的
scikit-learn 中的 class_weight 参数如何工作？

我很难理解如何class weightscikit learn 的逻辑回归中的参数运行情况我想使用逻辑回归对非常不平衡的数据集进行二元分类这些类别被标记为 0 阴性和 1 阳性观察到的数据比例约为 19 1 大多数样本具有阴性结果

scikit-learn 中的 class_weight 参数如何工作？

scikit-learn 中的 class_weight 参数如何工作？ 的相关文章

随机推荐

热门标签

scikit-learn 中的 class_weight 参数如何工作？的相关文章