分类：类内数据倾斜

2024-01-18

我正在尝试构建一个多标签分类器来预测某些输入数据为 0 或 1 的概率。我正在使用神经网络和 Tensorflow + Keras（稍后可能是 CNN）。

问题如下：数据存在很大偏差。负面例子比正面例子多得多，大概是90:10。所以我的神经网络几乎总是输出非常低的正面例子概率。在大多数情况下，使用二进制数它会预测 0。

几乎所有类别的性能都 > 95%，但这是因为它几乎总是预测为零...... 因此，假阴性的数量非常高。

一些建议如何解决这个问题？

以下是我到目前为止考虑的想法：

使用定制的损失函数更多地惩罚假阴性（我的第一次尝试失败了）。与类相似，类中正面例子的权重多于负面例子。这类似于班级权重，但在一个班级内。您将如何在 Keras 中实现这一点？
通过克隆正例来对正例进行过采样，然后过度拟合神经网络，以使正例和负例达到平衡。

提前致谢！

你走在正确的轨道上。

通常，您可以在训练之前平衡数据集，即减少代表性过高的类别，或者为代表性不足的类别生成人工（增强）数据以提高其出现率。

减少人数过多的班级这个更简单，您只需随机选择代表性不足的类中尽可能多的样本，丢弃其余的并使用新的子集进行训练。当然，缺点是您会失去一些学习潜力，具体取决于您的任务的复杂程度（有多少功能）。
增强数据根据您正在使用的数据类型，您可以“增强”数据。这仅意味着您从数据中获取现有样本并稍微修改它们并将它们用作附加样本。这对于图像数据、声音数据非常有效。您可以翻转/旋转、缩放、添加噪音、增加/减少亮度、缩放、裁剪等。这里重要的是你要遵守现实世界中可能发生的事情。例如，如果您想识别“70 英里/小时限速”标志，那么翻转它没有意义，您永远不会遇到真正翻转的 70 英里/小时标志。如果你想识别一朵花，翻转或旋转它是允许的。对于声音来说也是如此，稍微改变音量/频率不会有太大影响。但是反转音轨会改变它的“含义”，您不必识别现实世界中反向说出的单词。

现在，如果您必须增加销售数据、元数据等表格数据……这会更加棘手，因为您必须小心not将您自己的假设隐式地输入到模型中。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

tensorflow

neuralnetwork

Keras

multilabelclassification

分类：类内数据倾斜的相关文章

元组有什么用？

我现在正在学习 Python 课程我们刚刚介绍了元组作为数据类型之一我阅读了它的维基百科页面但是我无法弄清楚这种数据类型在实践中会有什么用处我可以提供一些需要一组不可变数字的示例吗也许是在 Python 中这与列表有何不同每
使用 Python 从文本中删除非英语单词

我正在 python 上进行数据清理练习我正在清理的文本包含我想删除的意大利语单词我一直在网上搜索是否可以使用像 nltk 这样的工具包在 Python 上执行此操作例如给出一些文本 Io andiamo to the beach w
Pandas 日期时间格式

是否可以用零后缀表示 pd to datetime 似乎零被删除了 print pd to datetime 2000 07 26 14 21 00 00000 format Y m d H M S f 结果是 2000 07 26 14
将 python2.7 与 Emacs 24.3 和 python-mode.el 一起使用

我是 Emacs 新手我正在尝试设置我的 python 环境到目前为止我已经了解到在 python 缓冲区中使用 python mode el C c C c将当前缓冲区的内容加载到交互式 python shell 中显然使用了什么
如何使用 Pandas、Numpy 加速 Python 中的嵌套 for 循环逻辑？

我想检查一下表的字段是否TestProject包含了Client端传入的参数嵌套for循环很丑陋有什么高效简单的方法来实现吗非常感谢您的任何建议 def test parameter a list parameter b list g
如何在 Python 中解析和比较 ISO 8601 持续时间？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个 Python v2 库它允许我解析和比较 ISO 8601 持续时间may处于不同单
为什么 PyYAML 花费这么多时间来解析 YAML 文件？

我正在解析一个大约 6500 行的 YAML 文件格式如下 foo1 bar1 blah name john age 123 metadata whatever1 whatever whatever2 whatever stuff thi
从Python中的字典列表中查找特定值

我的字典列表中有以下数据 data I versicolor 0 Sepal Length 7 9 I setosa 0 I virginica 1 I versicolor 0 I setosa 1 I virginica 0 Sepal
如何在不丢失注释和格式的情况下更新 YAML 文件 / Python 中的 YAML 自动重构

我想在 Python 中更新 YAML 文件值而不丢失 Python 中的格式和注释例如我想改造 YAML 文件 value 456 nice value to value 6 nice value 界面类似于 y yaml load
“隐藏”内置类对象、函数、代码等的名称和性质[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我很好奇模块中存在的类builtins无法直接访问的例如 type lambda 0 name function of module
如何通过 TLS 1.2 运行 django runserver

我正在本地 Mac OS X 机器上测试 Stripe 订单我正在实现这段代码 stripe api key settings STRIPE SECRET order stripe Order create currency usd em
javascript 是否有等效的 __repr__ ？

我最接近Python的东西repr这是 function User name password this name name this password password User prototype toString function r
pip 列出活动 virtualenv 中的全局包

将 pip 从 1 4 x 升级到 1 5 后pip freeze输出我的全局安装系统软件包的列表而不是我的 virtualenv 中安装的软件包的列表我尝试再次降级到 1 4 但这并不能解决我的问题这有点类似于这个问题 http
如何断言 Unittest 上的可迭代对象不为空？

向服务提交查询后我会收到一本字典或一个列表我想确保它不为空我使用Python 2 7 我很惊讶没有任何assertEmpty方法为unittest TestCase类实例现有的替代方案看起来并不正确 self assertTrue
为什么 Pickle 协议 4 中的 Pickle 文件是协议 3 中的两倍，而速度却没有任何提升？

我正在测试 Python 3 4 我注意到 pickle 模块有一个新协议因此我对 2 个协议进行了基准测试 def test1 pickle3 open pickle3 wb for i in range 1000000 pickle
Python ImportError：无法导入名称 __init__.py

我收到此错误 ImportError cannot import name life table from cdc life tables C Users tony OneDrive Documents Retirement retirem
Pandas 每周计算重复值

我有一个Dataframe包含按周分组的日期和 ID df date id 2022 02 07 1 3 5 4 2022 02 14 2 1 3 2022 02 21 9 10 1 2022 05 16 我想计算每周有多少 id 与上周重
使用 z = f(x, y) 形式的 B 样条方法来拟合 z = f(x)

作为一个潜在的解决方案这个问题 https stackoverflow com questions 76476327 how to avoid creating many binary switching variables in gekk
Kivy - 单击按钮时编辑标签

我希望 Button1 在单击时编辑标签 etykietka 但我不知道如何操作你有什么想法吗 class Zastepstwa App def build self lista WebOps getList layout BoxLayo
使用随机放置的 NaN 创建示例 numpy 数组

出于测试目的我想创建一个M by Nnumpy 数组与c随机放置的 NaN import numpy as np M 10 N 5 c 15 A np random randn M N A mask np nan 我在创建时遇到问题mas

随机推荐

声明 std::string 变量后，Cout 没有输出

我编写了一个简单的程序返回作为参数传递的 IP 地址的主机名该程序使用两个函数 getaddrinfo 和 getnameinfo 我正在使用 Linux Mint Netbeans IDE 和 G 编译器输出没问题没有错误但是当
阿拉伯字符“？？？？？？”关于 php 和 mysql [重复]

这个问题在这里已经有答案了这是我的问题我有一个阿拉伯数据库 mysqli UTF8 general ci 并且我的 php 文件的字符集是 UTF 8 当我出售数据时我得到在 php 上我的管理员我可以毫无问题地写入和读取在 p
Django 模型主键作为一对

我正在尝试制作一个应用程序用户可以登录他们的个人资料并将歌曲添加到他们最喜欢的列表中我为此定义了 M2M 关系我的问题是如何说歌曲歌手的组合是独特的我搜索了一下发现通过unique together也许可以这是设置的正确方
使用 LEFT JOIN 删除

我想根据引用第一个表的另一个表中存在的数据从表中删除但是当我将其作为 SELECT stetement 运行时我有有效的代码并显示要删除的值但是当我将其更改为删除它给了我错误我不明白它们为什么在那里 DELETE leadCust
如何使用facet_wrap在每个方面具有不同数字的离散类别之间创建相等的距离

我的目标是使图中所有国家之间的距离大致相等例如在第一类中 Increase 国家分散另一方面第二类和第三类国家彼此距离太近这迫使我减小国家文本的大小例如 IS UK 和绘制的估计值例如 1 5 1 2 因此一旦我将此文件提取
GCE Kubernetes 会话持久化

我正在 GCE Kubernetes 上运行一个 wordpress woocommerce 网站但由于会话持久性而在扩展时遇到问题 LoadBalancer GCE Ingress 将所有流量发送到反向代理然后反向代理将流量发送到我设
在 Scala 中将列表[Try[A]] 转换为列表[A]

我想从输入数据中过滤掉错误的输入我目前正在使用scala util Try包装任何异常下面是一个简单的例子其中 3I 抛出一个NumberFormatException 我想知道在 Scala 中是否有更好的方法来做到这一点 val
OpenGL 和 QtQuick 纹理问题

我正在基于 Qt 附带的 openglunderqml 示例在 C 中开发一个简单的 QQuickItem 实现我做了一些修改以使用不同的着色器和加载的两个纹理这个想法是着色器将在两个纹理之间交叉淡入淡出本质上只是我加载到纹理中的图像
Flutter Web：堆栈和耀斑问题

我试图在 Flutter Web 开发频道 v1 13 2 上创建一个简单的网页但出现了这个奇怪的问题当我尝试在堆栈小部件中放置耀斑动画时该堆栈小部件分别有 2 个附加小部件一个背景和一个居中文本耀斑似乎没有出现但是当我移除背景
如何将 8 个打包的 32 位整数（在 __m256i 中）的 +-1 符号打包为 64 位整数的字节？

给定一个 m256i打包 32 位有符号整数的价值如何获取每个字节所在的单个 64 位数字1如果原始的相应 32 位有符号整数 m256i大于或等于0 并得到 1如果该 32 位整数是负数 AVX2 可能还有 AVX512 很有趣这是另
Jenkins 要求接受 TFS EULA

我在 Jenkins 上创建了一个附加到 TFS 服务器的构建作业我使用 Team Explorer Everywhere 来促进这一点我第一次运行该作业时收到以下消息 Error You must accept the End Us
如何使用 Express.js 指定 HTTP 错误代码？

我努力了 app get function req res next var e new Error error message e status 400 next e and app get function req res next r
FIND_IN_SET 有两个字符串

我有这个员工列表的员工表 ID EMPLOYEE ID SKILLS 1 1 3 4 2 2 3 5 2 3 3 1 5 和列
ARC Welder 打包的 Android 应用程序只能在 Chrome 操作系统上使用吗？

如果我使用 Google ARC Welder 打包 Android 应用程序并通过 Chrome 网上应用店分发它它是否适用于 Windows Mac Linux 还是仅适用于 Chrome 操作系统如果是这样有什么消息表明这种情况
使用 openssl C 进行 AES（aes-cbc-128、aes-cbc-192、aes-cbc-256）加密/解密

我只想用这 3 种模式测试 openSSL 的 AES 密钥长度为 128 192 和 256 但我的解密文本与我的输入不同我不知道为什么另外当我传递一个巨大的输入长度比方说 1024 字节时我的程序显示core dumped
如何在张量流中实现多元线性随机梯度下降算法？

我从单变量线性梯度下降的简单实现开始但不知道将其扩展到多元随机梯度下降算法单变量线性回归 import tensorflow as tf import numpy as np create random data x data np r
我什么时候应该在 scanf() 中使用 & 符号

在c中使用符号时使用的规则是什么scanf struct Student char name 20 int id int main void struct Student std1 printf enter name and id of
查看 Azure KeyVault 中 Secret 的内容

这似乎是一个非常基本的问题但我在 Azure 中创建了一个 KeyVault 并向其中添加了两个 Secret 它们是使用以下方法保护的纯文本 hello world 示例ConvertTo SecureString Using Get
gdb 'x' 命令有什么作用？

在我寻求更多地了解计算机的一般知识时我偶然发现了一本书其中有一些关于反汇编 x86 汇编语言以及 C 和 x86 汇编之间的关系的章节现在我一直在读这个GDB命令但我无法完全理解它该命令及其结果如下 gdb x 32xw esp
分类：类内数据倾斜

我正在尝试构建一个多标签分类器来预测某些输入数据为 0 或 1 的概率我正在使用神经网络和 Tensorflow Keras 稍后可能是 CNN 问题如下数据存在很大偏差负面例子比正面例子多得多大概是90 10 所以我的神经网络几乎

分类：类内数据倾斜

分类：类内数据倾斜 的相关文章

随机推荐

热门标签

分类：类内数据倾斜的相关文章