处理不平衡问题后，数据高度倾斜，准确性下降

2024-01-28

在对数据进行预处理（例如缺失值替换和异常值检测）后，我使用随机化方法对数据进行分区，并使用 WEKA 删除百分比过滤器。我的数据集是一个高度倾斜的数据集，不平衡比为 6:1，对应于负类和正类。如果我使用朴素贝叶斯分类器对数据进行分类，而不处理类不平衡问题，则准确率达到 83%，召回率为 0.623。但是，如果我使用监督实例重新采样或监督实例spreadsub样本过滤器处理类不平衡（平衡1：1后），然后应用朴素贝叶斯进行分类精度下降77％，召回率0.456。

我不明白为什么在处理类别不平衡率时准确性会降低？

谢谢。

如果班级比例不平衡为 6:1，则多数班级为 6/7 = 85.7%。仅通过预测多数类（例如使用 ZeroR），您将获得比 NaiveBayes 所实现的稍好的准确性。

平衡数据集后，NaiveBayes 报告的准确度为 77%，远高于预测多数类别的 50%。

从某种意义上说，NaiveBayes 确实有所进步。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Classification

Weka

处理不平衡问题后，数据高度倾斜，准确性下降的相关文章

.arff 文件与 scikit-learn 一起使用吗？

我想用一个属性关系文件格式 http www cs waikato ac nz ml weka arff html用 scikit learn 来做一些 NLP 任务这可能吗如何使用 arff文件与scikit learn 我真的推荐利
使用不平衡学习库的特征重要性

The imblearn http contrib scikit learn org imbalanced learn stable generated imblearn ensemble BalancedBaggingClassifier
Weka 高斯过程算法中的错误：乘法仅适用于双精度数

我有这个数据集我想通过请求 API 将 weka 算法应用于它 RELATION dataset ATTRIBUTE timestamp DATE yyyy MM dd HH mm ss z ATTRIBUTE action scale
句子分类（Categorization）

我一直在阅读有关文本分类的内容并找到了几个可用于分类的Java工具但我仍然想知道文本分类与句子分类相同吗有没有专注于句子分类的工具文本分类和句子分类之间没有正式的区别毕竟句子是一种文本但一般来说当人们谈论文本分类时
您将如何使用 Sklearn 的 VotingClassifier 进行 RandomizedSearchCV ？

我正在尝试调整我的投票分类器我想在 Sklearn 中使用随机搜索但是由于我当前使用两种算法不同的树算法如何为我的投票分类器设置参数列表我是否必须单独运行随机搜索并稍后在投票分类器中将它们组合在一起有人可以帮忙吗代码示例将受
如何在 weka 中表示用于分类的文本？

您能告诉我如何在 weka 中表示文本分类的属性或类吗我可以使用什么属性进行分类词频还是仅词 ARFF 格式的可能结构是什么你能给我几行该结构的例子吗预先非常感谢您最简单的替代方法之一是从 ARFF 文件开始解决二类问题例如 r
scikit-learn中predict与predict_proba的区别

假设我创建了一个模型并且我的目标变量是0 1 or 2 看来如果我使用predict 答案是 0 1 或 2 但是如果我使用predict proba 我得到一行每行 3 列如下所示例如 model Classifier It co
解析 HTML：成人分类系统

我正在研究网络上使用的不同且有时已过时的评级分类标准 IE PICS http www w3 org PICS POWDER http www w3 org 2007 powder ICRA http www fosi org icr
将分类数据从 CSV 加载到 Scikit-Learn 以进行机器学习

我正在学习 Scikit Learn 对推文进行一些分类我有一个 csv 其中一列包含推文下一列包含 0 11 的班级我经历了本教程来自 Scikit Learn 网站 http scikit learn org stable tut
如何计算sklearn中交叉验证的每个模型中的特征重要性

我在用RandomForestClassifier with 10 fold cross validation如下 clf RandomForestClassifier random state 42 class weight balanc
在海量数据集上学习决策树

我正在尝试使用 MATLAB 从巨大即无法存储在内存中数据集构建二元分类决策树本质上我正在做的是收集所有数据 Try out n数据的决策函数选出最佳决策函数 https stackoverflow com questions
WEKA 工具包中的隐马尔可夫模型相当于什么？

我需要对来自由 8 个加速度计组成的传感器网络的数据流进行分类每个加速度计都会给我一个 X Y 和 Z 值因此在每个样本中我有 8 x 3 24 个加速度值我的采样频率约为 30 Hz 执行时间约为 0 5 秒起初我想为此使用隐
多层神经网络不会预测负值

我已经实现了一个多层感知器来预测输入向量的正弦这些向量由随机选择的四个 1 0 1 组成偏差设置为 1 网络应该预测向量内容之和的 sin 例如输入输出 Sin 0 1 1 0 1 我遇到的问题是网络永远不会预测负值并且许多向量的
如何使用java获取weka中的最近邻居

我一直在尝试使用与 weka 机器学习库一起使用的 Ibk 最近邻算法我知道如何对实例进行分类但我想实现协同过滤功能因此我需要实际获取最接近感兴趣对象的实际对象列表在 weka 中我实际上该如何使用它的 java API 来做到这一
MATLAB - 从分类器生成混淆矩阵

我有一些测试数据和标签 testZ 0 25 0 29 0 62 0 27 0 82 1 18 0 93 0 54 0 78 0 31 1 11 1 08 1 02 testY 1 1 1 1 1 2 2 2 2 2 2 2 2 然后我对它
R中使用GBM函数进行分类的问题

我试图用R中的gum函数来做分类问题 library gbm set seed 1 boost goodwine gbm goodwine quality data traindata shrinkage 0 01 cv folds 5 d
在 Weka 中对单实例进行分类

我使用 WEKA gui 训练并创建了 J48 模型我将模型文件保存到我的计算机上现在我想用它对我的 Java 代码中的单个实例进行分类我想获得对属性簇的预测我所做的如下 public void classify double
Keras model.fit log 和 Sklearn.metrics.confusion_matrix 报告的验证准确性指标彼此不匹配

问题是报道的validation accuracy我从 Keras 获得的价值model fit历史显着高于validation accuracy我得到的指标sklearn metrics功能我得到的结果model fit总结如下 Las
转换为Weka日期格式

我有一个带有一些属性的 csv 文件一种是日期属性日期采用这种形式 yyyy mm dd hh mm ss 但 Weka 将其视为名义类型而不是日期类型如何解决这个问题请在这件事上给予我帮助我用Weka资源管理器一个很好的参考
使用 train_test_split 分割数据时的精度与随后加载 csv 文件的精度不同

我建立了一个模型来预测客户是企业客户还是私人客户训练模型后我预测了 1000 个数据集的类别但我没有将其用于训练此预测将保存在 csv 文件中现在我有两种不同的行为在程序中分割样本数据当我创建示例时train sample t

随机推荐

PHP preg_replace：删除字符串开头和结尾的标点符号

我可以在 PHP 中使用什么正则表达式来删除字符串开头和结尾的所有标点符号我不会使用正则表达式可能是这样的 str trim str 其中第二个参数是您定义的标点假设你真正的意思是 was to 去掉字母数字等以外的内容我会和一
css 过滤器使元素变成一种颜色

以下 CSS 过滤器 filter brightness 0 invert 1 使元素全白 source https stackoverflow com questions 24224112 css filter make color im
C++ 中的链选项

如何避免在 C 中使用链式选项嵌套 if 语句例如如果类型 A 包含std optional b b和 B 型std optional b
MYSQL更新查询删除空格

我的一位客户在我们的一个应用程序中添加了多个帐号尝试进行交易时由于帐号末尾有空格交易失败我如何更新他在Mysql数据库中的记录以删除末尾有空格的帐户中的所有空格而不会让他删除客户端并重新添加帐户表的结构如下不知道如何构造查询
qsort 是否需要一致的比较，或者我可以用它来进行洗牌吗？

Update 请将其归档到坏主意下生活中没有任何东西是免费得到的这就是证据一个简单的想法却变坏了但这绝对是值得学习的东西惰性编程挑战如果我传递一个函数该函数对于 qsort 的比较函数返回 50 50 返回 true 或
红宝石确定季节（秋季、冬季、春季或夏季）

我正在编写一个脚本该脚本应该根据日期范围确定一年中的季节例如 January 1 April 1 Winter April 2 June 30 Spring July 1 September 31 Summer October 1 D
如何处理 JOptionPane 中的取消按钮

I had created a JOptionPane of type showInputDialog When it opens it it shows me two buttons OK and Cancel I would like
未捕获的引用错误：ga 未定义

我想知道人们点击某个特定按钮的次数使用谷歌分析应该非常简单但是我在谷歌控制台上遇到了未捕获的引用错误 ga未定义错误并且找不到如何修复它我在头部添加了这个
在 Android 上将 USB 波特率从 9600 更改为 115200

我有一个 Arduino 它以 115200 波特率串行发送数据有一个应用程序以 9600 波特率从 Arduino 接收数据代码是 Arduino USB serial converter setup Set control line
Yii CGridView 超链接在新选项卡中打开

我已经将我的 yii CGridview 的一栏作为超链接但单击它后它会在同一选项卡中打开链接地址如何在新选项卡中打开链接地址 array header gt Name name gt name value gt CHtml link
在 WinRT 应用程序中处理 2、3、4、5 个手指点击、双击和按住手势

我可以轻松处理 1 根手指Tapped DoubleTap and Holding像这样的手势 public MainPage this InitializeComponent this Tapped mc Tapped this Doub
如何旋转MKMapView并保持Annotation和视图不旋转？

我正在制作一个显示用户当前位置的 MKMapView 我想像 Google 地图应用程序一样旋转地图但不旋转注释我使用以下代码 void locationManager CLLocationManager manager didUpda
替换 msbuild 变量中的字符

我需要替换要传递给 msbuild 4 中的 exec 任务的变量中的字符具体来说我需要替换所有出现的反斜杠带有正斜杠 in the MSBuildProjectDirectory 多变的 eg
play2框架我的模板是没有看到的。 : 包views.html不存在

问题是控制器看不到我想使用的模板 etl admin compile info 编译 3 个 Scala 源代码和 4 个 Java 源代码来源 D ECLIPSE WORKSPACES play2 apps etl admin targ
在谷歌地图图块上绘制形状文件[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我有一些形状文件想要在 Google 地图图块上绘制做到这一点最有效的方法是什么一种方法可能是使用 pkg RgoogleMaps
如何传递手势选择器的参数

我向标签添加了一个手势当点击时我想触发 showlbl 它将以 int 作为参数但是我收到一个编译器错误 UITapGestureRecognizer gestlbl0 UITapGestureRecognizer alloc init
Spring 视图不尊重 @UIScope 注释？

我遇到 Vaadin spring 注释的问题 UIScope 定义如下 SpringComponent SpringView name AdminView VIEW NAME UIScope public class AdminView
Symfony 4 全局路由前缀

我在 Symfony 4 应用程序中找不到有关全局路由前缀的任何信息唯一的thing https symfony com blog new in symfony 3 4 prefix all controller route names我
ImportError：尝试导入祝福时没有名为“_curses”的模块

我正在尝试运行这个 from blessings import Terminal t Terminal print t bold Hi there print t bold red on bright green It hurts my e
处理不平衡问题后，数据高度倾斜，准确性下降

在对数据进行预处理例如缺失值替换和异常值检测后我使用随机化方法对数据进行分区并使用 WEKA 删除百分比过滤器我的数据集是一个高度倾斜的数据集不平衡比为 6 1 对应于负类和正类如果我使用朴素贝叶斯分类器对数据进行分类而不处

处理不平衡问题后，数据高度倾斜，准确性下降

处理不平衡问题后，数据高度倾斜，准确性下降 的相关文章

随机推荐

热门标签

处理不平衡问题后，数据高度倾斜，准确性下降的相关文章