Weka 忽略未标记的数据

2024-01-11

我正在使用 Weka 中的朴素贝叶斯分类器进行 NLP 分类项目。我打算使用半监督机器学习，因此使用未标记的数据。当我在一组独立的未标记测试数据上测试从标记训练数据获得的模型时，Weka 会忽略所有未标记实例。有人可以指导我如何解决这个问题吗？之前已经有人问过这个问题，但没有提供任何合适的解决方案。这是一个示例测试文件：

@relation referents
@attribute feature1      NUMERIC
@attribute feature2      NUMERIC
@attribute feature3      NUMERIC
@attribute feature4      NUMERIC
@attribute class{1 -1}
@data
1, 7, 1, 0, ?
1, 5, 1, 0, ?
-1, 1, 1, 0, ?
1, 1, 1, 1, ?
-1, 1, 1, 1, ?

问题是当你指定一个训练集 -t train.arff and a test set test.arff，操作模式是基于计算模型的性能test set。但在不知道实际类别的情况下，您无法计算任何类型的性能。如果没有实际的课程，你怎么知道你的预测是对还是错？

我用你提供的数据作为train.arff and as test.arff具有我分配的任意类标签。相关的输出行是：

=== Error on training data ===

Correctly Classified Instances           4               80      %
Incorrectly Classified Instances         1               20      %
Kappa statistic                          0.6154
Mean absolute error                      0.2429
Root mean squared error                  0.4016
Relative absolute error                 50.0043 %
Root relative squared error             81.8358 %
Total Number of Instances                5     


=== Confusion Matrix ===

 a b   <-- classified as
 2 1 | a = 1
 0 2 | b = -1

and

=== Error on test data ===

Total Number of Instances                0     
Ignored Class Unknown Instances                  5     


=== Confusion Matrix ===

 a b   <-- classified as
 0 0 | a = 1
 0 0 | b = -1

Weka 可以为您提供这些统计数据训练集，因为它知道实际的类标签和预测的类标签（在训练集上应用模型）。为了test set，它无法获得有关性能的任何信息，因为它不知道真正的类标签。

您可能想做的是：

java -cp weka.jar weka.classifiers.bayes.NaiveBayes -t train.arff -T test.arff -p 1-4

就我而言，这会给你：

=== Predictions on test data ===

 inst#     actual  predicted error prediction (feature1,feature2,feature3,feature4)
     1        1:?        1:1       1 (1,7,1,0)
     2        1:?        1:1       1 (1,5,1,0)
     3        1:?       2:-1       0.786 (-1,1,1,0)
     4        1:?       2:-1       0.861 (1,1,1,1)
     5        1:?       2:-1       0.861 (-1,1,1,1)

So, you can得到预测，但是你can't获得性能，因为您有未标记的测试数据。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Weka 忽略未标记的数据的相关文章

在java代码中使用WEKA API时出现错误：类属性未设置？

我正在尝试在我的java代码中使用weka API 我使用 J48 树分类对 MySQL 数据库中的数据集进行分类但出现以下错误 Trying to add database driver JDBC RmiJdbc RJDriver Er
doc2vec 获得良好性能所需的最小数据集大小是多少？

在不同大小的数据集上进行训练时 doc2vec 的表现如何原始语料库中没有提到数据集大小所以我想知道从 doc2vec 中获得良好性能所需的最小大小是多少有很多东西被称为 doc2vec 但它似乎最常指的是 Le 和 Mikolov
使用逻辑回归时sklearn重要特征错误

以下代码使用随机森林模型为我提供一个显示特征重要性的图表 from sklearn feature selection import SelectFromModel import matplotlib clf RandomForestCla
在处理 VotingClassifier 或网格搜索时，Sklearn 中的 GradientBoostingClassifier 是否有类别权重（或替代方法）？

我正在使用 GradientBoostingClassifier 来处理不平衡的标记数据集 Sklearn 中似乎不存在类权重作为该分类器的参数我发现我可以在合适时使用sample weight 但在处理VotingClassifier
使用 Hadoop MapReduce 的计算语言学项目构想

我需要做一个关于计算语言学课程的项目是否有任何有趣的语言问题其数据密集程度足以使用 Hadoop MapReduce 来解决解决方案或算法应尝试分析并提供语言领域的一些见解但是它应该适用于大型数据集以便我可以使用 hado
如何调整 NLTK 句子标记器

我正在使用 NLTK 来分析一些经典文本但我在按句子标记文本时遇到了麻烦例如这是我从以下内容中得到的片段莫比迪克 http www gutenberg org cache epub 2701 pg2701 txt import nlt
哪些分类器提供权重向量？

存在哪些机器学习分类器可以在学习阶段后提供权重向量我了解 SVM 逻辑回归感知器和 LDA 还有更多吗我的目标是使用这些权重向量绘制重要性图其实任何线性分类器 https en wikipedia org title Linear
仅正样本和未标记数据集的二元半监督分类

我的数据由评论组成保存在文件中其中很少被标记为正面我想使用半监督和PU http www cs uic edu liub publications ICDM 03 pdf分类将这些评论分为正面和负面类别我想知道 python sci
BERT - 池化输出与序列输出的第一个向量不同

我在 Tensorflow 中使用 BERT 有一个细节我不太明白根据文档 https tfhub dev google bert uncased L 12 H 768 A 12 1 https tfhub dev google bert
使用我自己的训练示例训练 spaCy 现有的 POS 标记器

我正在尝试在我自己的词典上训练现有的词性标注器而不是从头开始我不想创建一个空模型在spaCy的文档中它说加载您想要统计的模型下一步是使用add label方法将标签映射添加到标记器但是当我尝试加载英文小模型并添加标签图时
Spacy 中的自定义句子分割

I want spaCy使用我提供的句子分割边界而不是它自己的处理例如 get sentences Bob meets Alice SentBoundary They play together gt Bob meets Alice Th
将单引号替换为双引号并排除某些元素

我想用双引号替换字符串中的所有单引号但出现的情况除外例如 n t ll m 等 input the stackoverflow don t said hey what output the stackoverflow don t sai
如何使用pytorch构建多任务DNN，例如超过100个任务？

下面是使用 pytorch 为两个回归任务构建 DNN 的示例代码这forward函数返回两个输出 x1 x2 用于大量回归分类任务的网络怎么样例如 100 或 1000 个输出对所有输出例如 x1 x2 x100 进行硬编码绝对
如何提取数字（以及比较形容词或范围）

我正在用 Python 开发两个 NLP 项目它们都有类似的任务提取数值和比较运算符来自句子如下所示 greater than 10 weight not more than 200lbs height in 5 7 feets fas
Node2vec 的工作原理

我一直在读关于node2vec https cs stanford edu jure pubs node2vec kdd16 pdf嵌入算法我有点困惑它是如何工作的作为参考 node2vec 由 p 和 q 参数化并通过模拟来自节点的
NLTK 中的无监督 HMM 训练

我只是想进行非常简单的无监督 HMM 训练nltk http www nltk org 考虑 import nltk trainer nltk tag hmm HiddenMarkovModelTrainer from nltk corpu
ANEW 字典可以用于 Quanteda 中的情感分析吗？

我正在尝试找到一种方法来实施英语单词情感规范荷兰语以便使用 Quanteda 进行纵向情感分析我最终想要的是每年的平均情绪以显示任何纵向趋势在数据集中所有单词均由 64 名编码员按照 7 分李克特量表在四个类别上进行评分这提
如何对德语文本进行词形还原？

我有一篇德语文本我想对其应用词形还原如果不可能进行词形还原那么我也可以接受词干提取 Data 这是我的德语文本 mails Hallo Ich spielte am fr hen Morgen und ging dann zu ein
R 中 svm 特征选择的示例

我正在尝试使用 R 包在 SVM 中应用特征选择例如递归特征选择我已经安装了 Weka 它支持 LibSVM 中的特征选择但我还没有找到任何 SVM 语法的示例或类似的东西一个简短的例子会有很大的帮助功能rfe in the ca
R 中多类分类的 ROC 曲线

我有一个包含 6 个类别的数据集我想绘制多类别分类的 ROC 曲线 Achim Zeileis 给出的第一个答案非常好 R中使用rpart包的ROC曲线 https stackoverflow com questions 30818188

随机推荐

如何删除我的 Google 云平台结算帐户？

我创建了一些计费帐户但我想删除一些如图所示我想删除BillingAccount1 and BillingAccount2因为谷歌告诉我这些帐户存在一些问题在文件中 https cloud google com billing doc
python google app engine 中的预热服务如何工作？

有人可以举例说明预热入站服务如何在 Google App Engine 的 python 运行时中工作吗我读过这个 http code google com appengine docs python config appconfig h
真正动态的 JPA CriteriaBuilder

我需要创建一个真正的动态 JPACriteriaBuilder 我得到一个Map
如何删除Mysql中的sleep进程

我发现我的mysql服务器有很多连接正在睡眠我想把它们全部删除那么我如何配置我的 mysql 服务器然后删除或处置当前不在进程中的处于睡眠状态的连接是否可以在 mysql 中删除这个东西告诉我如何执行以下操作一个连接只允许数据读
如何使用正则表达式来匹配HTML中的字符集字符串？

HTML 代码示例我想使用 RegEx 提取字符集信息即这里是 utf 8 我使用的是C 我的答案提供了 Floyd 的更强大的版本并在可能的程度上解决了 You 的破损测试用例其中使用负前瞻来避免它我实际上只能想到一个相关的案例
如何使用 Splinter 查找元素值？

我有以下一段html p class attrs span foo span strong foo strong p p class attrs span bar span strong bar strong p p class attrs
在git下提交文件时如何控制重命名阈值？

我正在尝试将特定项目的连续快照放入 git 的历史记录中我通过使用每个快照的内容填充存储库目录然后运行来执行此操作 git add A git commit m Version X 这是推荐的方法这个答案 https stackoverf
如何在 Visual Studio 2012 或 Visual Studio 2013 中打开旧的 MVC 项目？

我有一个旧的 ASP NET MVC 2 项目我不想升级到 MVC 3 或 MVC 4 我正在运行 Windows 8 Visual Studio 2012 和 Visual Studio 2013 的新计算机上工作当我尝试打开 MVC
如何在 emacs 中搜索/替换带括号的表达式？

我有一些 Latex 代码其中包含许多数学表达式包含在 mathrm 中我想删除表达式周围的 mathrm 代码最好使用 emacs 例如我想替换 mathrm gamma cdot x 0 with gamma cdot x 0
HKAnchoredObjectQuery 在后台无法可靠返回

我试图让我的应用程序在观察到新数据输入时将 HealthKit 数据与我们的数据库同步尽管逻辑上有些含糊之处 https stackoverflow com questions 37986435 whats the logic in hk
查找矩阵中具有某些属性的所有矩形区域

给定一个 n m 矩阵其可能值为 1 2 和 null 1 1 1 2 2 1 1 1 2 2 1 我正在寻找所有块 B 包含 x0 y0 和 x1 y1 之间的所有值至少包含一个 1 不包含 2 不是具有上述属性的另一个块的子集 Ex
Visual Studio：如何使一个解决方案依赖于另一个解决方案？

是否有可能使 VS 中的解决方案依赖于即包含整个其他解决方案我看过一些有关解决方案文件夹的内容但这些似乎不是同一件事谢谢顺便说一句我使用的是 VS 2008 并不真地您必须执行以下操作之一制作一个构建脚本以正确的顺序
使用 NSNotification 的 NSTextField 委托方法

我在窗口中有一个 NSTokenField 我用它来存储与核心数据对象相关的标签现在我已经将其设置为可以向对象添加标签但无法删除它们我需要 NSTokenField 上的委托方法它可以让我知道用户何时将焦点移出 NSTokenFie
如何将项目追加到 Pandas 中不同列的列表中

我有一个如下所示的数据框 dic A PINCO PALLO CAPPO ALLOP B KILO KULO FIGA GAGO C CAL GOL TOA PIA STO LOL DAL ERS BUS TIS PIS IPS ZSP Y
如何使用 JQuery InsertAtCaret 函数

我找到了 JQuery InsertAtCaret 函数Here https gist github com mathiasbynens 326491但没有详细说明如何使用它我已经尝试了很多方法来了解它如何使用但找不到任何方法这是函数
linq to list
并获取每行的值
为了进行测试我需要列出一些参数设置的列表该列表并非按照定义预定义为类型和或其中的内容 bool trueOrFalse new bool true false int para1 new int 1 2 3 int para2 new

Heroku 上托管的 SQLite 数据库自动重置

我有一个非常简单的 Facebook 应用程序托管在 Heroku 上它使用 PHP 作为后端使用 SQLite 作为存储由于某些奇怪的原因 SQLite 数据库被随机重置为我推送的最后一个版本有人可以帮助我理解这背后的原因吗 He

宽限期内的 OCILogon - ORA-28002

当我使用 SQL Plus 连接到密码进入宽限期的用户 Oracle 11g Oracle 8i 时收到一条错误消息但连接仍然成功 SQL Plus SQL gt connect gumiplesku Enter password ER

将 Json 传递给 karate-config.js 文件

我有超过 6 个环境我必须在这些环境中运行同一组 REST API 脚本因此我将所有测试数据和端点资源路径存储在 json 文件中然后我尝试将此 json 文件读入我的 karate config js 文件这是因为我想获取与

Weka 忽略未标记的数据

我正在使用 Weka 中的朴素贝叶斯分类器进行 NLP 分类项目我打算使用半监督机器学习因此使用未标记的数据当我在一组独立的未标记测试数据上测试从标记训练数据获得的模型时 Weka 会忽略所有未标记实例有人可以指导我如何解决这个问题
热门标签

图像

我的论文笔记

记事

activity任务

实验记录

sql类

Taro

PCL点云处理

PCL自带函数

高斯噪点

点云分类

PCL点云处理学习

分词插件

ik

通配符

信号和槽函数重载

C学习之QT

云桌面

虚拟机和云桌面

Bolg搭建

centos镜像

TWS充电盒

无线充电接收方案
Powered by Hwhale

Weka 忽略未标记的数据

Weka 忽略未标记的数据 的相关文章

随机推荐

热门标签

Weka 忽略未标记的数据的相关文章