Hello, Weka

2023-05-16

转自http://dreamhead.blogbus.com/logs/16813833.html

Weka，是一个用Java编写的数据挖掘软件。数据挖掘，从字面上来看，它是一个从数据中找寻有用信息的过程，不过，它涉及的内容很多，所以，这里借用“分类”这一面来说事。
分类，从名称上来看，再简单不过了，给你一样东西，给它分个类。你如何知道怎么分类呢？显然，这是基于你已有的经验。对于计算机而言，这种经验从何而来呢？只有让人来告诉它，也就是说，我们要拿一批数据训练计算机，经过训练的计算机，便具备了一定的识别能力，就可以完成一些简单的分类工作。现实中，可以用到分类的机会有很多，比如我之前，曾经参与过的一个项目就是用这种方法来做车辆的识别。
下面便是一段使用Weka完成一段分类程序。
import weka.classifiers.Classifier;
import weka.classifiers.bayes.NaiveBayesMultinomial;
import weka.core.Attribute;
import weka.core.FastVector;
import weka.core.Instance;
import weka.core.Instances;
import weka.filters.Filter;
import weka.filters.unsupervised.attribute.StringToWordVector;
public class Main {
private static final String GOOD = "G";
private static final String BAD = "B";
private static final String CATEGORY = "category";
private static final String TEXT = "text";
private static final int INIT_CAPACITY = 100;
private static final String[][] TRAINING_DATA = {
    {"Good", GOOD},
    {"Wonderful", GOOD},
    {"Cool", GOOD},
    {"Bad", BAD},
    {"Disaster", BAD},
    {"Terrible", BAD}
};
private static final String TEST_DATA = "Good";
private static Filter filter = new StringToWordVector();
private static Classifier classifier = new NaiveBayesMultinomial();
public static void main(String[] args) throws Exception {
    FastVector categories = new FastVector();
    categories.addElement(GOOD);
    categories.addElement(BAD);
    FastVector attributes = new FastVector();
    attributes.addElement(new Attribute(TEXT, (FastVector)null));
    attributes.addElement(new Attribute(CATEGORY, categories));
    Instances instances = new Instances("Weka", attributes, INIT_CAPACITY);
    instances.setClassIndex(instances.numAttributes() - 1);
    for (String[] pair : TRAINING_DATA) {
      String text = pair[0];
      String category = pair[1];
      Instance instance = createInstanceByText(instances, text);
      instance.setClassValue(category);
      instances.add(instance);
    }
    filter.setInputFormat(instances);
    Instances filteredInstances = Filter.useFilter(instances, filter);
    classifier.buildClassifier(filteredInstances);
    // Test
    String testText = TEST_DATA;
    Instance testInstance = createTestInstance(instances.stringFreeStructure(), testText);
    double predicted = classifier.classifyInstance(testInstance);
    String category = instances.classAttribute().value((int)predicted);
    System.out.println(category);
}
private static Instance createInstanceByText(Instances data, String text) {
    Attribute textAtt = data.attribute(TEXT);
    int index = textAtt.addStringValue(text);
    Instance instance = new Instance(2);
    instance.setValue(textAtt, index);
    instance.setDataset(data);
    return instance;
}
private static Instance createTestInstance(Instances data, String text) throws Exception {
    Instance testInstance = createInstanceByText(data, text);
    filter.input(testInstance);
    return filter.output();
}
}
这个程序分成两个大部分，前半部分用以训练分类器，后半部分则是测试这个分类器。
训练分类器，我们要做的包括，选择分类算法和准备训练数据。在Weka中，每一种分类算法都是Classifier的一个子类，这样的话，就可以在不改变其它部分的情况下，很容易的修改分类算法。
其实，稍微了解一下这方面的知识的人，都会知道，分类算法固然重要，但真正决定一个分类器本事大小的，是用以训练的数据。想要得到一个好的分类器，少不了不断调整训练数据和不断的训练。这同人类认识问题是一样的，经得多，见得广，才有更好的分辨能力。

在Weka中，用以训练的数据就是Instances，顾名思义，这是Instance的复数，显而易见，单独的一个训练数据就是Instance，而Instances这个类的存在，可以把Instance的一些公共的属性放到一起。在这里，我们可以看到，为了用文本作为训练数据，我们会把文本转换为Instance。同样，测试分类器的时候，我们也会把文本转换为一个Instance，然后再进行分类。
除此之外，这里还有一个Filter的概念，同常见的filter概念类似，它给了我们一个进行正式处理之前，对数据进行处理的机会。在这里，主要是对Instance做一些相关的变换。
当我们得到一个分类器之后，就可以利用这个分类器进行分类了，其中，最关键的代码是
classifier.classifyInstance(testInstance);
这段代码返回的是根据分类算法计算结果得到的一个相似度，我们可以利用这个值来估计我们测试用的数据应该属于哪个分类。
从代码上来说，这段代码本身并不复杂。正如前面所说，一个好的分类器是需要让数据帮忙的。所以，换几个测试数据，你就会发现，这段代码中实现的分类器一点都不强大。如果希望它强大起来，扩展训练数据是一个必然的结果。不过，对于这篇blog而言，这不重要，因为我们只是要和Weka问个好，进一步的工作，还需要进一步的努力。

转载于:https://www.cnblogs.com/ysjxw/archive/2008/05/12/1193735.html

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hello

Weka

Hello, Weka 的相关文章

C++ 保姆级教程——001、书写hello world

使用VS新建一个空项目 xff0c 书写hello world 1 打开软件 xff0c 选怎文件 2 点击选择Visual C 43 43 下的空项目 xff0c 设置文件名称和保存路径 3 添加cpp源文件 xff0c 选择左侧源文件
初学shell脚本之-bash: /home/test/hello.sh: Permission denied

今天学习shell脚本在windows写了个shell脚本 span class token operator span span class token operator span bin span class token operato
Hello, Weka

转自http dreamhead blogbus com logs 16813833 html Weka xff0c 是一个用Java编写的数据挖掘软件数据挖掘 xff0c 从字面上来看 xff0c 它是一个从数据中找寻有用信息的过程 x
0、Linux虚拟机打印hello world

Ctrl 43 Alt 43 T 打开终端 xff0c 输入sudo apt get install vim 下载vim 输入sudo apt get install gcc xff0c 下载gcc 下载完成后输入clear 可以清除终端
03 SCons 自动构建工具编译hello.c

安装mingw 我的电脑已经安装过 xff0c 下面主要说下配置环境我们将mingw的路径和scons的虚拟环境路径添加到临时的环境变量这样做的好处是使用的时候添加 xff0c 不与其它版本的全局的环境变量冲突后期我编译ARM程序时把
PX4（PIXHAWK）源码开发人员文档（二）——Hello Sky

前提用UART1连接PX4FMU和计算机安装PX4Toolchain 注册Github账户 Step 1 准备源码文件为了方便管理代码 xff0c 可以使用GIT 版本控制系统 xff0c 在 GitHub上 fork和更新源码不注
ICE C++ Hello World

ICE C 43 43 Hello World实例教程 1 概述本文演示了如何编写一个最简单的C 43 43 ICE Internet Communications Engine 应用程序 xff0c 包括必要环境的安装该应用程序包含客
为什么char a［］的a不能用a=“hello”来赋值？

问题 char b里面的b是一个指向char的指针 xff0c 而b可以用b 61 hello 来复制同样 xff0c a代表char数组的第一个元素的指针 xff0c 类型应该也是char xff0c 为什么b可以直接用赋值符号而a不可
Linux静态库与动态库示例之hello world

Linux静态库与动态库示例之hello world 1 Linux动态库与静态库的基本概念 linux下有两种库动态库和静态库共享库 xff0c 二者的不同点在于代码被载入的时刻不同静态库的代码在编译过程中已经被载入可执行程序因此
深入探讨Linux驱动开发：驱动介绍与hello驱动实例

文章目录前言一 Linux驱动介绍1 用户态和内核态2 内核功能介绍3 驱动程序介绍二驱动程序分类与注意事项1 驱动程序分类2 内核驱动开发注意事项三 hello驱动开发1 驱动模块2 模块加载和卸载函数3 编写hello模块4 M
Linux：Hello World 模块

前言 Linux 系统为应用程序提供了功能强大且容易扩展的 API xff0c 但在某些情况下 xff0c 这还远远不够与硬件交互或进行需要访问系统中特权信息的操作时 xff0c 就需要一个内核模块下面从 Hello World 模块来
如何使用java代码在weka中用新实例测试现有模型？

我有一个通过 Weka GUI 获得的分类器之一的 model 文件现在我想在某些实例上测试这个模型谁能告诉我该怎么做 Classifier cModel Classifier new NaiveBayes cModel buildCl
Weka GUI - 内存不足，无法加载？

我过去也曾加载过同样的 Weka 安装我只是尝试加载 Weka GUI 双击图标但出现以下错误我该如何修复它 OutOfMemory Not enough memory Please load a smaller dataset or
具有非常大矩阵的 K 均值

我必须在一个非常大的矩阵大约 300 000x100 000 个值超过 100Gb 上执行 k 均值聚类我想知道我是否可以使用 R 软件或 weka 来执行此操作我的计算机是一台多处理器具有 8GB 内存和数百 GB 可用空间我
使用 WEKA API 定义聚类的输入数据

我想对由纬度和经度指定的点进行聚类我在用WEKA API问题在于Instances instances new Instances 40 01 1 02 那么如何在不使用 ARFF 文件的情况下指定输入数据呢我只想将数组读入Insta
当已指定最大堆值时，是否有解决方法来解决“Java 堆空间”内存错误？

我在配备 8GB RAM 的最新一代 Macbook Pro 中运行 WEKA 分类器 J48 其输入 arff 文件由 3 个字段组成字段 1 有约 27k 个不同属性字段 2 有约 500k 个值我使用以下命令将 java 堆空间
Weka 标准化柱

我有一个包含 14 个数字列的 ARFF 文件我想分别对每列执行标准化即将每列的值修改为 actual value min this column max this column min this column 因此列中的所有值都将在
如何使用Weka预测结果

我是 Weka 新手对该工具感到困惑我有一个关于水果价格和相关属性的数据集我正在尝试使用数据集预测具体的水果价格由于我是 Weka 新手我不知道如何完成这项任务请帮助我或指导我了解有关如何进行预测以及此任务的最佳方法或算法是什么
处理不平衡问题后，数据高度倾斜，准确性下降

在对数据进行预处理例如缺失值替换和异常值检测后我使用随机化方法对数据进行分区并使用 WEKA 删除百分比过滤器我的数据集是一个高度倾斜的数据集不平衡比为 6 1 对应于负类和正类如果我使用朴素贝叶斯分类器对数据进行分类而不处
如何将聚类标签与 Matlab 中的“真实值”标签相匹配

我在这里搜索并用谷歌搜索但没有结果在 Weka 中进行聚类时有一个方便的选项即类到聚类它与算法生成的聚类相匹配例如简单的 k means 到您作为类属性提供的基本事实类标签这样我们就可以看到聚类准确率错误百分比现在我

随机推荐

APM飞控修改数传模块方法

APM飞控修改数传模块方法硬件 ARDUCOPTER第二代数传模块 USB接口数传模块 telem接口 usb ttl模块修改方法注意 xff1a APM固件版本和数传模块估计版本是分开的 xff0c 但有一定的对应关系 xff0c
HTTP AUTH 那些事

谨以此文献给那些需要实现HTTP AUTH的程序猿们关于HTTP AUTH的文档不多 RFC在 http www ietf org rfc rfc2617 txt wiki在 http en wikipedia org wiki Ba
基于超声波的四轴定高控制简析

笔者是来自武汉理工的小青同学 xff0c 接下来为大家讲一下基于超声波的定高问题 xff0c 鉴于笔者能力有限 xff0c 所以如有错误请多指教 xff0c 且很多仅仅是工程上的近似化应用 xff0c 没有做过仿真模拟我讲的东西更加偏重于
Android 新建工程卡在Gradle:Resolve dependencies':app:_debugCompile'

今天更新 androidSDK 到 5 0 xff0c 发现新建工程时卡在 Gradle Resolvedependencies 39 app debugCompile 39 首先 xff0c googledevelop是访问不了的 xff
数学公式

一泰勒公式数学中 xff0c 泰勒公式是一个用函数在某点的信息描述其附近取值的公式如果函数足够平滑的话 xff0c 在已知函数在某一点的各阶导数值的情况之下 xff0c 泰勒公式可以用这些导数值做系数构建一个多项式来近似函数在这一点的
python内置方法和属性

1 del 方法作用当使用类名创建对象时 xff0c 为对象分配完空间后 xff0c 会自动调用 init 方法 xff0c 当对象被从内存中销毁前 xff0c del 方法会被自动调用应用场景 xff1a init 方法可以重新设
Linux行人识别,0.kcf-tracker 机器人跟踪编程，基于opencv的行人检测和，当发现后自动进行。 Linux Network 网络 276万源代码下载- www.pudn.co...

文件名称 0 kcf tracker下载收藏 5 4 3 2 1 开发工具 Windows Unix 文件大小 95560 KB 上传时间 2017 05 14 下载次数 0 详细说明 xff1a 机器人跟踪编程 xff0c 基于open
【VirtualBox】快照

一快照备份虚拟机系统快照下来 xff0c 以后就可以恢复到快照之前的系统右上角 gt 虚拟电脑工具 gt 快照转载于 https www cnblogs com chenxiaomeng p 9497166 html
TX2-start 6 CPU kernel-开启高功耗模式

1 TX2简介 Jetson TX2是由一个GPU和一个CPU集群组成 CPU集群由双核denver2处理器和四核ARM Cortex A57组成 xff0c 通过高性能互连架构连接拥有 xff16 个CPU核心和一个GPU xff0c
生成正太随机变量

clc clear close format long syms u v x y u1 u2 u3 u3 u x1 x2 x3 x4 x5 d L int int int int 1 x5 x4 1 x4 x3 1 x3 x2 1 x2 x
【opencv基础】OpenCV installation stuck at [ 98%] Built target opencv_perf_stitching with no error...

前言按照官网步骤安装opencv的过程中进行到98 时一直没有继续进行原因后台一直在编译运行 xff0c 只需等待即可 xff0c 参考here xff1b well turns out it gets stuck for quite
PX4的UORB通信机制

在Firmware的msg文件夹里面 xff0c 里面有很多 msg结尾的文件 xff0c 这些msg文件在编译的时候可以生成h头文件 xff0c 这些编译过程中生成的头文件一般是保存在build default src module uo
ubuntu下安装和更新R语言

ubuntu 下安装和更新 R 语言本文主要讲解在 ubuntu 下如何安装和更新 R 语言将分别介绍什么是 R 语言 xff0c 简单方法安装 R 语言 xff0c 通过更新源来安装或更新 R 语言 xff0c 和安装 R 语言集成开
Linux 中各个文件夹的作用

根目录包含了几乎所的文件目录相当于中央系统进入的最简单方法是 xff1a cd boot 引导程序 xff0c 内核等存放的目录这个目录 xff0c 包括了在引导过程中所必需的文件在最开始的启动阶段 xff0c 通过引导程序将内核
转：Fix Bug的五个阶段

一个非常严重和困难的bug xff0c 能够成就一个饱经沧桑深受压力的有经验的专业程序员的职业生涯经受这种考验的创伤程度 xff0c 相当你受到了一次严重的身体伤害 xff0c 离婚 xff0c 或是家庭成为的离世研究人员在研究了计算机
10.app后端选择什么开发语言

在qq上 xff0c 经常看到有创业团队的创始人一直都招不到技术人员 xff0c 除了项目的因素外 xff0c 很大的原因就是所需要掌握的开发语言偏门通过阅读本文 xff0c 详细了解选择开发语言的核心原则 xff0c 使各位心里对开发语
dell服务器系统开机提示错误解决方法

DELL 服务器有时会若硬件的改动 xff0c 在开机以后会提示错误信息信息一般会提示在显示器上 xff0c 以后举出如下信息的解决办法信息原因纠正措施 Alert iDRAC6 not responding Rebooting i
卡尔曼滤波原理

卡尔曼滤波原理原文链接 xff1a http www bzarg com p how a kalman filter works in pictures https blog csdn net u010720661 article det
在网络直播中什么叫推流

参考 xff1a 推流 xff0c 指的是把采集阶段封包好的内容传输到服务器的过程其实就是将现场的视频信号传到网络的过程推流对网络要求比较高 xff0c 如果网络不稳定 xff0c 直播效果就会很差 xff0c 观众观看直播时就会发生
Hello, Weka

转自http dreamhead blogbus com logs 16813833 html Weka xff0c 是一个用Java编写的数据挖掘软件数据挖掘 xff0c 从字面上来看 xff0c 它是一个从数据中找寻有用信息的过程 x

Hello, Weka

Hello, Weka 的相关文章

随机推荐

热门标签