Hello, Weka

2023-05-16

转自http://dreamhead.blogbus.com/logs/16813833.html

Weka，是一个用Java编写的数据挖掘软件。数据挖掘，从字面上来看，它是一个从数据中找寻有用信息的过程，不过，它涉及的内容很多，所以，这里借用“分类”这一面来说事。
分类，从名称上来看，再简单不过了，给你一样东西，给它分个类。你如何知道怎么分类呢？显然，这是基于你已有的经验。对于计算机而言，这种经验从何而来呢？只有让人来告诉它，也就是说，我们要拿一批数据训练计算机，经过训练的计算机，便具备了一定的识别能力，就可以完成一些简单的分类工作。现实中，可以用到分类的机会有很多，比如我之前，曾经参与过的一个项目就是用这种方法来做车辆的识别。
下面便是一段使用Weka完成一段分类程序。
import weka.classifiers.Classifier;
import weka.classifiers.bayes.NaiveBayesMultinomial;
import weka.core.Attribute;
import weka.core.FastVector;
import weka.core.Instance;
import weka.core.Instances;
import weka.filters.Filter;
import weka.filters.unsupervised.attribute.StringToWordVector;
public class Main {
private static final String GOOD = "G";
private static final String BAD = "B";
private static final String CATEGORY = "category";
private static final String TEXT = "text";
private static final int INIT_CAPACITY = 100;
private static final String[][] TRAINING_DATA = {
    {"Good", GOOD},
    {"Wonderful", GOOD},
    {"Cool", GOOD},
    {"Bad", BAD},
    {"Disaster", BAD},
    {"Terrible", BAD}
};
private static final String TEST_DATA = "Good";
private static Filter filter = new StringToWordVector();
private static Classifier classifier = new NaiveBayesMultinomial();
public static void main(String[] args) throws Exception {
    FastVector categories = new FastVector();
    categories.addElement(GOOD);
    categories.addElement(BAD);
    FastVector attributes = new FastVector();
    attributes.addElement(new Attribute(TEXT, (FastVector)null));
    attributes.addElement(new Attribute(CATEGORY, categories));
    Instances instances = new Instances("Weka", attributes, INIT_CAPACITY);
    instances.setClassIndex(instances.numAttributes() - 1);
    for (String[] pair : TRAINING_DATA) {
      String text = pair[0];
      String category = pair[1];
      Instance instance = createInstanceByText(instances, text);
      instance.setClassValue(category);
      instances.add(instance);
    }
    filter.setInputFormat(instances);
    Instances filteredInstances = Filter.useFilter(instances, filter);
    classifier.buildClassifier(filteredInstances);
    // Test
    String testText = TEST_DATA;
    Instance testInstance = createTestInstance(instances.stringFreeStructure(), testText);
    double predicted = classifier.classifyInstance(testInstance);
    String category = instances.classAttribute().value((int)predicted);
    System.out.println(category);
}
private static Instance createInstanceByText(Instances data, String text) {
    Attribute textAtt = data.attribute(TEXT);
    int index = textAtt.addStringValue(text);
    Instance instance = new Instance(2);
    instance.setValue(textAtt, index);
    instance.setDataset(data);
    return instance;
}
private static Instance createTestInstance(Instances data, String text) throws Exception {
    Instance testInstance = createInstanceByText(data, text);
    filter.input(testInstance);
    return filter.output();
}
}
这个程序分成两个大部分，前半部分用以训练分类器，后半部分则是测试这个分类器。
训练分类器，我们要做的包括，选择分类算法和准备训练数据。在Weka中，每一种分类算法都是Classifier的一个子类，这样的话，就可以在不改变其它部分的情况下，很容易的修改分类算法。
其实，稍微了解一下这方面的知识的人，都会知道，分类算法固然重要，但真正决定一个分类器本事大小的，是用以训练的数据。想要得到一个好的分类器，少不了不断调整训练数据和不断的训练。这同人类认识问题是一样的，经得多，见得广，才有更好的分辨能力。

在Weka中，用以训练的数据就是Instances，顾名思义，这是Instance的复数，显而易见，单独的一个训练数据就是Instance，而Instances这个类的存在，可以把Instance的一些公共的属性放到一起。在这里，我们可以看到，为了用文本作为训练数据，我们会把文本转换为Instance。同样，测试分类器的时候，我们也会把文本转换为一个Instance，然后再进行分类。
除此之外，这里还有一个Filter的概念，同常见的filter概念类似，它给了我们一个进行正式处理之前，对数据进行处理的机会。在这里，主要是对Instance做一些相关的变换。
当我们得到一个分类器之后，就可以利用这个分类器进行分类了，其中，最关键的代码是
classifier.classifyInstance(testInstance);
这段代码返回的是根据分类算法计算结果得到的一个相似度，我们可以利用这个值来估计我们测试用的数据应该属于哪个分类。
从代码上来说，这段代码本身并不复杂。正如前面所说，一个好的分类器是需要让数据帮忙的。所以，换几个测试数据，你就会发现，这段代码中实现的分类器一点都不强大。如果希望它强大起来，扩展训练数据是一个必然的结果。不过，对于这篇blog而言，这不重要，因为我们只是要和Weka问个好，进一步的工作，还需要进一步的努力。

转载于:https://www.cnblogs.com/ysjxw/archive/2008/05/12/1193735.html

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hello

Weka

Hello, Weka 的相关文章

linux C++ hello world

我是Java程序员 xff0c 没怎么写过C 43 43 以前在windows下使用vs写过hello world 最近有个程序需要使用C 43 43 实现我想在linux下写 xff0c 记录一下过程安装gcc 查看gcc版本 gcc
我的2017-搭建个人网站，hello PHP（2）

学习一门语言 xff0c 例行惯例 xff0c 先来个 hello world 搭建好了php环境 xff0c 然后就可以运行php了 xff0c 首先用一种最简单的方法 xff0c 在wamp安装位置 xff08 相应的文件夹 xff09
出现insmod: can't insert 'kernel_hello.ko': invalid module format解决方法

出现insmod can 39 t insert 39 kernel hello ko 39 invalid module format解决方法 xff1a 问题 xff1a gt ls info proc tmp apps init ro
写出C语言的第一个程序“Hello World”

这里写自定义目录标题写出C语言的第一个程序 Hello World 写出C语言的第一个程序 Hello World 下面展示一些内联代码片 span class token comment A code block span span
pybind11 的 Hello World

pybind11是一个轻量级的仅头文件库 xff0c 主要用于创建现有C 43 43 代码的Python绑定 Github地址 xff1a https github com pybind pybind11 官方文档 xff1a https
树莓派linux驱动学习之hello world

http blog csdn net hcx25909 article details 16860055 最近想学习一下linux驱动 xff0c 看了一些书和教学视频 xff0c 大概了解了一下 xff0c 不过要想深入 xff0c 肯定
03 SCons 自动构建工具编译hello.c

安装mingw 我的电脑已经安装过 xff0c 下面主要说下配置环境我们将mingw的路径和scons的虚拟环境路径添加到临时的环境变量这样做的好处是使用的时候添加 xff0c 不与其它版本的全局的环境变量冲突后期我编译ARM程序时把
我的2017-搭建个人网站，hello PHP（2）

学习一门语言 xff0c 例行惯例 xff0c 先来个 hello world 搭建好了php环境 xff0c 然后就可以运行php了 xff0c 首先用一种最简单的方法 xff0c 在wamp安装位置 xff08 相应的文件夹 xff09
ICE C++ Hello World

ICE C 43 43 Hello World实例教程 1 概述本文演示了如何编写一个最简单的C 43 43 ICE Internet Communications Engine 应用程序 xff0c 包括必要环境的安装该应用程序包含客
Linux静态库与动态库示例之hello world

Linux静态库与动态库示例之hello world 1 Linux动态库与静态库的基本概念 linux下有两种库动态库和静态库共享库 xff0c 二者的不同点在于代码被载入的时刻不同静态库的代码在编译过程中已经被载入可执行程序因此
STM32 汇编程序——串口输出 Hello world

STM32 汇编程序串口输出 Hello world 一 USART介绍二 Keil项目 xff08 一 xff09 新建项目 xff08 二 xff09 Hello s代码 xff08 三 xff09 编译生成hex文件三电路接法四
Linux：Hello World 模块

前言 Linux 系统为应用程序提供了功能强大且容易扩展的 API xff0c 但在某些情况下 xff0c 这还远远不够与硬件交互或进行需要访问系统中特权信息的操作时 xff0c 就需要一个内核模块下面从 Hello World 模块来
Quinlan C4.5算法中如何计算数值属性的阈值？

我试图找出 C4 5 算法如何确定数字属性的阈值我研究过但无法理解在大多数地方我都找到了这些信息首先根据所考虑的属性 Y 的值对训练样本进行排序这些值的数量有限因此让我们按排序顺序将它们表示为 v1 v2 vm vi 和 vi 1
如何在 weka 中使用 JSON 文件

I have a JSON file and want to open the data in weka but when I do I get the following error 环顾四周邮件列表有一些关于 JSON 的问题但是
具有非常大矩阵的 K 均值

我必须在一个非常大的矩阵大约 300 000x100 000 个值超过 100Gb 上执行 k 均值聚类我想知道我是否可以使用 R 软件或 weka 来执行此操作我的计算机是一台多处理器具有 8GB 内存和数百 GB 可用空间我
Weka中的堆叠算法是什么？它实际上是如何运作的？

基础分类器的结果是由投票系统选择的然后元分类器在输入时实际上得到了什么整个分类器还是只是错误分类的分类器如果可以用像这个链接这样的简单示例来解释整个机制那将会很有帮助Weka classifiers meta vote 中的多数投票
WEKA 生成的模型似乎无法预测给定属性索引的类别和分布

Overview 我正在使用 WEKA API 3 7 10 开发者版本来使用我预制的 model files 我制作了 25 个模型五种算法的五个结果变量 J48决策树 http weka sourceforge net doc de
如何在 weka 中表示用于分类的文本？

您能告诉我如何在 weka 中表示文本分类的属性或类吗我可以使用什么属性进行分类词频还是仅词 ARFF 格式的可能结构是什么你能给我几行该结构的例子吗预先非常感谢您最简单的替代方法之一是从 ARFF 文件开始解决二类问题例如 r
如何在java中使用StringToWordVector（weka）？

这是我的arff文件 relation hamspam attribute text string attribute class ham spam data good ham very good ham bad spam very bad
如何在weka中连接mysql数据库？

我想在 weka 中使用我的 mysql 数据库来分析数据我下载 mysql connector java 5 0 8 bin jar 并将其放入程序文件文件夹中的 weka 文件夹中并将此路径添加到系统变量路径中但是当我打开 wek

随机推荐

控制变量行业年份回归时在STATA里怎么操作_stata 分年份回归

控制变量行业年份回归时在STATA里怎么操作 stata 分年份回归我希望做一个多元回归 xff0c 但需要控制年份和行业 xff08 1 xff09 年份有7年2006 2012 xff0c 听说STATA可以自动设置虚拟变量 xff0
虚拟机Linux----Ubuntu1404----root登录设置

说明 xff1a 在安装玩1404这个版本的ubuntu后 xff0c 默认也是看不到root登录的 xff0c 也需要修改配置文件 xff0c 但是修改的文件和1204不太一样 1 shell窗口 xff0c 普通用户首先登录 xff0c
Linux安装jdk的详细步骤

温馨提示 xff1a linux的使用过程中 xff0c 总是要使用jdk的 xff0c 有的linux系统自带的openjdk xff0c 总是不太好用 xff1b 本文以centos7为例 xff0c 安装jdk1 8版本一查看Li
配置服务器获取信息失败,获取配置服务器失败

获取配置服务器失败内容精选换一换当创建文件系统后 xff0c 您需要使用云服务器来挂载该文件系统 xff0c 以实现多个云服务器共享使用文件系统的目的本章节以Windows 2012版本操作系统为例进行CIFS类型的文件系统的挂载
试题（一）

C 试题解答一选择填空题 xff08 每空2分 xff0c 共60分 xff09 1 在对SQL Server 数据库操作时应选用 xff08 a xff09 a SQL Server NET Framework 数据提供程序 xff1
ubuntu下安装oracle

开源的世界挺有意思 xff0c 安装oracle如此复杂主要分为四个大步骤 xff1a Java的安装 Oracle安装前的准备 Oracle的安装环境配置安装Oracle 1 Java安装 xff08 略 xff09 这一步网上有好多
相机寻找最适合分辨率android,ARCore：获取相机的分辨率(ARCore : Get Camera's resolution)...

ARCore xff1a 获取相机的分辨率 ARCore Get Camera 39 s resolution 有没有办法获得相机的分辨率 xff1f 除非从头开始使用Android 我没有在session setDisplayGeomet
ASP.NET动态的修改主题

在有的网站上 xff0c 允许用户根据自己的喜好来更改皮肤 xff0c 这个功能利用ASP NET的主题机制可以方便的实现 xff0c 在C 代码中可以通过Page类的Theme属性改变页面的主题 xff0c 代码如下 xff1a Page
错误集锦（1）

下列软件包有未满足的依赖关系 xff1a sogoupinyin 依赖 fcitx gt 61 1 4 2 8 3 3 但是它还没有被安装依赖 fcitx frontend gtk2 但是它还没有被安装依赖 fcitx frontend
Python环境安装与基础语法（1）——计算机基础知识

Python安装 pip 包管理工具 pip install 安装包 pip list 查看包 IPython 增强的python shell xff0c 自动补全 xff0c 自动缩进 xff0c 支持shell xff0c 增加了很多函
Python环境安装与基础语法（2）——数据类型、标识符、语言分类

高级语言发展结构化语言 xff1a 以顺序 xff08 步骤化 xff09 xff0c 分支 xff0c 循环描述问题面向对象语言 xff1a 接近人类的认知 xff0c 万物抽象成对象 xff0c 对象间的关系抽象成类和继承程序 6
Python环境安装与基础语法（3）——进制、运算符和优先级、原码、补码

进制转十进制 xff1a 基本运算方法 xff08 权算方式 xff09 0b1111 gt 1 2 3 43 1 2 2 43 1 2 1 43 1 2 0 0x7F gt 7 16 1 43 F 16 0 转二进制 xff1a 0xF
Win7通过无线网卡共享本地网络，开启WiFi热点以及关闭WiFi热点

Win7通过WiFi共享本地网络 xff0c 开启WiFi热点以及关闭WiFi热点 Windows10上开启热点十分方便 xff0c 只要通过设置 gt 网络和internet gt 移动热点的路径 xff0c 到了移动热点的配置界面
mysql登录报错：mysql: error while loading shared libraries: libncurses.so.5: cannot open shared object fi...

系统是redhad8 xff0c binary方式安装完mysql之后 xff0c mysql命令登录不成功 xff0c 报错 xff1a mysql error while loading shared libraries libncur
网卡设置网卡的高级设置说明

网卡设置网卡的高级设置说明修改电脑网卡高级设置可以提高网络速度另外 xff0c 建议关闭在Realtek网卡高级设置中的以下其他选项 xff1a 流控制 FlowControl 巨型帧 Jumboframe 大量传送负载 Offloa
招聘笔试中常考的智力题（转自网络）

1 有一个没有刻度的长方形的塑料盒子 xff0c 没有盖子 xff0c 它的容积是1升 xff0c 请问如果只能使用这个盒子称量一次 xff0c 能够准确的量出多少升的水 xff08 B xff09 xff1f A 0 4升 B 0 5升
软件危机表现，原因及解决方法

表现 xff1a xff08 1 xff09 软件成本日益增长 xff08 2 xff09 开发进度难以控制 xff08 3 xff09 软件质量差 xff08 4 xff09 软件维护困难原因 xff1a xff08 1 xff09 用
C C++ 数字后面加 LL是什么意思

long long类型 xff0c 在赋初值的时候 xff0c 如果大于2的31次方 1 xff0c 那么后面需要加上LL 转载于 https www cnblogs com lxzbky p 10505135 html
暴雪战网服务器维护时间,炉石传说停机维护30小时暴雪与网易做了个艰难的决定...

原标题 xff1a 炉石传说停机维护30小时暴雪与网易做了个艰难的决定 1月20日 xff0c 随着补偿包陆续发放到相关玩家账号 xff0c 炉石传说的运营事故得到了初步解决从17日凌晨到18日晚间 xff0c 在超过30个小时的维护
Hello, Weka

转自http dreamhead blogbus com logs 16813833 html Weka xff0c 是一个用Java编写的数据挖掘软件数据挖掘 xff0c 从字面上来看 xff0c 它是一个从数据中找寻有用信息的过程 x

Hello, Weka

Hello, Weka 的相关文章

随机推荐

热门标签