Weka 中 ARFF 格式的属性过多

2023-12-13

我正在处理维度超过 10,000 的数据集。为了使用Weka，我需要将文本文件转换为ARFF格式，但是由于即使使用稀疏ARFF格式，属性也太多，文件大小太大。是否有与数据类似的方法来避免在 ARFF 文件头中写入如此多的属性标识符。

例如：
@属性A1数字
@属性A2数字
...
...
@属性 A10000 数字

我在 AWK 中编写了一个脚本，将以下几行（在 TXT 文件中）格式化为 ARFF

示例.txt 来源：

Att_0 | Att_1 | Att_2 | ... | Att_n
1 | 2 | 3 | ... | 999

我的脚本 (to_arff)，您可以根据 TXT 文件中使用的分隔符更改 FS 值：

#!/usr/bin/awk -f
# ./<script>.awk data.txt > data.arff

BEGIN {
    FS = "|";
    # WEKA separator
    separator = ",";
}

# The first line
NR == 1 {
    # WEKA headers
        split(FILENAME, relation, ".");
        # the relation's name is the source file's name
    print "@RELATION "relation[1]"\n";
    # attributes are "numeric" by default
    # types available: numeric, <nominal> {n1, n2, ..., nN}, string and date [<date-format>]
    for (i = 1; i <= NF; i++) {
        print "@ATTRIBUTE "$i" NUMERIC";
    }
    print "\n@DATA";
}

NR > 1 {
    s = "";
    first = 1;
    for (i = 1; i <= NF; i++) {
        if (first)
            first = 0;
        else
            s = s separator;
        s = s $i;
    }
    print s;
}

Output:

@RELATION example

@ATTRIBUTE Att_0 NUMERIC
@ATTRIBUTE Att_1 NUMERIC
@ATTRIBUTE Att_2 NUMERIC
@ATTRIBUTE Att_n NUMERIC

@DATA
1,2,3,9999

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Weka

arff

Weka 中 ARFF 格式的属性过多的相关文章

mat格式数据集转换为arff与txt格式

本文共239个字 xff0c 预计阅读时间需要1分钟下面的代码给出了将mat格式数据集转换为arff与txt格式的matlab代码注意 xff0c 每个 mat文件中只有一个数据集 xff0c 其中共有m 43 1列 xff0c 最后一
Weka下载安装详解

目录前言Weka下载Weka安装Weka启动前言如果你没有安装Java的话 xff0c 请看这里 xff0c 选择合适的Java版本 xff0c 这里我选用的是java11 选择jdk8也可以 xff0c 它有jre xff0c 11
Hello, Weka

转自http dreamhead blogbus com logs 16813833 html Weka xff0c 是一个用Java编写的数据挖掘软件数据挖掘 xff0c 从字面上来看 xff0c 它是一个从数据中找寻有用信息的过程 x
Weka GUI - 内存不足，无法加载？

我过去也曾加载过同样的 Weka 安装我只是尝试加载 Weka GUI 双击图标但出现以下错误我该如何修复它 OutOfMemory Not enough memory Please load a smaller dataset or
添加实例到weka中的Instances

我有一些 arff 文件我想按顺序阅读它们并创建一个大数据集 Instances add Instance inst 不会向实例添加字符串值因此尝试 setDataset 但即使这样也会失败有没有一种方法可以实现字符串直观上正确的事情
Weka GUI 和 Weka 通过 Java 代码得到不同的结果

我正在使用 NaiveBayesMultinomialText 分类器在 Weka 中应用文本分类问题是当我使用 GUI 来执行此操作并在相同的列车数据上进行测试无需交叉验证时我获得了 93 的准确率而当我尝试通过 java 代
如何从 weka API 计算置信度？

我正在使用weka java API 在训练集上训练后我可以得到预测的类标签双 pred fc classifyInstance test instance i 但我想知道类标签的置信概率我应该使用什么函数在 GUI 中我可以选择将
Weka中的堆叠算法是什么？它实际上是如何运作的？

基础分类器的结果是由投票系统选择的然后元分类器在输入时实际上得到了什么整个分类器还是只是错误分类的分类器如果可以用像这个链接这样的简单示例来解释整个机制那将会很有帮助Weka classifiers meta vote 中的多数投票
尝试使用 Weka 将更多实例添加到训练集中时出现 IndexOutOfBoundsException

我正在尝试向我的训练集添加更多实例并执行 10 倍交叉验证我的实例采用字符串格式因此我使用 StringToWordVector 过滤器将它们转换为数字如果我不添加我想要的额外页面事情就会顺利进行但是当我添加命令时trainSet
Weka 标准化柱

我有一个包含 14 个数字列的 ARFF 文件我想分别对每列执行标准化即将每列的值修改为 actual value min this column max this column min this column 因此列中的所有值都将在
如何将文本文件转换为ARFF格式？

我正在使用 WEKA 工具进行文本分类并且必须将纯文本文件转换为 ARFF 格式但是我不知道该怎么做谁能帮我将文本文件转换为 ARFF 格式谢谢伦克劳夫的回复我不明白这些要点由于像记事本这样的文本编辑器只允许有限数量的列因此
使用WEKA时找出错误分类的实例

我正在使用 WEKA 的 GUI 版本并使用朴素贝叶斯进行分类谁能告诉我如何找出哪些实例被错误分类转到 Weka 资源管理器中的分类选项卡单击更多选项检查输出预测 Click OK 希望有帮助
句子分类（Categorization）

我一直在阅读有关文本分类的内容并找到了几个可用于分类的Java工具但我仍然想知道文本分类与句子分类相同吗有没有专注于句子分类的工具文本分类和句子分类之间没有正式的区别毕竟句子是一种文本但一般来说当人们谈论文本分类时
Weka 仅将数字更改为名义

我有一个 CSV 文件正在导入 Weka 所有变量均以数字形式导入我需要将其中 3 个更改为名义值然而当我在其上放置数字滤波器时所有变量都会发生变化我只想改3 1 有没有办法通过过滤器改变一些 2 或者您可以在导入时设置它如果
如何在java中使用StringToWordVector（weka）？

这是我的arff文件 relation hamspam attribute text string attribute class ham spam data good ham very good ham bad spam very bad
WEKA 工具包中的隐马尔可夫模型相当于什么？

我需要对来自由 8 个加速度计组成的传感器网络的数据流进行分类每个加速度计都会给我一个 X Y 和 Z 值因此在每个样本中我有 8 x 3 24 个加速度值我的采样频率约为 30 Hz 执行时间约为 0 5 秒起初我想为此使用隐
在 Weka 中对单实例进行分类

我使用 WEKA gui 训练并创建了 J48 模型我将模型文件保存到我的计算机上现在我想用它对我的 Java 代码中的单个实例进行分类我想获得对属性簇的预测我所做的如下 public void classify double
在java代码中使用WEKA API时出现错误：类属性未设置？

我正在尝试在我的java代码中使用weka API 我使用 J48 树分类对 MySQL 数据库中的数据集进行分类但出现以下错误 Trying to add database driver JDBC RmiJdbc RJDriver Er
使用 awk 将稀疏矩阵转换为 ARFF

我正在处理稀疏矩阵格式的极大数据集数据具有归档格式 3 个制表符分隔的列其中第一列中的字符串对应于行第二列中的字符串对应于属性第三列中的值是加权分数 church place 3 church institution 6 man p
WEKA 的重采样过滤器 - 如何解释结果

我目前正在努力解决机器学习问题而我必须处理大量不平衡的数据集也就是说有六个类 1 2 6 不幸的是有例如对于 1 类有 150 个示例实例对于 2 有 90 个实例对于 3 类只有 20 个实例所有其他类都无法训练因为

随机推荐

滚动后的 div（不是位置：固定）

我前段时间找到过现在找不到了我想找到像苹果商店里的购物车这样的东西它是一个既不绝对也不固定的div 例如假设它位于屏幕的中心只有当你向下滚动时它才会跟随滚动而不是消失当它到达浏览器标题的边框时我不确定我是否清楚我已经搜索过
NHibernate 上值对象的单独表

我是 DDD 和 NHibernate 的新手在我当前的项目中我有一个实体 Person 它包含一个值对象比如说 Address 今天这很好但也许有一天我会要求我的值对象在本例中为地址必须成为一个实体在尝试以 DDD 方式对
TCP 异步套接字抛出 10057

我编写了以下代码 public static void BeginListen int port IPAddress address IPAddress Any IPEndPoint endPoint new IPEndPoint addr
如何在 WMIC 中转义逗号（如字符串）

我希望能够运行如下查询 wmic path Win32 Service where DisplayName like FooBarService X Y get 但是由于类似字符串中的逗号它不起作用我收到的错误是动词无效我尝试用反
如何显示保留两位小数的浮点数？ [复制]

这个问题在这里已经有答案了我有一个采用浮点参数通常是整数或具有一位有效数字的小数的函数并且我需要输出具有两位小数的字符串中的值 5 5 00 5 5 5 50 等我怎样才能在Python中做到这一点由于这篇文章可能会发布一段时间
将列添加到 Crystal Report 的数据集 (xsd)

我正在编写一份报告需要将一列添加到我的一个数据集和 RPT 文件中但是当我尝试修改数据集时收到错误消息指出指定的表不存在当我查看代码时看起来最初有一个表用于此目的但这种方法已被放弃现在是通过附加到报告的代码中的数据集来完成的
将文件名分配给 shell 中的变量

我正在尝试编写一个脚本它的功能比我要向您展示的功能更复杂一些但我知道问题出在这部分我希望通过以下方式将目录中文件列表的每个名称分配给一个变量同一变量一次一个 for循环然后用这个在循环内部做一些事情看看是什么意思 for th
如何将私钥证书 (.pfx)、公钥证书 (.cer) 上传到 Azure WebApp

如何使用 Azure Powershell 将私有公共证书上传到 Azure 应用服务我知道 New AzureRmWebApp SSLBindings 但我没有进行任何 SSL 绑定我们有使用 SSL 绑定的 Azure 应用服务为
Laravel：如何使用 Eloquent 获取关系列的 SUM

如何使用预先加载来获取相关模型的 SUM 而不加载整个关系数据在我的项目中有两个模型 Account and Transaction 账户模型has many交易我的要求是获取帐户并仅加载相关表上的总和提供了我当前的代码在这段代码
如何使用 scapy 读取保存的 pcap 文件中的 TCP 协议数据？

我正在尝试使用 scapy 读取 Pcap 文件 from scapy all import logfile rdpcap Pcap 112400 pcap print logfile output pcap TCP 0 UDP 0 ICM
如何为整个winform应用程序设置文化

我想为整个 winform 应用程序设置一种文化我怎样才能做到这一点我改变了我的Program cs像这样的文件 using System using System Collections Generic using System Gl
如何在 Maven 中按类别运行 JUnit 测试？

使用 JUnit 4 8 和新的 Category注释有没有办法选择类别的子集来与 Maven 的 Surefire 插件一起运行例如我有 Test public void a Category SlowTests class Test
NativeScript：显示 ActivityIndicator 时禁用所有控件

假设有一个带有用户名密码文本字段和登录按钮的登录页面按下按钮时将向服务器设置请求并显示 ActivityIndi cator 目前我将 StackLayout 放在所有其他控件之上以免用户在处理请求时单击它们但在某些情况下 Te
如何使“ListView.builder”从特定索引开始

1 问题有没有办法ListView builder比如说从第二个 index 1 小部件列表的项目就我而言更多信息here and here如果你有兴趣我正在尝试在顶部添加一些空白ListView这样用户就可以将顶部的卡片滚动到靠
使用 AJAX 将表单数据保存到 PHP

如何将表单数据保存在文件或本地数据库可能使用 AJAX 中通过表单操作将数据发送到外部数据库我的表单的源代码在这里 http jsbin com ojUjEKa 1 edit 我应该对代码进行哪些更改如果有 EDIT 正确的因此
使用 php 查找文本中的所有 url（链接）

我有这个代码正则表达式它应该将各种不同的网址转换为某些文本中的链接 preg replace代码是 regex https w w w d w S text preg replace regex a href 1 1 a item 现在它
无法在 PhpStorm 断点处观察变量值

我在调试 PhpStorm 时遇到一个奇怪的问题我使用的是 XAMPP PhpStorm Xdebug 我在下面编写代码并设置4个断点
MongoDB - mongofiles

C Programs MongoDB bin gt mongofiles exe list connected to 127 0 0 1 test123 txt 6 test123 txt 22 test123 txt 44 test456
具有移动构造函数和赋值的类的默认复制构造函数和赋值

假设我有这门课 class Test public Test AFAIK 编译器提供默认的复制构造函数和赋值运算符它们将其他实例的每个成员分配给当前实例现在我添加移动构造函数和赋值 class Test public Test Test
Weka 中 ARFF 格式的属性过多

我正在处理维度超过 10 000 的数据集为了使用Weka 我需要将文本文件转换为ARFF格式但是由于即使使用稀疏ARFF格式属性也太多文件大小太大是否有与数据类似的方法来避免在 ARFF 文件头中写入如此多的属性标识符例如属

Weka 中 ARFF 格式的属性过多

Weka 中 ARFF 格式的属性过多 的相关文章

随机推荐

热门标签

Weka 中 ARFF 格式的属性过多的相关文章