Weka 中 ARFF 格式的属性过多

2023-12-13

我正在处理维度超过 10,000 的数据集。为了使用Weka,我需要将文本文件转换为ARFF格式,但是由于即使使用稀疏ARFF格式,属性也太多,文件大小太大。是否有与数据类似的方法来避免在 ARFF 文件头中写入如此多的属性标识符。

例如 :
@属性A1数字
@属性A2数字
...
...
@属性 A10000 数字


我在 AWK 中编写了一个脚本,将以下几行(在 TXT 文件中)格式化为 ARFF

示例.txt 来源:

Att_0 | Att_1 | Att_2 | ... | Att_n
1 | 2 | 3 | ... | 999

我的脚本 (to_arff),您可以根据 TXT 文件中使用的分隔符更改 FS 值:

#!/usr/bin/awk -f
# ./<script>.awk data.txt > data.arff

BEGIN {
    FS = "|";
    # WEKA separator
    separator = ",";
}

# The first line
NR == 1 {
    # WEKA headers
        split(FILENAME, relation, ".");
        # the relation's name is the source file's name
    print "@RELATION "relation[1]"\n";
    # attributes are "numeric" by default
    # types available: numeric, <nominal> {n1, n2, ..., nN}, string and date [<date-format>]
    for (i = 1; i <= NF; i++) {
        print "@ATTRIBUTE "$i" NUMERIC";
    }
    print "\n@DATA";
}

NR > 1 {
    s = "";
    first = 1;
    for (i = 1; i <= NF; i++) {
        if (first)
            first = 0;
        else
            s = s separator;
        s = s $i;
    }
    print s;
}

Output:

@RELATION example

@ATTRIBUTE Att_0 NUMERIC
@ATTRIBUTE Att_1 NUMERIC
@ATTRIBUTE Att_2 NUMERIC
@ATTRIBUTE Att_n NUMERIC

@DATA
1,2,3,9999
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Weka 中 ARFF 格式的属性过多 的相关文章

  • mat格式数据集转换为arff与txt格式

    本文共239个字 xff0c 预计阅读时间需要1分钟 下面的代码给出了将mat格式数据集转换为arff与txt格式的matlab代码 注意 xff0c 每个 mat文件中只有一个数据集 xff0c 其中共有m 43 1列 xff0c 最后一
  • Weka下载安装详解

    目录 前言Weka下载Weka安装Weka启动 前言 如果你没有安装Java的话 xff0c 请看这里 xff0c 选择合适的Java版本 xff0c 这里我选用的是java11 选择jdk8也可以 xff0c 它有jre xff0c 11
  • Hello, Weka

    转自http dreamhead blogbus com logs 16813833 html Weka xff0c 是一个用Java编写的数据挖掘软件 数据挖掘 xff0c 从字面上来看 xff0c 它是一个从数据中找寻有用信息的过程 x
  • Weka GUI - 内存不足,无法加载?

    我过去也曾加载过同样的 Weka 安装 我只是尝试加载 Weka GUI 双击图标 但出现以下错误 我该如何修复它 OutOfMemory Not enough memory Please load a smaller dataset or
  • 添加实例到weka中的Instances

    我有一些 arff 文件 我想按顺序阅读它们并创建一个大数据集 Instances add Instance inst 不会向实例添加字符串值 因此尝试 setDataset 但即使这样也会失败 有没有一种方法可以实现字符串直观上正确的事情
  • Weka GUI 和 Weka 通过 Java 代码得到不同的结果

    我正在使用 NaiveBayesMultinomialText 分类器在 Weka 中应用文本分类 问题是 当我使用 GUI 来执行此操作并在相同的列车数据上进行测试 无需交叉验证 时 我获得了 93 的准确率 而当我尝试通过 java 代
  • 如何从 weka API 计算置信度?

    我正在使用weka java API 在训练集上训练后我可以得到预测的类标签 双 pred fc classifyInstance test instance i 但我想知道类标签的置信概率 我应该使用什么函数 在 GUI 中 我可以选择将
  • Weka中的堆叠算法是什么?它实际上是如何运作的?

    基础分类器的结果是由投票系统选择的 然后元分类器在输入时实际上得到了什么 整个分类器还是只是错误分类的分类器 如果可以用像这个链接这样的简单示例来解释整个机制 那将会很有帮助Weka classifiers meta vote 中的多数投票
  • 尝试使用 Weka 将更多实例添加到训练集中时出现 IndexOutOfBoundsException

    我正在尝试向我的训练集添加更多实例并执行 10 倍交叉验证 我的实例采用字符串格式 因此我使用 StringToWordVector 过滤器将它们转换为数字 如果我不添加我想要的额外页面 事情就会顺利进行 但是当我添加命令时trainSet
  • Weka 标准化柱

    我有一个包含 14 个数字列的 ARFF 文件 我想分别对每列执行标准化 即将每列的值修改为 actual value min this column max this column min this column 因此 列中的所有值都将在
  • 如何将文本文件转换为ARFF格式?

    我正在使用 WEKA 工具进行文本分类 并且必须将纯文本文件转换为 ARFF 格式 但是 我不知道该怎么做 谁能帮我将文本文件转换为 ARFF 格式 谢谢伦克劳夫的回复 我不明白这些要点 由于像记事本这样的文本编辑器只允许有限数量的列 因此
  • 使用WEKA时找出错误分类的实例

    我正在使用 WEKA 的 GUI 版本 并使用朴素贝叶斯进行分类 谁能告诉我如何找出哪些实例被错误分类 转到 Weka 资源管理器中的分类选项卡 单击更多选项 检查输出预测 Click OK 希望有帮助
  • 句子分类(Categorization)

    我一直在阅读有关文本分类的内容 并找到了几个可用于分类的Java工具 但我仍然想知道 文本分类与句子分类相同吗 有没有专注于句子分类的工具 文本分类 和 句子分类 之间没有正式的区别 毕竟 句子是一种文本 但一般来说 当人们谈论文本分类时
  • Weka 仅将数字更改为名义

    我有一个 CSV 文件 正在导入 Weka 所有变量均以数字形式导入 我需要将其中 3 个更改为名义值 然而 当我在其上放置数字滤波器时 所有变量都会发生变化 我只想改3 1 有没有办法通过过滤器改变一些 2 或者您可以在导入时设置它 如果
  • 如何在java中使用StringToWordVector(weka)?

    这是我的arff文件 relation hamspam attribute text string attribute class ham spam data good ham very good ham bad spam very bad
  • WEKA 工具包中的隐马尔可夫模型相当于什么?

    我需要对来自由 8 个加速度计组成的传感器网络的数据流进行分类 每个加速度计都会给我一个 X Y 和 Z 值 因此 在每个样本中 我有 8 x 3 24 个加速度值 我的采样频率约为 30 Hz 执行时间约为 0 5 秒 起初我想为此使用隐
  • 在 Weka 中对单实例进行分类

    我使用 WEKA gui 训练并创建了 J48 模型 我将模型文件保存到我的计算机上 现在我想用它对我的 Java 代码中的单个实例进行分类 我想获得对属性 簇 的预测 我所做的如下 public void classify double
  • 在java代码中使用WEKA API时出现错误:类属性未设置?

    我正在尝试在我的java代码中使用weka API 我使用 J48 树分类对 MySQL 数据库中的数据集进行分类 但出现以下错误 Trying to add database driver JDBC RmiJdbc RJDriver Er
  • 使用 awk 将稀疏矩阵转换为 ARFF

    我正在处理稀疏矩阵格式的极大数据集 数据具有归档格式 3 个制表符分隔的列 其中第一列中的字符串对应于行 第二列中的字符串对应于属性 第三列中的值是加权分数 church place 3 church institution 6 man p
  • WEKA 的重采样过滤器 - 如何解释结果

    我目前正在努力解决机器学习问题 而我必须处理大量不平衡的数据集 也就是说 有六个类 1 2 6 不幸的是有例如对于 1 类 有 150 个示例 实例 对于 2 有 90 个实例 对于 3 类 只有 20 个实例 所有其他类都无法 训练 因为

随机推荐

  • 滚动后的 div(不是位置:固定)

    我前段时间找到过 现在找不到了 我想找到像苹果商店里的购物车这样的东西 它是一个既不绝对也不固定的div 例如 假设它位于屏幕的中心 只有当你向下滚动时 它才会跟随滚动而不是消失 当它到达浏览器标题的边框时 我不确定我是否清楚 我已经搜索过
  • NHibernate 上值对象的单独表

    我是 DDD 和 NHibernate 的新手 在我当前的项目中 我有一个实体 Person 它包含一个值对象 比如说 Address 今天 这很好 但也许有一天我会要求我的值对象 在本例中为地址 必须成为一个实体 在尝试以 DDD 方式对
  • TCP 异步套接字抛出 10057

    我编写了以下代码 public static void BeginListen int port IPAddress address IPAddress Any IPEndPoint endPoint new IPEndPoint addr
  • 如何在 WMIC 中转义逗号(如字符串)

    我希望能够运行如下查询 wmic path Win32 Service where DisplayName like FooBarService X Y get 但是 由于类似字符串中的逗号 它不起作用 我收到的错误是 动词无效 我尝试用反
  • 如何显示保留两位小数的浮点数? [复制]

    这个问题在这里已经有答案了 我有一个采用浮点参数 通常是整数或具有一位有效数字的小数 的函数 并且我需要输出具有两位小数的字符串中的值 5 5 00 5 5 5 50 等 我怎样才能在Python中做到这一点 由于这篇文章可能会发布一段时间
  • 将列添加到 Crystal Report 的数据集 (xsd)

    我正在编写一份报告 需要将一列添加到我的一个数据集和 RPT 文件中 但是当我尝试修改数据集时 收到错误消息 指出指定的表不存在 当我查看代码时 看起来最初有一个表用于此目的 但这种方法已被放弃 现在是通过附加到报告的代码中的数据集来完成的
  • 将文件名分配给 shell 中的变量

    我正在尝试编写一个脚本 它的功能比我要向您展示的功能更复杂一些 但我知道问题出在这部分 我希望通过以下方式将目录中文件列表的每个名称分配给一个变量 同一变量 一次一个 for循环 然后用这个在循环内部做一些事情 看看是什么意思 for th
  • 如何将私钥证书 (.pfx)、公钥证书 (.cer) 上传到 Azure WebApp

    如何使用 Azure Powershell 将私有公共证书上传到 Azure 应用服务 我知道 New AzureRmWebApp SSLBindings 但我没有进行任何 SSL 绑定 我们有使用 SSL 绑定的 Azure 应用服务 为
  • Laravel:如何使用 Eloquent 获取关系列的 SUM

    如何使用预先加载来获取相关模型的 SUM 而不加载整个关系数据 在我的项目中有两个模型 Account and Transaction 账户模型has many交易 我的要求是 获取帐户并仅加载相关表上的总和 提供了我当前的代码 在这段代码
  • 如何使用 scapy 读取保存的 pcap 文件中的 TCP 协议数据?

    我正在尝试使用 scapy 读取 Pcap 文件 from scapy all import logfile rdpcap Pcap 112400 pcap print logfile output pcap TCP 0 UDP 0 ICM
  • 如何为整个winform应用程序设置文化

    我想为整个 winform 应用程序设置一种文化 我怎样才能做到这一点 我改变了我的Program cs像这样的文件 using System using System Collections Generic using System Gl
  • 如何在 Maven 中按类别运行 JUnit 测试?

    使用 JUnit 4 8 和新的 Category注释 有没有办法选择类别的子集来与 Maven 的 Surefire 插件一起运行 例如我有 Test public void a Category SlowTests class Test
  • NativeScript:显示 ActivityIndi​​cator 时禁用所有控件

    假设有一个带有用户名 密码文本字段和登录按钮的登录页面 按下按钮时 将向服务器设置请求并显示 ActivityIndi cator 目前 我将 StackLayout 放在所有其他控件之上 以免用户在处理请求时单击它们 但在某些情况下 Te
  • 如何使“ListView.builder”从特定索引开始

    1 问题 有没有办法ListView builder比如说 从第二个 index 1 小部件列表的项目 就我而言 更多信息here and here如果你有兴趣 我正在尝试在顶部添加一些空白ListView这样用户就可以将顶部的卡片滚动到靠
  • 使用 AJAX 将表单数据保存到 PHP

    如何将表单数据保存在文件或本地数据库 可能使用 AJAX 中 通过表单操作将数据发送到外部数据库 我的表单的源代码在这里 http jsbin com ojUjEKa 1 edit 我应该对代码进行哪些更改 如果有 EDIT 正确的 因此
  • 使用 php 查找文本中的所有 url(链接)

    我有这个代码正则表达式 它应该将各种不同的网址转换为某些文本中的链接 preg replace代码是 regex https w w w d w S text preg replace regex a href 1 1 a item 现在它
  • 无法在 PhpStorm 断点处观察变量值

    我在调试 PhpStorm 时遇到一个奇怪的问题 我使用的是 XAMPP PhpStorm Xdebug 我在下面编写代码并设置4个断点
  • MongoDB - mongofiles

    C Programs MongoDB bin gt mongofiles exe list connected to 127 0 0 1 test123 txt 6 test123 txt 22 test123 txt 44 test456
  • 具有移动构造函数和赋值的类的默认复制构造函数和赋值

    假设我有这门课 class Test public Test AFAIK 编译器提供默认的复制构造函数和赋值运算符 它们将其他实例的每个成员分配给当前实例 现在我添加移动构造函数和赋值 class Test public Test Test
  • Weka 中 ARFF 格式的属性过多

    我正在处理维度超过 10 000 的数据集 为了使用Weka 我需要将文本文件转换为ARFF格式 但是由于即使使用稀疏ARFF格式 属性也太多 文件大小太大 是否有与数据类似的方法来避免在 ARFF 文件头中写入如此多的属性标识符 例如 属