使用 awk 将稀疏矩阵转换为 ARFF

2024-04-09

我正在处理稀疏矩阵格式的极大数据集。

数据具有归档格式（3 个制表符分隔的列，其中第一列中的字符串对应于行，第二列中的字符串对应于属性，第三列中的值是加权分数）。

church place 3
church institution 6
man place 86
man food 63
woman book 37

我想使用 awk （如果可能的话）将其转换为 arff 格式，以便使用上面的内容作为输入，我可以获得以下输出：

@relation 'filename'
@attribute "place" string
@attribute "institution" string
@attribute "food" string
@attribute "book" string


@data
3,6,0,0,church
86,0,63,0,man
0,0,0,37,woman

我已经看到这个 awk 文件完成了HERE https://stackoverflow.com/questions/9234232/too-many-attributes-for-arff-format-in-weka，产生的结果与我需要的非常相似。但是，输入有点不同。我试图通过更改 FS = "|" 来操纵提供的代码到“\t”，但它不会产生预期的结果。有人建议我如何操作这个 awk 代码将我的输入转换为我想要的输出吗？

我不知道 arff 是什么（我也不需要知道来帮助您将文本转换为不同的格式），所以让我们从这里开始：

$ cat tst.awk
BEGIN{ FS="\t" }
NR==1 { printf "@relation '%s'\n", FILENAME }
{
    row = $1
    attr = $2

    if (!seenRow[row]++) {
        rows[++numRows] = row
    }

    if (!seenAttr[attr]++) {
        printf "@attribute \"%s\" string\n", attr
        attrs[++numAttrs] = attr
    }

    score[row,attr] = $3
}
END {
    print "\n\n@data"
    for (rowNr=1; rowNr<=numRows; rowNr++) {
        row = rows[rowNr]
        for (attrNr=1;attrNr<=numAttrs;attrNr++)  {
            attr = attrs[attrNr]
            printf "%d,", score[row,attr]
        }
        print row
    }
}
$
$ cat file
church  place   3
church  institution     6
man     place   86
man     food    63
woman   book    37
$
$ awk -f tst.awk file
@relation 'file'
@attribute "place" string
@attribute "institution" string
@attribute "food" string
@attribute "book" string


@data
3,6,0,0,church
86,0,63,0,man
0,0,0,37,woman

现在，告诉我们哪里出了问题，我们就可以从那里开始。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

awk

converters

arff

使用 awk 将稀疏矩阵转换为 ARFF 的相关文章

在mawk中使用strftime函数

我正在尝试创建 AWK 脚本该脚本将根据某种模式过滤输入文件并使用 strftime 函数进行一些计算 2 HB 2 n print strftime Y 使用的解释器是mawk 使用此命令触发此脚本时 awk f script3 in
在目录和子目录中搜索文件中的模式

在Linux中我想搜索给定目录及其子文件夹文件以查找某些包含和排除模式 find apps exec grep performance v warn dev null 这与搜索所经过的大量行相呼应我不想这样我想找到包含性能但不包含警
默认 RenderTransform 转换器语法

我有一个画布应用了 RenderTransform 如下所示
将文本输入滑动窗口并进行计数

我有这样的文件超过 1 个缺少行 20 14370 rs6054257 G A 29 PASS NS 3 DP 14 AF 0 5 DB H2 GT GQ DP HQ 0 0 48 1 51 51 20 17330 T A 3 q10 N
如何检查列的值是否位于其他文件中两列的值之间并从 Unix 中的列中打印相应的值？

我有两个文件要比较我找到了如何比较列并根据条件进行打印我手头的问题是我必须检查 file1 中的 column 2 的值是否位于 file2 中定义为两列范围 col 2 col 3 的值之间如果这是真的那么我应该在 file1
使用 awk 计算行的平均值

我一直在编写一个脚本通过读取 txt 文件的输入来计算行的平均值示例文本输入文件输入 txt 157361 155687 156158 156830 149610 151824 152353 152027 159195 158490 1
BASH - 使用 Loop 和 If 语句总结唯一字段中多个字段的信息

我有以下制表符分隔的文件 A1 A1 0 0 2 1 1 1 1 1 1 1 2 1 1 1 A2 A2 0 0 2 1 1 1 1 1 1 1 1 1 1 1 A3 A3 0 0 2 2 1 1 2 2 1 1 1 1 1 1 A5 A5
使用 awk（或熟悉的）将多行合并为 1 行

我需要将 nmap 输出中的多行合并为一行 FROM Nmap scan report for example com 22 tcp open ssh 80 tcp open http 111 tcp open rpcbind 1720 t
匹配两个不同文件中最接近的值并打印特定列

大家好我有两个文件每个文件都有 N 列和 M 行 File1 1 2 4 6 8 20 4 8 10 12 15 5 7 9 11 File2 1 a1 b1 c5 d1 2 a1 b2 c4 d2 3 a2 b3 c3 d3 19 a
从unix中的内部列中删除csv文件中的新行字符

输入数据示例 cat test csv 234 aa bb cc 30 dd 22 cc ff dd 40 gg pxy aa cc 40 dd 所需输出 cat test new csv 234 aa bb cc 30 dd 22 cc
awk 有条件地组合多行

我想将多行不同长度的值合并到一行如果它们与 ID 匹配输入示例是 ID Value a 1 49 a 2 75 b 1 120 b 2 150 b 3 211 c 1 289 d 1 301 d 2 322 所需的输出示例是 ID Va
代码高尔夫！有没有一种简单的方法可以在Python中将字母转换为数字？

你知道比如 A 1 B 2 等我可以列出一长串 if then 但也许已经有一个模块了如果它像 Excel 坐标中那样工作其中 A 27 并继续那就更好了这算不算 26 进制数 def foo c return ord c 6
awk 计数频率

嘿我想统计 awk 中某一列的数据量一个示例数据集是 2 5 8 1 3 7 8 5 9我想计算第二列中 5 的出现频率这就是我尝试过的方法但没有成功 total 0 for i 1 i lt NF i if i 2 if i 5
使用 grep 仅打印上下文

Using grep http www computerhope com unix ugrep htm 您可以打印与您的搜索查询匹配的行添加一个 C选项将打印两行周围的上下文如下所示 gt grep C 2 lorem some con
使用awk对字段进行排序和排列

我现在正在尝试学习 awk 我想做一项特定的任务我的问题与之前发布的问题范围相似使用 awk 将列转置为行 https stackoverflow com questions 13634816 using awk to transpos
BASH - 随机排列文件中字符串中的字符

我有一个文件 filename txt 具有以下结构 gt line1 ABC gt line2 DEF gt line3 GHI gt line4 JKL 我想打乱字符串中的字符not开始机智 gt 输出将例如如下所示 gt line
Bash 脚本问题

我可以很好地运行这个命令并得到我想要的输出 ifconfig eth0 grep HWaddr awk print 5 但是当我将命令设置为变量并打印该变量时出现错误 CASS INTERNAL ifconfig eth0 grep
使用 AWK 或 SED 以及以下标签以逗号分隔

使用 AWK 或 SED 以及下面使用的标签以逗号分隔 BEGIN AccountID BEGIN CallerID BEGIN Billed Account Attributes 1111111 1111111 1111111 END B
我如何在 ruby 中执行范围正则表达式，例如 awk /start/,/stop/

我想做一个 AWK 风格的范围正则表达式如下所示 awk hoststatus file 在 AWK 中这将打印文件中两个模式之间的所有行 hoststatus host name myhost modified attributes
按行号和列号对文件进行子集化

我们想要按行和列对文本文件进行子集化其中行数和列数是从文件中读取的不包括标题第 1 行和行名称第 1 列输入文件 txt制表符分隔的文本文件 header 62 9 3 54 6 1 25 1 2 3 4 5 6 96 1 1

随机推荐

Django 注销问题

这是我在 Django 身份验证中遇到的问题访问需要登录的页面注销访问 django contrib auth logout 访问原始登录保护页面您仍处于登录状态有什么想法如何解决这个问题吗我的 Django 会话设置是 SES
Gradle 自定义插件：添加扩展对象的依赖项

我正在尝试编写一个插件来添加依赖项project dependencies根据插件扩展对象中收集的信息但这似乎是不可能的事实上来自扩展对象的数据仅在新任务或project afterEvaluate关闭但在这些地方添加的依赖项将被忽
如何更改图像中的像素

我实际上尝试执行以下操作我已在 bitmapdata 对象中加载了外部图像并从中创建了一个位图我将其附加到 sprite MovieClip 以便在其上包含鼠标事件现在根据前面的逻辑我加载了两个相同大小的图像比方说圆圈其中一
区分 gcc 诊断

我在解释 gcc 4 8 2 警告和错误时遇到问题更准确地说很难判断一个问题从哪里结束另一个问题从哪里开始我只能通过控制台访问构建机器因此不能选择使用 IDE 我真的需要能够快速区分各个问题有没有办法让 GCC 在不同的诊断消息
如何在 Visual Studio Code 的 Zen 模式下显示选项卡？

In Visual Studio Code how to you keep tabs the tabs from hiding when you enter Zen mode Ctrl K Z 我自己回答这个问题因为我不得不这样做几次而
Java常量示例（创建仅包含常量的java文件）

声明只有常量的 java 文件的最佳实践是什么 public interface DeclareConstants String constant Test OR public abstract class DeclareConstants
PHP中虚函数的正确实现？

在我的工作场所仅限 php 我们有一个数据库抽象的基类当您想要将新的数据库表添加到基础层时您必须创建该基类的子类并重写一些方法来定义使用该表的单独行为正常行为应该保持不变现在我在我们公司见过很多新程序员他们只是重写默认行为的方法
通过指针创建字符串

我了解到指针指向内存地址因此我可以使用它来更改该地址处设置的值像这样 int pPointer iTuna pPointer这里有内存地址iTuna 所以我们可以使用pPointer改变值iTuna 如果我打印pPointer内存地址被
SQL Server 时区更改

我在同一个 SQL Server 上有 2 个数据库是否有可能一个在太平洋标准时间另一个在东部标准时间不日期时间源自运行 SQL Server 实例的计算机的操作系统不过您可以拥有一个自定义 UDF 您可以调用该 UDF 而不
将准备好的语句与 JDBCTemplate 结合使用

我正在使用 JDBC 模板并希望使用准备好的语句从数据库中读取数据我迭代 csv 文件中的多行并在每一行上使用相应的值执行一些 SQL 选择查询我想加快从数据库的读取速度但我不知道如何让 JDBC 模板与准备好的语句一起使用有的
带有闪亮下载数据按钮的自定义 html

我想知道如何使闪亮downloadHandler使用自定义 html UI In my index html我有以下内容 a class shiny download link shiny bound output export a 并且在
当 AudioSessionActive 为 NO 时，无法通过硬件按钮控制 AVAudioPlayer 的音量

我正在构建一个路线导航应用程序可以播放周期性的简短声音片段无论屏幕是否锁定声音都应该播放应该与其他音乐播放混合并且应该在播放此音频时使其他音乐闪避 Apple 在 29 20 分钟的 WWDC 2010 session 412 i
WPF ComboBox DropDown 部分出现在错误的位置

我在 XAML 窗口上放置了几个 ComboBox 当我展开其中任何一个时下拉部分会出现在屏幕的左上角我使用 Visual Studio 2008 C Express 我不记得当我使用Visual Studio 2008 试用版时有这
如何对密码进行哈希处理

我想在手机上存储密码的哈希值但我不知道该怎么做我似乎只能找到加密方法应该如何正确地对密码进行哈希处理考虑到今天 2012 年的最佳实践这里的大多数其他答案都有些过时了 NET 中原生可用的最强大的密码哈希算法是 PBKDF2 由
带空间的自动完成文本视图

我有一个 Room 数据库并创建了一个模型和 viewModel 我想知道如何使自动完成文本视图与数据库数据和视图模型一起工作以在用户输入时过滤客户列表视图模型 class CustomerVM ViewModel private va
R Notebook HTML 格式 - 添加到分页表的超链接

我希望从 R Notebook 编写一个 html 文件其中包含带有超链接的分页表可以使用插入超链接knitr kable 但我找不到生成的方法paged 由于我的问题似乎没有完美的解决方案我想我应该发布我想出的解决方法以防有人遇到
代理服务器截断视图状态

有什么方法可以模拟代理服务器截断视图状态吗我通过将 ViewState 放在服务器端来完全避免使用 ViewState 客户端该代码大约有 5 行长我已经看到性能的巨大改进 http aspadvice com blogs rober
IE8 不显示图像（红色 x）...有时

我对以下问题感到抓狂这在任何其他浏览器 Chrome Firefox 上都不会发生 IE8缓存被清除浏览器启动时会打开 HTML Javascript 页面该页面会动态请求并创建一些图像此 HTML 页面由 Tomcat 服务器 l
下载管理器在 Android Pie 9.0 NetworkSecurityConfig 中不起作用：未指定网络安全配置，使用平台默认值

将设备操作系统更新为Android 9 0 以前这段代码工作正常小米A2 现在文件没有被下载Android Pie 9 0 此外它在奥利奥牛轧糖棉花糖中运行良好这是代码片段 File myDir new File Environ
使用 awk 将稀疏矩阵转换为 ARFF

我正在处理稀疏矩阵格式的极大数据集数据具有归档格式 3 个制表符分隔的列其中第一列中的字符串对应于行第二列中的字符串对应于属性第三列中的值是加权分数 church place 3 church institution 6 man p

使用 awk 将稀疏矩阵转换为 ARFF

使用 awk 将稀疏矩阵转换为 ARFF 的相关文章

随机推荐

热门标签