通过 awk 将频率（出现次数）添加到我的文本表中

2024-02-01

给定这个输入表：

pac1 xxx 
pac1 yyy
pac1 zzz
pac2 xxx
pac2 uuu
pac3 zzz
pac3 uuu
pac4 zzz

我需要将频率添加到第三列，如下所示：

pac1 xxx 2/3
pac1 yyy 1/3
pac1 zzz 3/3
pac2 xxx 2/2
pac2 uuu 2/2
pac3 zzz 2/2
pac3 uuu 2/2
pac4 zzz 3/1

其中第一个数字是第二列中出现的次数。

awk '{print $2}' input | sort | uniq -c

斜杠后的数字是第一列的唯一出现次数：

awk '{print $1}' input | sort | uniq -c

我想在 awk 中使用实现。

EDIT:

请修改输出 - 第一列是名称，我需要计算第一列中出现了多少个 uniq 名称，例如：

pac1 xxx 2/4
pac1 yyy 1/4
pac1 zzz 3/4
pac2 xxx 2/4
pac2 uuu 2/4
pac3 zzz 2/4
pac3 uuu 2/4
pac4 zzz 3/4

所以唯一的名称只有 pac1,pac2,pac3,pac 4 => 4

像这样的东西：

occur=$(awk '{print $1}' input | sort | wc -l)

awk -v occur=$occur '{col2[$2]++} {print $0, col2[$2] "/" occur}' file

A想避免变量$出现。

只需读取文件两次：首先计算值并将它们存储在数组中，然后打印其值：

$ awk 'FNR==NR {col1[$1]++; col2[$2]++; next} {print $0, col2[$2] "/" col1[$1]}' file file
pac1 xxx 2/3
pac1 yyy 1/3
pac1 zzz 3/3
pac2 xxx 2/2
pac2 uuu 2/2
pac3 zzz 3/2
pac3 uuu 2/2
pac4 zzz 3/1

The FNR==NR {things; next}是在读取第一个文件时执行操作的技巧。它基于使用FNR and NR：前者表示记录的字段编号，后者表示记录的编号。这意味着 FNR 包含当前文件的行数，而 NR 包含到目前为止已读取的总体行数，使得FNR==NR仅在读取第一个文件时为 true。通过添加next我们跳过当前行并跳到下一行。

查找更多信息惯用的 awk http://backreference.org/2010/02/10/idiomatic-awk/.

关于您的更新：如果您希望最后一项包含第一列中不同值的计数，只需检查创建的数组的长度。这将告诉您它包含的许多不同索引，以及您想要的值：

$ awk 'FNR==NR {col1[$1]++; col2[$2]++; next} {print $0, col2[$2] "/" length(col1)}' file file
pac1 xxx 2/4
pac1 yyy 1/4
pac1 zzz 3/4
pac2 xxx 2/4
pac2 uuu 2/4
pac3 zzz 3/4
pac3 uuu 2/4
pac4 zzz 3/4

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

bash

awk

sed

通过 awk 将频率（出现次数）添加到我的文本表中的相关文章

在 BASH 脚本中使用字符串作为变量名

我有以下内容 bin sh n fred bob f n echo f 我需要在替换后执行底线 echo n 有办法做到这一点吗我刚刚得到 test sh line 8 f bad substitution 在我这边您可以像这样使用数组
无需 root 访问权限即可安装 zsh？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案有可能以及如何我确实需要在几台具有 ssh 访问权限但没有 root 访问权限的远程计算机上使用此功能下载 zsh wget O zsh t
将 mysql 查询输出存储到 shell 变量中

我需要一个变量来保存从数据库检索的结果到目前为止这基本上是我正在尝试但没有成功的事情 myvariable mysql database u user p password SELECT A B C FROM table a 正如你所看
用于读取文件的 Bash 脚本

不知道为什么最后一行没有从脚本中删除 bin bash FILENAME 1 while read line do cut d f2 echo line done lt FILENAME cat file 1 test 2 test 3 t
如何在 Linux/OS X 上温和地终止 Firefox 进程

我正在使用 Firefox 进行一些自动化操作尽管我可以从 shell 打开 Firefox 窗口但我无法正确终止它如果我kill火狐进程与kill 3 or kill 2当我下次打开新的 Firefox 窗口时命令会询问我是否要在
忽略 sed 查找和替换命令中的斜杠

我正在尝试在终端中使用 sed 进行查找和替换在 apache 配置文件中我尝试替换 DocumentRoot var www with DocumentRoot var www mysite com public html 从命令行
比较linux中的两个未排序列表，列出第二个文件中的唯一项

我有 2 个包含号码列表电话号码的文件我正在寻找一种列出第二个文件中第一个文件中不存在的数字的方法我尝试过各种方法 comm getting some weird sorting errors fgrep v x f second
sed + 删除以 ### 开头的行，包括行开头和 ### 之间的空格

I have sed i d file 如何更改 sed 语法以便像 awk 语法一样做出反应 awk t file 例如 sed 需要删除以空格或 TAB 开头的行然后 sed i t d file
“检测到堆栈粉碎”消息打印到哪个流？

考虑以下非常基本的程序它在此处以多种形式出现在其他问题上 include
带有二进制数据的 Bash echo 命令？

有人可以解释一下为什么这个脚本有时只返回十六进制字符串表示形式的 15 个字节吗 for i in 1 10 do API IV openssl rand 16 API IV HEX echo n API IV od vt x1 w16 a
如何回忆上一个 bash 命令的参数？

Bash 有没有办法回忆上一个命令的参数我通常这样做vi file c其次是gcc file c Bash 有没有办法回忆上一个命令的参数您可以使用 or 调用上一个命令的最后一个参数 Also Alt can be used to r
在cmake中集成bash测试脚本

我有一个 C cmake 项目它使用 Boost Test 进行单元测试现在我想向 cmake 公开一系列 bash 脚本用于集成测试假设每个脚本在以下情况下返回 0PASS或某些情况下 0FAILURE 我希望每次运行时都执行每个
独特的 Linux 文件名，可按时间排序

以前我用的是uuidgen http man7 org linux man pages man1 uuidgen 1 html创建唯一的文件名然后我需要通过 bash 脚本按日期时间迭代该文件名从那时起我发现简单地通过 ls l 循
将 bash 提示符下的当前命令复制到剪贴板

我想要一个快速的键盘命令序列将 bash 提示符处的当前命令复制到剪贴板例如要将最后一个 bash 命令复制到剪贴板我会按 up some command sequence 复制它或者例如要在 bash 历史记录中搜索命令我
使用 sed 将反斜杠替换为斜杠[重复]

这个问题在这里已经有答案了我需要更换 with 我有一个文件其中包含 test test2 test3 test4 I tried VRS Ruta cat ruta lst sed s g sed s g output test te
在unix、bash中合并csv文件

我有一些 csv 文件其格式如下测试1 csv field port1 a1 0 2 a2 0 3 a3 0 6 测试2 csv field port2 b1 0 5 b2 0 6 b3 0 7 b4 0 1 b5 0 5 测试3 cs
OSX 和 SED - 删除文档目录中第 25 行之后的所有行

我有一个包含数千个 txt 文件的目录我需要修剪文件以便删除每个文件中第 25 行之后的每一行我使用的是 Mac OSX 10 14 6 我怎样才能做到这一点我所做的尝试经过研究我认为 Mac OSX 终端中的 SED 是实现此
如何使用 bash 脚本通过 tar 备份文件系统？

我想备份我的 ubuntu 文件系统我写了这个小脚本这是非常基本的但这是我第一次尝试我害怕犯错误由于需要几个小时才能完成才能看到结果因此我认为最好向经验丰富的程序员询问我是否做错了什么我特别感兴趣 gt 会记录输出mv或者它也
将儒略时间戳转换为 UNIX 中的常规时间

我需要使用 Bash 将 UNIX 中的 Julian 时间戳转换为常规时间戳在 Tandem OS 上转换非常简单例子 212186319010244541 OLSAPP SYSTST 1 gt interprettimestamp
Shell 执行：时间与 /usr/bin/time

当 bash zsh 执行以下操作时会发生什么 usr bin time l sleep 1 1 00 real 0 00 user 0 00 sys 516096 maximum resident set size 0 average s

随机推荐

使用 Passport 和 Laravel 进行身份验证时返回访问令牌和用户

我正在使用 Laravel 5 4 和 Passport 创建一个 API API 授权是使用密码授予类型完成的以下是请求示例 http new GuzzleHttp Client response http gt post http y
在 Woocommerce 结帐页面中的所有默认通知之前显示自定义通知

我使用以下代码在结帐页面中向未登录的 woocommerce 用户访客显示自定义消息 add action woocommerce before checkout form my custom message function my c
将保存/更新调用轨道转换为 sql

我想获取运行时生成的sql save 当我在控制台中运行此命令时 irb main 018 0 gt a User last irb main 018 0 gt a first name gt Mohan irb main 019 0 gt
Powershell进度条

我是 Powershell 新手在获取进度条来使用 foreach object 循环时遇到问题如果可能的话感谢 Chris 下面是我到目前为止所得到的我的问题是进度条到达某个点然后出现错误 101 参数大于最大允许范围 100
如果 RSS 源未更改，则不执行任何操作

我想每隔几分钟运行一个Python脚本该脚本首先从 rss feed 中获取最新文章使用 feedparser 我想要的是当最新的文章与上次运行的文章相同时脚本就结束了我该如何实现这个目标既然你在 python 问题中提到 fe
UML 的高效替代方案

我发现 UML 很难快速创建我想更快地表达我的想法特别是对于小型开源项目如果它足够大我会费心使用 UML 但是这个项目对于这种事情来说太小了我不想要另一个让我觉得不我稍后再做的工具有什么建议么 UML 不是一种工具而是一
是否可以在免费套餐中使用 Google Cloud Kubernetes 集群？

纵观免费套餐特点 https cloud google com free docs gcp free tier对于 Google Cloud 它指出 VM 实例必须位于以下区域us west1 VM 机器类型必须是f1 micro 因此为
Java 方法中 byte[] 和 byte ... 的区别

有人问我这两个方法参数之间有什么区别以及为什么要在专门分配的数组上使用 putMessage byte send putMessage byte send 我无法自信地回答他们也不记得叫什么 The 在你的第一个例子中被称为vararg
如何在node.js后端获取昨天的日期？

我在用日期格式包在节点后端我可以使用获取今天的日期 var today dateFormat new Date 以相同或其他方式我想要昨天的约会我仍然没有得到任何正确的方法目前我正在使用大量代码手动计算昨天的日期除了手动写入还有其他
2 个容量相同的背包 - 为什么我们不能两次找到最大值

如果给你一组具有值和重量的物品 w1 v2 w2 v2 wn vn 以及两个容量相等的背包 Knap1 和 Knap2 C 则目标是确定可以分别放入 Knap1 和 Knap2 的物品 S1 和 S2 的最佳子集并最大化背包的价值和容量
如何确保表单中编码的文本是utf8

我有一个 html 框用户可以用它输入文本我想确保在框中输入的所有文本都以 UTF 8 编码或在用户完成输入时转换为 UTF 8 此外我不太明白在输入文本框时如何选择各种UTF编码一般来说我对以下内容感到好奇当用户在文本框中键入
Sql Server Management Studio 对象资源管理器消失 - 丢失 - 消失

SQL Server 管理工作室Object Explorer菜单消失了捷径F8和view gt object explorer方法也不做任何事情我点击了键盘上的所有内容用谷歌搜索但什么也没有我真的需要这个回来在没有对象资源管理
Font Awesome 无法加载资源 /font/fontawesome-webfont.woff?v=3.0.1

网站上一切看起来都很好但这两个错误显示在控制台中如果我点击该网址就会下载字体一直试图追踪这个问题一段时间但我在控制台中收到两个错误无法加载资源资源 font fontawesome webfont woff v 3 0 1无法加
JavaScript 超过超时时间

我使用 jquery 开发移动应用程序下面是我的代码当我向包含的页面添加 5 或 6 行时一切顺利但如果我添加多行显示错误消息 Javascript执行超时 function succes recu list rubrique tx
在 C++ 中查找大于 4GB 的文件？ [复制]

这个问题在这里已经有答案了我正在使用 MS Visual Studio 2012 编译器并且正在 x64 发布模式下构建使用 ifstream 我可以读取大于 4GB 的文件问题是我无法找到 10GB 文件中间的位置当我像这样使
SQL 计数日期范围

我正在尝试查询 SQL 数据库以获取每个客户在特定日期范围内发出的订单数我有一个订单列表如下 CustomerName ClientID DateOrdered Customer No 2 10 2011 11 25 Customer N
如何在 OSX 10.9 上安装 gdb

如何在 OSX 10 9 上安装 gdb 我尝试使用 macports port install gdb Password gt Updating database of binaries 100 0 gt Scanning binarie
Android MotionEvent.getActionIndex() 和 MultiTouch

我试图在事件 MotionEvent ACTION MOVE 发生时获取指针 id 我通过调用 event getActionIndex 来做到这一点但对于第二个第三个第四个和第五个手指它总是返回 0 我在 Galaxy S I90
当经度 > 90 时，Python 纬度/经度中点计算给出错误结果

当给定两端点的纬度和经度时我有一个短函数来计算线的中点的问题简单来说就是当经度大于 90度或小于90度时都能正常工作对于地球的另一半它提供了一个有点随机的结果该代码是 javascript 的 python 转换位于http w
通过 awk 将频率（出现次数）添加到我的文本表中

给定这个输入表 pac1 xxx pac1 yyy pac1 zzz pac2 xxx pac2 uuu pac3 zzz pac3 uuu pac4 zzz 我需要将频率添加到第三列如下所示 pac1 xxx 2 3 pac1 yyy

热门标签