使用 bash 计算文件中每个单词的出现次数

2024-03-29

我想计算文件中每个单词的出现次数但结果是错误的。

#!/bin/bash
#usage: count.sh file

declare -a dict

for word in $(cat $1)
do
    if [ ${dict[$word]} == "" ] ;then
        dict[$word]=0
    else
        dict[$word]=$[${dict[$word]} + 1]
    fi
done

for word in ${!dict[@]}
do
    echo $word: ${dict[$word]}
done

使用下面的测试文件：

learning the bash shell
this is second line
this is the last line

bash -x count.sh 文件得到结果：

+ declare -a dict
++ cat book
+ for word in '$(cat $1)'
+ '[' '' == '' ']'
+ dict[$word]=0
+ for word in '$(cat $1)'
+ '[' 0 == '' ']'
+ dict[$word]=1
+ for word in '$(cat $1)'
+ '[' 1 == '' ']'
+ dict[$word]=2
+ for word in '$(cat $1)'
+ '[' 2 == '' ']'
+ dict[$word]=3
+ for word in '$(cat $1)'
+ '[' 3 == '' ']'
+ dict[$word]=4
+ for word in '$(cat $1)'
+ '[' 4 == '' ']'
+ dict[$word]=5
+ for word in '$(cat $1)'
+ '[' 5 == '' ']'
+ dict[$word]=6
+ for word in '$(cat $1)'
+ '[' 6 == '' ']'
+ dict[$word]=7
+ for word in '$(cat $1)'
+ '[' 7 == '' ']'
+ dict[$word]=8
+ for word in '$(cat $1)'
+ '[' 8 == '' ']'
+ dict[$word]=9
+ for word in '$(cat $1)'
+ '[' 9 == '' ']'
+ dict[$word]=10
+ for word in '$(cat $1)'
+ '[' 10 == '' ']'
+ dict[$word]=11
+ for word in '$(cat $1)'
+ '[' 11 == '' ']'
+ dict[$word]=12
+ for word in '${!dict[@]}'
+ echo 0: 12 0: 12

Using declare -a dict意味着每个键都被评估为一个数值，然后将其用作索引。如果你用文字来存储东西，那不是你想要的。使用declare -A反而。

Also, $[ ]是一种非常过时的数学语法。甚至现代 POSIX sh 也支持$(( ))，您应该使用它：

dict[$word]=$(( ${dict[$word]} + 1 ))

或者，利用仅 bash 的数学语法：

(( dict[$word]++ ))

另外，使用for word in $(cat $1)有几个方面被破坏：

它没有引用$1，因此对于带有空格的文件名，它会将名称拆分为几个单词，并尝试将每个单词作为单独的文件打开。要仅修复此问题，您可以使用$(cat "$1") or $(<"$1")（这更有效，因为它不需要启动外部程序 cat）。
它尝试将文件中的单词扩展为全局变量——如果文件包含*，当前目录中的每个文件都将被视为一个单词。

相反，使用 while 循环：

while read -r -d' ' word; do
  if [[ -n ${dict[$word]} ]] ; then
    dict[$word]=$(( ${dict[$word]} + 1 ))
  else
    dict[$word]=1
  fi
done <"$1"

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Arrays

bash

使用 bash 计算文件中每个单词的出现次数的相关文章

POSIX SH 构建循环变量，其元素包含空格

这是我需要的代码 bin sh x1 a1 a2 x2 b1 b2 list SOMETHING for x in list do echo x done 以及我想要的输出 a1 a2 b1 b2 问题是应该做什么SOMETHING是我
Angular *ngFor 循环遍历数组的数组

我有一个数组其中包含其他数组如下所示 array element A element B YES NO 我想使用 ngFor 循环遍历 HTML 表中的这个对象数组 table thead tr th th th COLUMN 1 th
在Matlab中对字符进行分组并形成矩阵

我有 26 个字符 A 到 Z 我将 4 个字符组合在一起并用空格分隔以下 4 个字符如下所示 abcd efgh ijkl mnop qrst uvwx yz 我的Matlab编码如下 str abcdefghijklmnopqrst
计算字符串中的唯一单词

下面我尝试将字符串数组提供给一个函数该函数将唯一单词添加到单词数组中并且如果该单词已经在数组中则增加计数数组中相应元素的计数 var words var counts calculate a b calculate a c funct
从文件中读取未知长度的int数组

如何从文件中读取未知长度的整数数组我没有找到获取数组大小的方法所以我尝试了一些临时字符串的东西但我的代码爆炸了有更好的想法吗 Use std vector std ifstream inFile fileName std vecto
Bash 方法的返回值总是模 256

我有一个 bash 脚本方法它返回输入值然而返回值始终是模 256 的值我用 google 搜索了一段时间发现this http www tldp org LDP abs html exitcodes html文章说它总是以 25
从 TypeScript 运行任何 Linux 终端命令？

有没有办法直接从 TypeScript 类中执行 Linux 终端命令这个想法是做类似的事情 let myTerminal new LinuxTerminal let terminalResult myTerminal run sudo
如何将 bash 脚本的整个输出保存到文件

我正在尝试将 bash 脚本的整个输出保存到文件中我目前在代码开头有一个参数 ip 地址如下所示 bin bash USAGE Usage 0
文本处理问题：删除其中一列不包含特定值的行

我有一个制表符分隔的文件如下所示 input sequence match sequence score receptor group epitope antigen organism ASRPPGGVNEQF ASRPPGGVNEQF
如何将参数传递给java bash脚本？ [复制]

这个问题在这里已经有答案了我有一个简单的 bash 脚本来运行我的 java 程序就这个 run sh bin sh java jar target my jar arch jar 我想将参数传递给这个脚本该脚本必须将它们传递给jav
bash 变量中的 Linux 鞭尾/对话框参数错误

有人可以解释为什么下面的代码不起作用吗我要疯狂地想找出答案 bin bash TEST M1 1 wire Interface ON echo TEST RESULT dialog title Config Modules State c
通过嵌套数组对象属性将数组映射到字符串数组

拥有包含嵌套数组的对象数组 let arr name aaa inputs inputName input 1 groups groupName group a name bbb inputs inputName input 2 group
使用 sed 删除非字母数字字符

我正在尝试验证一些输入以删除一组字符只允许使用字母数字字符加句点下划线连字符我测试了正则表达式 w here http gskinner com RegExr http gskinner com RegExr 它与我想要删除的内容
NumPy 和 SciPy - .todense() 和 .toarray() 之间的区别

我想知道使用是否有什么区别优点缺点 toarray vs todense 在稀疏 NumPy 数组上例如 import scipy as sp import numpy as np sparse m sp sparse bsr mat
C# 中的 strstr() 等效项

我有两个byte 我想找到第二个的第一次出现byte 在第一个byte 或其中的一个范围我不想使用字符串来提高效率翻译第一个byte to a string会效率低下基本上我相信就是这样strstr 在 C 中做最好的方法是什么这
Godaddy 托管上的 CakePHP 控制台

我一直在努力让我的 CakePHP 网站在 Godaddy 网格托管帐户上运行我的蛋糕应用程序设置是从帐户的子目录托管的并且可以通过子域访问我必须调整我的 htaccess 文件才能使其正常工作现在我需要让 CakePHP 控制台
Angular 4 显示其中的数据

我不喜欢从 API 返回到我的 Angular 4 应用程序的数据这是 JSON 的示例我不关心美元但这是我正在处理的数据类型最终目标是在页面上展示 Coin Price BTC 4 281 28 ETH 294 62 etc JS
从 Amazon S3 存储桶下载文件的脚本

尝试编写脚本以从 Amazon S3 存储桶下载文件 cURL 网站上的示例遇到问题下面的脚本产生我们计算的请求签名与您的签名不匹配假如检查您的密钥和签名方法感谢任何帮助 bin sh file filename php buck
如何从列表创建多维数组？

我在 MySQL 中有一个带有父 ID 的类别列表如何从列表中创建 PHP 数组 ID Category Parent ID 1 Car NULL 2 Education NULL 3 Mathematics 2 4 Physics 2
在 bash 中使用单个命令为 shell 变量分配默认值

我对 bash 3 00 shell 脚本中的变量进行了大量测试如果未设置变量则它会分配默认值例如 if z VARIABLE then FOO default else FOO VARIABLE fi 我似乎记得有一些语法可以在一行

随机推荐

使用 simple_form 和rails 4 创建多个嵌套表单

我正在尝试使用以下模型创建一个简单的应用程序类别 has many gt 问题 has many gt 答案我有以下用于创建类别问题的代码 categories form haml html simple form for categ
使用 AWK 进行字数统计

我有如下文件这是一个示例文件该文件将用于测试 this is a sample file this file will be used for testing 我想用AWK来统计单词数预期输出是 this 2 is 1 a 1 sam
为什么 smartmatch 根据操作数的顺序返回不同的值？

我有一个数组以下测试返回 true 1 a 然而以下测试返回 false a 1 我在学习 Perl 中读到智能匹配运算符两侧的值的放置并不重要但显然在上面的代码中它确实如此这是为什么这两个语句检查的是不同的东西吗除了其他答
经典C++（带类的C）的调用/返回功能，哪些现代语言具有它？

第 57 页C 的设计和演变 https rads stackoverflow com amzn click com 0201543303 Stroustrup 博士谈到了一个最初是 C with Classes 的一部分的功能但它不是现
混合 C++ 和 Objective-C

我使用 C 作为应用程序主干使用 Objective C 作为 GUI 这很好但是当谈到在 Objective C mm 文件中将这些代码混合在一起时我有几个问题 1 我可以将 STL 容器与 Objective C 或 Cocos
TabView 内的 SwiftUI iOS 16 NavigationPath 警告：NavigationAuthority

我有一个TabView每个选项卡都有自己的NavigationPath我正在处理一个ObservableObject MainActor final class Router ObservableObject Published var h
如何通过 ID 以外的其他方式获取 Backbone.js 模型？

Backbone js 通过 ID 获取模型的默认 RESTful 方法非常简单且直接但是我似乎找不到任何通过不同属性获取模型的示例如何通过不同的属性获取 Backbone js 模型 var Widget Backbone Mode
单个文件中的多个类：此处不允许修饰符 private

我无法理解为什么这段代码不能编译 class A public static void main String args System out println hi private class B int a 我将内容保存在名为的文件中A
Azure ARM 模板嵌套模板部署不会更新资源\无法启动

我有以下 ARM 模板结构 Parent Template Nested Template 1 Nested Template 6 所以我只有 2 层模板父级模板和嵌套模板假设我将父级部署到一个空资源组一切正常之后我删除其中一项资
iOS - 通过区域设置更改 UIDatePicker 的语言

我正在用 Herbrew 语言创建应用程序 iPhone 的语言可以是任何语言但我的应用程序只能在 Herbrew 中运行在 iOS 的 UIDatePicker 中我们有一个属性 locale 它将更改它显示的语言但在 iOS5
Java Swing 保存和加载工作区/设置

我有一个 Java Swing 应用程序其中包含一堆框架而这些框架又主要包含显示大量数据的表格由于在启动时安排所有窗口和表格总是很麻烦且耗时因此我想实现工作区功能以便用户可以保存首选项设置并在启动时选择自动将存储的工作区加载到
找到未合并的 Git 分支？

我有一个包含许多分支的 Git 存储库其中一些已经合并一些还没有由于分支数量相当多如何判断哪些分支尚未合并我想避免必须进行章鱼合并和重新合并已经合并的分支尝试这个 git branch merged master 它按照锡上
为什么我的标签栏按钮无法在 iPad 上自动调整大小？

我正在构建一个通用的 iOS 应用程序 iPad 版本使用 SplitViewController 在弹出视图中我有一个带有两个按钮的 UITabBarController 当它在 iPhone 上运行时 TabBar 按钮正确拉伸以填充
MVC 3 中如何处理会话超时

我遇到了频繁的会话超时问题我想编写一个可以在每个控制器上使用的通用过滤器过滤器应该重定向用户登录并在登录后返回到用户发送最后一个请求的位置你可以尝试这样的事情 public class SessionExpireAttribute
错误 (407)“需要代理身份验证。”

我有一个要求比如我想从 winforms 访问一个 url 登录页面即 Web 我必须将凭据传递给该网址并且响应应该是经过身份验证的网页标记的内容我已经编写了一个函数它将请求 url 并返回响应但我收到错误代码 407 需
git Reset 文件和 git checkout 文件有什么区别？

为什么 git 允许我重置文件我以为我明白了reset 从某种意义上说它正在移动头部显然我错了 So git reset sha file似乎做同样的事情git checkout sha file 除了我看到的file在索引和工作目录
Kestrel 错误：地址已在使用中（dotnet 核心）

摘要它的工作原理是dotnet run 但它不起作用dotnet myappname dll 我的 Linux 技能有限但我正在尝试按照书本进行操作这样我就不会混淆事情以下本教程 http www hanselman com blo
在 iOS 14 中，Interface Builder 中设置的 UITextField backgroundColor 在运行时为零

我有一个应用程序可以在 iOS 11 13 上正常运行但是当我在 iOS 14 中运行它时有几个其中的文本字段用零渲染因此透明背景颜色即使背景颜色在 Interface Builder 中明确设置为白色我在代码中看不到任何使用可能
如何在 PySide2 应用程序中嵌入 matplotlib 画布

我正在尝试将 matplotlib 画布嵌入到 PySide2 应用程序中我尝试使用这个例子 https matplotlib org examples user interfaces embedding in qt5 html http
使用 bash 计算文件中每个单词的出现次数

我想计算文件中每个单词的出现次数但结果是错误的 bin bash usage count sh file declare a dict for word in cat 1 do if dict word then dict word 0

使用 bash 计算文件中每个单词的出现次数

使用 bash 计算文件中每个单词的出现次数 的相关文章

随机推荐

热门标签

使用 bash 计算文件中每个单词的出现次数的相关文章