为什么“uniq”将相同的单词视为不同的单词？

2023-11-21

我想计算文件中单词的频率，其中单词是一行一行的。该文件非常大，因此这可能是问题所在（在本例中共有 300k 行）。

我执行这个命令：

cat .temp_occ | uniq -c | sort -k1,1nr -k2 > distribution.txt

问题是它给了我一个小错误：它认为相同的单词是不同的。

例如，第一个条目是：

306 continua 
278 apertura 
211 eventi 
189 murah 
182 giochi 
167 giochi

with giochi如您所见，重复两次。

在文件的底部，情况变得更糟，如下所示：

  1 win 
  1 win 
  1 win 
  1 win 
  1 win 
  1 win 
  1 win 
  1 win 
  1 win 
  1 winchester 
  1 wind 
  1 wind

对于所有的话。

我究竟做错了什么？

首先尝试排序：

cat .temp_occ | sort| uniq -c | sort -k1,1nr -k2 > distribution.txt

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Linux

bash

shell

uniq

为什么“uniq”将相同的单词视为不同的单词？的相关文章

添加要在给定命令中运行的 .env 变量

我有一个 env 文件其中包含如下变量 HELLO world SOMETHING nothing 前几天我发现了这个很棒的脚本它将这些变量放入当前会话中所以当我运行这样的东西时 cat env grep v xargs node t
对目录中的所有文件执行命令

有人可以提供执行以下操作的代码假设有一个文件目录所有这些文件都需要通过程序运行该程序将结果输出到标准输出我需要一个脚本该脚本将进入一个目录对每个文件执行命令并将输出连接到一个大输出文件中例如要在 1 个文件上运行命令 cm
如何在Linux内核源代码中打印IP地址或MAC地址

我必须通过修改 Linux 内核源代码来稍微改变 TCP 拥塞控制算法但为了检查结果是否正确我需要记录 MAC 或 IP 地址信息我使用 PRINTK 函数来打印内核消息但我感觉很难打印出主机的MAC IP地址 printk pM
PHP 从命令行启动 gui 程序，但 apache 不启动

首先我阅读了有类似问题的人的一些帖子但所有答案都没有超出导出 DISPLAY 0 0 和 xauth cookies 这是我的问题提前感谢您的宝贵时间我开发了一个小库它使用 OpenGL 和 GLSL 渲染货架过去几天我将它包装
Git difftool 未启动外部 DiffMerge 程序

我一直遵循戴夫的博客条目 http www davesquared net 2009 05 setting up git difftool on windows html 链接在此answer https stackoverflow co
如何将目录及其子目录中的所有 PDF 文件复制到一个位置？

如何全部复制PDF文件从目录及其子目录到单个目录实际上还有更多的文件并且深度有些任意假设四个目录的最大深度是公平的我想这些文件需要重命名如果a pdf例如位于多个目录中因为我会adding https ebooks stack
如何在 Windows 下向 .sh 脚本传递参数？

我正在尝试在 Windows 下执行 sh 脚本我安装了 Git 它允许我执行 sh 文件但是如果不使用 sh 作为执行前缀我似乎无法传递任何参数我的 sh 文件 echo Test 1 如果我用以下命令执行它 gt sh tes
CentOS：无法安装 Chromium 浏览器

我正在尝试在 centOS 6 i 中安装 chromium 以 root 用户身份运行以下命令 cd etc yum repos d wget http repos fedorapeople org repos spot chromium
NPTL 和 POSIX 线程有什么区别？

NPTL 和 POSIX 线程之间的基本区别是什么这两者是如何演变的 POSIX 线程 pthread 不是一个实现它是几个函数的 API 规范纸上的标准英文其名称以pthread 以及定义在
Linux：在文件保存时触发 Shell 命令

我想在修改文件时自动触发 shell 命令我认为这可以通过注册 inotify 挂钩并调用来在代码中完成system 但是是否有更高级别的 bash 命令可以完成此任务尝试 inotify 工具我在复制链接时遇到问题抱歉但 Git
有谁知道在哪里定义硬件、版本和序列号。 /proc/cpuinfo 的字段？

我想确保我的 proc cpuinfo 是准确的目前它输出 Hardware am335xevm Revision 0000 Serial 0000000000000000 我可以在代码中的哪里更改它以给出实际值这取决于 Linux 的
ubuntu：升级软件（cmake）-版本消歧（本地编译）[关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案我的机器上安装了 cmake 2 8 0 来自 ubuntu 软件包二进制文件放置在 usr bin cmake 中我需要将 cmake 版本至少
为什么我可以直接从 bash 执行 JAR？

我是一个长期从事 Java 工作的人并且知道运行带有主类的 JAR 的方法MANIFEST MFJar 中的文件很简单 java jar theJar jar 我用它来启动 Fabric3 服务器包含在bin server jar在其标
使用 su 和 Expect 脚本登录用户时遇到问题

我正在为一个班级制作一个网站您可以使用用户名和密码登录然后它会将您带到一个显示您在班级中的成绩的页面该网站正在运行bash脚本 https github com jduga002 rapache 并将托管在用户已有用户名和密码登录的计
docker容器大小远大于实际大小

我正在尝试从中构建图像debian latest 构建后报告的图像虚拟大小来自docker images命令为 1 917 GB 我登录查看尺寸 du sh 大小为 573 MB 我很确定这么大的尺寸通常是不可能的这里发生了什么如何获
多处理：仅使用物理核心？

我有一个函数foo它消耗大量内存我想并行运行多个实例假设我有一个有 4 个物理核心的 CPU 每个核心有两个逻辑核心我的系统有足够的内存来容纳 4 个实例foo并行但不是 8 个此外由于这 8 个核心中的 4 个是逻辑核心我也不
jq中如何分组？

这是 json 文档 name bucket1 clusterName cluster1 name bucket2 clusterName cluster1 name bucket3 clusterName cluster2 name bu
查找哪些页面不再与写入时复制共享

假设我在 Linux 中有一个进程我从中fork 另一个相同的过程后forking 因为原始进程将开始写入内存 Linux写时复制机制将为进程提供与分叉进程使用的不同的唯一物理内存页在执行的某个时刻我如何知道原始进程的哪些页面已被写
ftrace：仅打印trace_printk()的输出

是否可以只转储trace printk 输出于trace文件我的意思是过滤掉函数跟踪器或任何其他跟踪器中的所有函数一般来说您可以在选项目录中关闭选项 sys kernel debug tracing options Use ls显
shell-out 值到 md5（加密）函数

我正在寻找一种解决方案我正在构建 JSON 记录并需要在 JQ 中生成一些文本但将此文本通过管道传输到 MD5 求和函数并将其用作键的值 echo first John last Big jq id first last md5 通过

随机推荐

URI 中方案后面的双斜杠的语义是什么？

根据https www rfc editor org rfc rfc3986 and http en wikipedia org wiki Uniform resource identifier URI 可能包含也可能不包含方案标识符后面的
为什么部分视图在 MVC 5 Visual Studio 13 中显示为整页？

我尝试使用以下命令在 ASP Net MVC 5 Visual Studio 13 中用部分视图替换页面的一部分视图 Book Index cshtml div Ajax ActionLink Click here for the Bar
JPQL：SELECT NEW 查询中的枚举文字

我有一个用于几个域类的描述符类描述符类有一个字段 type 它是一个枚举指示域类的类型在某些查询中我想返回一个或多个描述符并将类型作为构造函数参数传递所以我的想法是将它作为查询参数传递 String jpql SELECT NEW
在Xcode 6中，如何使用硬件键盘但在iOS模拟器中显示软件键盘

在 Xcode 6 中 iOS 模拟器似乎要么不显示键盘这意味着您可以键入但看不到软件键盘的位置和效果要么显示软件键盘这意味着您可以在屏幕上看到它但不能不要在上面打字用鼠标在软键盘上打字真的很慢如何恢复旧的行为即您可以看到软件
是否可以将尺寸设置为独立于地图缩放级别的 groundOverlay？

我有一个GroundOverlay on my GoogleMap我希望当我放大缩小地图时它的尺寸不会改变与默认地图完全相同markers始终保持其尺寸我尝试过两种形式GroundOverlay setDimensions 但图像仍然
django-auth-ldap 安装不起作用

我试图在我的 Windows 系统中安装 django auth ldap 它显示以下错误 pip build 3x6rkxb4 pyldap modules errors h 8 致命错误 C1083 无法打开包含文件 lber h 没有
python - 如何使用popen管道输出？

我想要pipe我的文件的输出使用popen 我怎样才能做到这一点 test py while True print hello a py import os os popen python test py 我想使用管道输出os popen
为什么在主机上执行“ps aux”时可以看到 docker 容器进程？

来自主持人 ps aux grep java me my host elastic search group ps aux grep java smmsp 20473 106 6 3 4664740 257368 Ssl 17 48 0 0
缓存 AJAX 请求

我正在向 PHP 应用程序发送 AJAX GET 请求并希望缓存请求返回以供以后使用由于我使用 GET 这应该是可能的因为不同的请求请求不同的 URL 例如 getHTML php page 2 和 getHTML php page
numpy 中唯一元素的分组索引

我有许多大型 gt 100 000 000 整数列表其中包含许多重复项我想获取每个元素出现的索引目前我正在做这样的事情 import numpy as np from collections import defaultdict a
iFrame onload JavaScript 事件

我有一个 iFrame 我想在加载后向其中发送 JavaScript 命令我当前的代码如下所示但使用此代码时命令不会执行我必须改变什么才能让它发挥作用仅需要支持 Chrome 和 Firefox 使用 iFrame 的 onloa
为什么 MQTT 无法与 NodeJS 连接？

我在尝试连接时遇到一个奇怪的问题MQTT服务器与NODEJS 如果我连接到MQTT服务器和我没有连接它只是挂起如果我使用命令行执行此操作我会看到数据因此网络服务器等都很好如果我使用错误的端口那么命令行会给我一条有效的拒绝消息但
为什么 django-lint 告诉我 `auto_now_add` 已被弃用？

各位 Djangonauts 朋友们大家好我检查了我的项目Django lint 它产生 W 211 16 MyModel timestamp Uses superceded auto now or auto now add The 提交
使用 Oracle PL/SQL Developer 生成测试数据

我想测试一些模式和索引并且想知道 PL SQL Developer 中是否有可以生成测试数据的功能这样我就不必创建序列和循环来在表中插入数据循环和 PL SQL 并不总是必要的这个技巧可能会有所帮助 insert into emp
Discord window.localStorage 未定义。如何访问 Discord 页面上的 localStorage？

当我跑步时window localStorage on https stackoverflow com它返回localStorage但是当我在 Discord 页面上使用相同的命令时它会返回undefined每次 Discord 是否正在采
Phonegap Cordova - 全屏后底部黑色状态栏

从我记事起我就一直遇到这个问题我认为这可能只是来自我的手机或仿真但在发布我的应用程序后我仍然在屏幕底部看到这个黑色矩形它看起来像状态栏在我的 config xml 中有此内容后会发生这种情况
有没有更简单快速的方法来检测（Windows Phone 7）设备是否有互联网连接

是否有更简单快速的方法来检测 Windows Phone 7 设备是否有互联网连接我当前正在发送网络请求等待超时时间并处理异常希望有一种快速简单的方法来查询设备在发送任何请求之前查看它是否有连接提前致谢如果没有连接此方法将返回
PHP 获取图像高度和宽度

您好我需要动态获取上传图像的高度和宽度这是我正在使用的 PHP 函数但它不会返回任何宽度和高度请你帮助我好吗 list width height type attr getimagesize FILES Artwork min wi
实体框架+存储库+单元或工作问题

我正在考虑使用 EF 4 启动一个新项目并浏览一些文章我发现了一篇关于 EF 以及存储库模式和工作单元的文章 http blogs msdn com b adonet archive 2009 06 16 using repository
为什么“uniq”将相同的单词视为不同的单词？

我想计算文件中单词的频率其中单词是一行一行的该文件非常大因此这可能是问题所在在本例中共有 300k 行我执行这个命令 cat temp occ uniq c sort k1 1nr k2 gt distribution txt 问

为什么“uniq”将相同的单词视为不同的单词？

为什么“uniq”将相同的单词视为不同的单词？ 的相关文章

随机推荐

热门标签

为什么“uniq”将相同的单词视为不同的单词？的相关文章