如何使用 grep/egrep 查找文件中重复的单词?

2024-01-11

我需要在unix(bash)中使用egrep(或grep -e)在文件中查找重复的单词

I tried:

egrep "(\<[a-zA-Z]+\>) \1" file.txt

and

egrep "(\b[a-zA-Z]+\b) \1" file.txt

但出于某种原因,这些人认为事情是重复的,但事实并非如此! 例如,尽管存在单词边界条件,它仍认为字符串“wordwords”满足标准\> or \b.


\1匹配第一个捕获匹配的任何字符串。这与匹配与第一次捕获匹配的相同模式不同。因此,第一个捕获在单词边界上匹配的事实不再相关,即使\b位于捕获括号内。

如果您希望第二个实例也位于字边界上,则需要这样说:

egrep "(\b[a-zA-Z]+) \1\b" file.txt

这与:

egrep "\b([a-zA-Z]+) \1\b" file.txt

模式中的空格强制单词边界,所以我删除了多余的\bs。如果你想更明确,你可以将它们放入:

egrep "\<([a-zA-Z]+)\> \<\1\>" file.txt
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用 grep/egrep 查找文件中重复的单词? 的相关文章

  • 当存储在变量中时,Git 提交消息变得混乱[重复]

    这个问题在这里已经有答案了 我有一个 Git 提交 其中有一个摘要 然后是一些描述 所以当我看到提交消息时git log format B n 1
  • C - printf("\a") 不会发出警报[重复]

    这个问题在这里已经有答案了 这是我的 C 代码 include
  • 从原始字节创建 bmp 文件的可移植函数? [关闭]

    Closed 这个问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 我有一个原始字节数组 我想从这些字节创建一个 bmp 文件 也就是说 我必须填充位图标头结构和其他内容
  • SQLPlus 中的运行循环

    我制作了一个 bash 脚本 它通过 SQLPlus 连接到数据库并运行一个包含 For 循环的 SQL 脚本 如下所示 但是一旦运行它 它就会卡在循环的 BEGIN 中 如下所示 我尝试直接通过SQLPlus运行 结果是一样的 那么任何人
  • 如何在 python 2.7 中使用 re.UNICODE?

    我正在尝试使用 re UNICODE 标志来匹配可能包含 unicode 字符的字符串 但它似乎不起作用 例如 Python 2 7 12 default Dec 4 2017 14 50 18 GCC 5 4 0 20160609 on
  • 查找从 unix 命令行输入的单词出现的次数

    对于文件file1 txt其中包含 Apple fruit Apple tree Tree AApple AApklle Apple apple TREE Apple 我想查找该单词出现的次数Apple 输出应该是4 我的 script s
  • OS X bash:目录名

    我想创建一个简单的 bash 脚本来在 OS X 上启动 Java 程序 文件名 文件路径和直接工作文件夹都包含空格 当我这样做时 bin sh cd dirname 0 I get usage dirname path 我也尝试过在各种不
  • 使用正则表达式检查字符串是否以数字字符开头和结尾

    我想 String string 123456 if string startsWith 0 9 string endsWith 0 9 code And the if子句永远不会被调用 不要使用正则表达式 Character isDigi
  • 为什么我不能用这个循环从 bash 历史记录中删除多个条目

    这个循环将显示我想要做的事情 但是如果我删除echo从中 它实际上不会删除任何内容 history grep 0 5 0 9 ls cut c1 5 while read id do echo history d id done 我添加了缩
  • 是否可以在 Git 项目的所有分支中执行“grep 搜索”?

    是否可以运行git grep在 Git 控件源项目的所有分支中 或者还有其他命令要运行吗 问题 如何在 Git 历史记录中 grep 搜索 提交的代码 https stackoverflow com q 2928584 6309 建议 gi
  • 如何去掉所有标签并得到纯文本?

    我必须将用户输入文本存储在我的数据库中HTML and CSS格式 案例是 Rad编辑器 http www telerik com products aspnet ajax editor aspx 用户将文本从 MSWord 复制到此编辑器
  • shell脚本响应按键

    我有一个 shell 脚本 本质上是这样的 while true do read r input if input a then echo hello world fi done 这一切都很好 但我刚刚意识到在这种情况下必须按 ENTER
  • 如何在 标签中用 %20 替换空格

    我想替换 html 文本的图像标签中的所有空格 Example img src to img src photo 201 jpg 我没有找到 preg replace 的解决方案 但它可能是一个简单的正则表达式行 谢谢 Edit 抱歉各位
  • Mac 上使用 Excel VBA 进行正则表达式

    我需要将 regEx 与 Excel VBA 一起使用 我使用的是 Mac OS 10 10 和 Office 2011 因此没有可以使用的 DLL 文件 这里有什么可做的 我读到我必须绑定一个苹果脚本 这是如何完成的以及该脚本需要什么内容
  • UNIX 域 STREAM 和 DATAGRAM 套接字之间的区别?

    这个问题是NOTSTREAM 类型和 DATAGRAM 类型 INTERNET 套接字之间的区别 我知道 STREAM 套接字使用 TCP 数据报套接字使用 UDP 以及所有 TCP UDP 内容 按顺序到达的数据包 ACK NACK 等
  • 为什么在线解析器似乎停在正则表达式处?

    我一直想知道为什么似乎没有任何解析器 比如说 BNF http en wikipedia org wiki Backus E2 80 93Naur Form 其行为类似于各种库中的正则表达式 当然 还有类似的事情ANTLR http www
  • ( 后的正则表达式匹配数

    我正在尝试使用正则表达式来匹配开括号 字符后的可变长度的数字 我努力了 d 但该正则表达式在匹配中包含括号 我该如何排除它 我正在使用 Sublime Text 正则表达式引擎来进行匹配 您可以使用积极的后视 http www regula
  • 如何仅替换多个文件中记事本++中的第一个文本实例?

    我正在努力更新一个网站并进行一些更改 并且我已经成功使用标准查找和替换搜索对多个文件进行了大部分更改 我的 f r 中只留下一个错误需要修复 但它在整个文档中出现了几次 我只想替换第一个实例 这是唯一一次错误 div class boxb
  • 转换MAC地址格式

    我刚刚编写了一个小脚本 从交换机中提取数百个 MAC 地址进行比较 但它们的格式为 0025 9073 3014 而不是标准的 00 25 90 73 30 14 我对如何转换它感到困惑 我能想到的最好的办法就是在 处将它们分解成碎片 然后
  • 使正则表达式以惰性方式匹配,同时跳过一些单词

    我想要正则表达式 其中包括跳过一些单词以惰性方式匹配 例如 正则表达式 all s S 0 10 s Damages amount s S 0 10 s in s excess s of 示例文本 第 8 1 a 条规定的所有此类损害超出免

随机推荐

  • 使用 LinQ 合并 2 不同类型的列表

    我有 2 个清单 如果它们都是类型string 我可以使用以下方法合并它们 List
  • DataTables:如果标题中有复选框和弹出控件,如何避免列排序?

    我有一个 DataTables 表 其中一些标题列中有复选框和弹出窗口 另外我也使用FixedColumn和ColReorder插件 我在 jsfiddle 中的模型位于底部 我的问题是 如果用户尝试检查复选框或推送弹出窗口 排序事件就会接
  • 将矩阵分割成小矩阵块的方法

    我有一个问题 想知道是否有人可以提供理想的解决方案 基本上 小数据 但是 如果我有一个像这样的矩阵 0 1 0 0 1 1 1 0 0 0 0 0 1 1 0 0 然后 我需要将该矩阵分割成与第二个矩阵大小相同的块 在本例中为 2x2 0
  • C语言中如何检查内存地址是否32位对齐

    我的问题有两个部分 首先 作为这个地址空间的新手 我想知道地址的内存对齐的含义是什么 我用谷歌搜索了一下 但也想在这里问这个问题 因为我发现这里的答案非常有用 我的问题的第二部分与对齐和编程有关 如何确定地址是否是 4 字节对齐的 我在某处
  • iOS 中的 HTTP POST 请求 [关闭]

    Closed 这个问题需要多问focused help closed questions 目前不接受答案 嗨 我是 ios 新手 直到现在我还没有向 php 发送任何调用 今天我尝试了以下代码 void sendRequest NSStri
  • 使用 Doctrine 2 在 Zend Framework 2 中使用实体中的 inputfilter 进行实体存在验证

    我一直在这样的实体类中构建所有验证 class User protected inputFilter public function getInputFilter if this gt inputFilter inputFilter new
  • 如何在 Android Studio 中查看 NDK 的原始 Gradle 构建日志?

    当使用Gradle 实验插件 http tools android com tech docs new build system gradle experimental使用 Android studio 构建 NDK 库 您如何查看低级构建
  • 启动http网络服务器然后打开浏览器

    我正在尝试启动一个简单的 HTTP 服务器 然后在默认浏览器中打开它 我不知道我做错了什么 它要么根本不启动服务器 要么一旦到达脚本末尾就停止 它不是应该永远运行吗 import BaseHTTPServer SimpleHTTPServe
  • 如何将 tf.estimator 转换为 keras 模型?

    包装内tf estimator 有很多定义的估计量 我想在 Keras 中使用它们 我检查了 TF 文档 只有一种转换方法可以转换keras Model to tf estimator 但无法转换为estimator to Model 例如
  • 面向对象的数据库

    我不知道这个问题的标题是否合适 不管怎样 最近我听说创建数据库可以让生活变得更轻松 通过它您可以使用基于对象的数据库 它将使迁移到其他类型的数据库也变得更容易 例如从 MySQL 到 SQLlite 或其他东西 无论如何 我现在制作具有数据
  • 用 C 编程泰勒级数时出现总线错误

    我正在开发一个 C 程序 将玫瑰曲线绘制为 ASCII 艺术 该程序使用自定义三角函数 确切地说是泰勒级数 int factorial int n int p 1 if n 0 return 1 for int i 1 i lt n i p
  • SoapHttpClientProtocol 日志响应 xml

    几天来 我们的应用程序出现了问题 我们使用 SoapHttpClientProtocol 来调用 java mbean 这基本上会调用 java webservice 来调用方法 我们的问题是有时会遇到以下异常 XML 文档中存在错误 1
  • Android - 首选项 - ClassCastException

    我测试了标准的首选项教程 没有任何问题 但在本教程中 在所有类似的示例中 首选项活动意图是从主活动中启动的 我尝试在我的应用程序中复制简单的测试代码 但首选项活动意图是从列表活动中启动的 从菜单栏 public class Training
  • 用内存构造函数的最佳方法

    再会 我有一些非常缓慢和复杂的功能 比如说f x y 我需要构建详细的ContourPlot它的 此外功能f x y 有时由于物理内存不足而失败 在这种情况下 我必须停止评估并自行调查点 x y 的问题情况 然后我应该可以将元素 x y f
  • 在运行时检测应用程序是否处于发布模式

    我在 Dart 应用程序中进行了大量测试和调试 我想确保在使用 pub 构建发布版本时禁用这些内容 是否有任何常量或其他方法来检查应用程序的当前运行版本是否是发布版本 Example if IS BUILD performAutomated
  • 使用 Spark 2.0 构建 zeppelin-0.7.0 主分支失败,“yarn install --no-lockfile”失败

    我尝试构建从github下载的zeppelin 0 7 0 master分支 但失败了 构建命令 mvn package Pyarn Pbuild distr Pspark 2 0 Dspark version 2 0 1 Phadoop
  • 蟒蛇、熊猫; ValueError('窗口必须是整数',)

    我似乎在 Bokeh 回调中使用 Pandas 代码时遇到了这个问题 这是错误发生之前的部分输出 我的数据框看起来很正常 但我不知道为什么它不高兴 time temperature 0 2016 03 17 11 00 00 4 676 1
  • org.hibernate.QueryException:未设置所有命名参数:[]

    我从 JPA 2 0 中得到了极其奇怪的行为 我正在尝试构建一个看起来像这样的查询 其中员工 ID 和 empDepartment 是通过 java 参数传递的长值 Query query em createQuery SELECT e F
  • FSO 返回不存在的子文件夹

    我使用此代码来获取目录的子文件夹 Dim fo As Scripting Folder Set fo fso GetFolder m sFolder Dim nSubfolder As Scripting Folder For Each n
  • 如何使用 grep/egrep 查找文件中重复的单词?

    我需要在unix bash 中使用egrep 或grep e 在文件中查找重复的单词 I tried egrep lt a zA Z gt 1 file txt and egrep b a zA Z b 1 file txt 但出于某种原因