如何使用正则表达式查找并删除文件中的重复行？ [关闭]

2023-11-30

这个问题与语言无关。仅使用正则表达式，我可以查找并替换文件中的重复行吗？

请考虑以下示例输入和我想要的输出；

输入>>

11
22
22  <-duplicate
33
44
44  <-duplicate
55

输出>>

Regular-expresss.info 有一个页面从文件中删除重复行

这基本上可以归结为寻找这个单行：

^(.*)(\r?\n\1)+$

... And replacing with \1.
_{Note: Dot must not match Newline}

解释：

The caret仅在行的开头匹配。因此，正则表达式引擎只会尝试匹配正则表达式的其余部分。这dot and star组合仅匹配整行，无论其内容如何（如果有）。括号将匹配的行存储到第一个反向引用中。

接下来我们将匹配行分隔符。我把问号 into \r?\n使此正则表达式适用于两个 Windows (\r\n) 和 UNIX (\n) 文本文件。到目前为止，我们匹配了一行和下面的换行符。

现在我们需要检查该组合后面是否跟有同一行的重复项。我们简单地这样做\1。这是保存我们匹配的行的第一个反向引用。反向引用将匹配完全相同的文本。

如果反向引用无法匹配，则丢弃正则表达式匹配和反向引用，并且正则表达式引擎在下一行的开头再次尝试。如果反向引用成功，则加号正则表达式中将尝试匹配该行的其他副本。最后，美元符号强制正则表达式引擎检查反向引用匹配的文本是否是完整的行。我们已经知道反向引用匹配的文本前面有一个换行符（由 \r?\n 匹配）。因此，我们现在使用以下命令检查它后面是否也跟着换行符或者是否位于文件末尾美元符号.

整场比赛变成line\nline (or line\nline\nlineETC。）。因为我们正在进行搜索和替换，所以该行、其重复项以及它们之间的换行符都将从文件中删除。由于我们想保留原始行，而不是重复行，因此我们使用\1作为将原始行放回的替换文本。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

regex

如何使用正则表达式查找并删除文件中的重复行？ [关闭] 的相关文章

Java 中的正则表达式，\\s 与 \\s+

下面两个表达式有什么区别 x x replaceAll s x x replaceAll s 第一个匹配单个空格而第二个匹配一个或多个空格它们是所谓的正则表达式量词它们执行像这样的匹配取自文档 http docs oracle co
使用正则表达式解析 Snort 警报文件

我正在尝试使用 Python 中的正则表达式从 snort 警报文件中解析出源目标 IP 和端口和时间戳示例如下 03 09 14 10 43 323717 1 2008015 9 ET MALWARE User Agent Win9
需要正则表达式帮助

我正在尝试替换两次或多次出现的 br like br br br 标签与两个一起 br br 具有以下模式 Pattern brTagPattern Pattern compile lt s br s s gt s 2 Pattern CA
当我尝试获取 [" 和 ", （有代码）之间的所有子字符串时，如何修复此错误？

我有字符串 new y new york 0 new york times 0 我想要这些字符串之间 and new york new york times 我尝试了这个功能 public MatchCollection s s Regex
sed 替换 json 对象中键的值

我想做什么给定一个 json 事件文件我想通过关键字定位特定事件然后将该事件中的键值替换为这必须使用 sed 来完成 Splunk 转发问题我不会用细节来烦你事件示例 message we have a response fro
电子邮件正则表达式将如何处理新的 unicode 域？

Since 2009年10月互联网名称指定公司和 Numbers ICANN 批准了创建国家地区代码顶级域名 ccTLD 在互联网上使用母语 IDNA 标准脚本我很确定大多数网站当前使用的标准正则表达式不会将它们标记为有效还
正则表达式获取两个方括号之间的数字

您好我需要使用正则表达式在 JavaScript 中获取两对方括号内的字符串这是我的字符串 12 23 asd 到目前为止我尝试的是使用这种模式 d 我需要获得价值12使用正则表达式您可以使用以下正则表达式 d 这将提取12 from
在 C++ 中使用 regex_iterator 的确切方法是什么？

我一直在寻找一种好方法来计算字符串中特定类型的子字符串的数量比如说我想计算字符串 smstyuismsms 中 sms 的出现次数我在论坛中找到了答案有人建议使用 regex iterator 但是当我尝试如下时 string i
\d 只匹配0-9位数字？

据我所知 d应该匹配非英文数字例如但它在 JavaScript 中不能正常工作看这个jsFiddle http jsfiddle net xZpam http jsfiddle net xZpam 这是正常行为吗 JavaScript
在Python中用空格分割字符串——保留带引号的子字符串

我有一个像这样的字符串 this is a test 我正在尝试用 Python 编写一些内容以将其按空格分开同时忽略引号内的空格我正在寻找的结果是 this is a test 附言我知道您会问如果引号内有引号会发生什么嗯在
正则表达式匹配组，但组成员除外

因此有许多正则表达式可以匹配特定的组如下所示 Any character except a newline m Any character the m modifier enables multiline mode w A word c
使用 getElementById 在 javascript 中使用正则表达式进行 Html 表单验证？

我想使用正则表达式验证 html 表单的示例模式 AAA 111 2222 aa 1234 目前我的代码要么为所有输入返回正确要么为所有输入返回不正确并且我无法弄清楚我的问题出在哪里 var x document getEleme
匹配 6 个字母数字字符串的正则表达式是什么？

我需要 ASP NET 应用程序的正则表达式来匹配至少 6 个字符长的字母数字字符串我对 ASP NET 不熟悉但正则表达式应该是这样的 a zA Z0 9 6 and 分别表示字符串的开始和结束 a zA Z0 9 描述一个字母数字字
正则表达式不匹配

我正在尝试以下代码 d byte x01 x00 x00 x00 x00 x00 x00 x00 x00 x00 x00 x80J x13 x80SQ x80L xe0 x80 x92 x80L x80H xe0 r regexp Must
跳过解析 CODE 标签内的 BBCode

我正在使用以下方法解析 BBCoderegex以便将其替换为 HTML 我现在被困住了因为 code 标签解析基本上当你这样做时 code b this is bb b u code in u i code i code 它不应该取代
在 sed 中插入换行符 (Mac OS X)

如何在 sed 的替换部分插入换行符此代码不起作用 sed s 1234 n 1 g input txt gt output txt 其中 input txt 是 test1234foo123bar1234 和output txt应该是
从单个正则表达式匹配文件名和文件扩展名

我确信这一定很容易但我很挣扎 var regexFileName match filename var regexFileExtension w match file extension function displayUpload va
哪些字符可以用作正则表达式分隔符？

哪些字符可以用作 Perl 正则表达式的分隔符 m re m re and m re 一切似乎都有效但我想知道所有可能性 From perlop http perldoc perl org perlop html 通过 m 您可以使用任意
使用正则表达式验证字符串是否安全

我有一个网站用户可以在其中选择用户名目前他们可以输入几乎任何字符包括 ETC 我知道我可以使用正则表达式这可能就是我的选择我将使用否定集我认为这是正确的工具如下所示那么我怎样才能知道要放入该集合中的所有非法字符呢我可以
音乐和弦部分拆分正则表达式

这是此问题的后续问题用于匹配音乐和弦的正则表达式 https stackoverflow com questions 11229080 regex for matching a music chord 是我问的现在我有一个正则表达式来知

随机推荐

如何将 ezComponents 与 magento 集成

在本机 Zend Framework 应用程序中我将通过将 ezComponents 的自动加载器添加到 Zends 自动加载器来启用 ezComponents autoLoader Zend Loader Autoloader get
刷新node.js脚本！

我正在从终端 mac 运行带有 node js 的脚本当我更改脚本时我希望能够重新运行它而不必关闭并重新打开终端我是 mac 新手不知道如何执行此操作 Thanks How are you starting Node You sh
Python 多重处理和序列化数据

我正在学校计算机上运行脚本multiprocessing模块我经常序列化数据可以用下面的代码来概括 import multiprocessing as mp import time pickle def simulation j dat
hibernate和mappedBy：是否可以自动设置外键而不设置对象之间的双向关系？

Welcome 我有两门课对话和问题一场对话有很多问题对话 java package com jcg jpa mappedBy import java io Serializable import java util ArrayLis
将文档末尾的元素放置在页面顶部

我有一个div就在之前文档的标签在文档结束之前我想使用 CSS 或 JavaScript 在页面顶部显示这个 div 我知道关于position absolute 问题是如果我使用它 div 将显示在位于顶部的其他内容之上而不是显示
Power Bi Desktop - 如何在表之间添加值？

我正在尝试创建一个列该列的总值介于 3 个表中的 3 列之间我该怎么做呢这两个表是共享一个 id 的值表并且它们都通过 Id 链接到帐户表目标是将 3 列相加并将其放入按 Id 分组的表中我尝试对它们进行求和尝试使用 USE
包含用户名数据的 AutoCompleteCustomSource 不起作用

我正在尝试创建一个具有自动完成功能的文本框在我的表单的构造函数中我从数据库获取数据并设置文本框AutoCompleteCustomSource属性到用户名数组由于某种原因自动完成功能不起作用我确信没有任何问题db getUsers
C++ 中指针的地址交换

如何在具有签名的函数内交换指针地址比方说 int weight height void swap int a int b 因此在退出该函数之后实际参数的地址 weight and height 将被改变有可能吗如果要交换指针指向的
为什么不使用 MD5 进行密码哈希处理？

我有一个朋友他是白帽黑客他说 md5 并没有那么糟糕而且实际上非常安全只要我们正确使用它我相信他是对的据我所知有3种方法可以破解哈希值使用彩虹表可以通过长随机盐来保护碰撞可以通过多种盐或哈希来防止如下例所示生成时
使用cmake为vs2013配置cuda项目并得到“无效设备功能”错误

我使用cmake gui工具在vs2013中配置我的cuda项目 CMakeLists txt如下 project CUDA PART required cmake version cmake minimum required VERSIO
为什么我会收到带有受保护静态成员的 C2248（无法访问的成员）？

假设我有 include
使 JFormattedTextField 的行为类似于 ATM 输入

我想知道是否有办法使 JformattedTextField 或 jtextField 表现得像 atm 货币输入我的意思是你从右到左输入假设你输入 10 你需要再按 2 个 0 这样它就会是 10 00 当他从右向左打字时程序会自动
使用 Firebase 的 WebRTC 语音聊天

我以前从未尝试过 webrtc 我有一个使用 Firebase 制作的应用程序现在我正在尝试在其中添加语音通话功能因此尝试搜索一些教程大多数都使用 PubNub 或大多数教程基于网络应用程序我看到了这个 stackoverflow
当 fps 高于 15 时，Pygame 蛇速度太高

在我用 pygame 制作的蛇游戏中我很难弄清楚速度的物理原理问题是一旦我将 fps 设置为高于 15 蛇的速度也会增加我知道这与毫秒等有关我发现它可以工作高帧率但速度慢然而那时我无法让 X 和 Y 正确这样我就可以吃苹果
尽管设置了 Djava.library.path 变量，仍出现 UnsatisfiedLinkError

我正在尝试将 IBM 的 CPLEX 库与我的 java 应用程序集成现在我只是尝试创建一个 IloCplex 对象我添加了 Cplex jar 它编译得很好但是当我运行它时 public class cplexTest publi
在Java中，我可以定义二进制格式的整数常量吗？

与如何用十六进制或八进制定义整数常量类似我可以用二进制来定义吗在 Java 7 中 int i 0b10101010 旧版本的 Java 中没有二进制文字请参阅其他答案以获取替代方案
具有二进制颜色编码和原始输入注释的 Seaborn 热图

我需要根据数据帧列中的值是高于还是低于阈值将它们显示为二进制颜色图我还需要显示原始数字我正在使用seaborn 热图样本数据框 Month Raw value Jan 3 72 feb 2 51 Mar 1 82 我已将该列转换为二
PHP file_exists($var) 不工作

我正在尝试在笔记本上编写一些代码并使用 xampp 环境我有以下代码 class A foreach blocks as block block dir dir2 block if file exists block true var f
视图中的动态列名称 (Postgres)

我目前正在编写一个 SQL 视图它应该提供特定月份填充字段的计数这就是我希望构建视图的方式 Country Current Month 12 Eg Feb 2011 Current Month 11 Current Month 10 U
如何使用正则表达式查找并删除文件中的重复行？ [关闭]

Closed 这个问题是无关目前不接受答案这个问题与语言无关仅使用正则表达式我可以查找并替换文件中的重复行吗请考虑以下示例输入和我想要的输出输入 gt gt 11 22 22 lt duplicate 33 44 44 lt d

如何使用正则表达式查找并删除文件中的重复行？ [关闭]

如何使用正则表达式查找并删除文件中的重复行？ [关闭] 的相关文章

随机推荐

热门标签