如何使用perl脚本删除重复行

2024-04-04

如何删除重复行？

我当前的代码：

use strict;
use warnings;
my $input = input.txt;
my $output = output.txt;
my %seen;

open("OP",">$output") or die;
open("IP","<$input") or die;

while(my $string = <IP>) {
    my @arr1 = join("",$string);
    my @arr2 = grep { !$seen{$_}++ } @arr1;
    print "@arr2\n";
    print OP "@arr2\n";
}

close("IP");
close("OP");

Input:

india
australia
america
singapore
india
america

预期输出：

india
australia
america
singapore

使用这个 Perl 一行代码来删除all重复项，无论是否相邻：

perl -ne 'print unless $seen{$_}++;' input.txt > output.txt

仅删除adjacent重复项（如 UNIX 中uniq https://man7.org/linux/man-pages/man1/uniq.1.html命令）：

perl -ne 'print unless $_ eq $prev; $prev = $_; ' input.txt > output.txt

Perl 语句使用这些命令行标志：
-e：告诉 Perl 查找内联代码，而不是在文件中。
-n：一次循环输入一行，将其分配给$_默认情况下。

当第一次看到这条线时，$seen{$_}首先求值，结果为 false，因此打印该行。然后，$seen{$_}增加一，这使得每次再次看到该行时都为真（因此不再打印同一行）。

第一个单行避免一次将整个文件读入内存，这对于具有大量长重复行的输入可能很重要。仅将每行的第一次出现及其出现次数存储在内存中。

也可以看看：

perldoc perlrun：如何执行Perl解释器：命令行开关 https://perldoc.perl.org/perlrun.html#Command-Switches

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

perl

duplicates

如何使用perl脚本删除重复行的相关文章

如何在 Perl 中取消导入函数？

我正在尝试删除导入的符号以便它们不能用作对象中的方法但是no似乎不起作用也许我不明白不或者还有其他方法 use 5 014 use warnings use Test More still has carp after no car
如何在 Perl 中使用数组引用中的索引作为方法引用？

如同这个关于迭代子例程引用的问题 https stackoverflow com questions 452529 how do i iterate over dereference an array of subroutine refs
哪一个代表null？ undef 或空字符串

我想插入null在表的一列中哪一个代表null undef或空字符串应该使用哪一种为什么我知道关于defined我可以检查一下但我更多的是从数据库的角度来看代表哪一个null更合适吗 Update 我在用DBI module D
perl imap 将邮件移至垃圾箱 (Mail::IMAPClient)

我需要将所有未见的邮件移至垃圾箱然后从收件箱中删除 my inbox imap gt select Inbox my mails imap gt unseen foreach my msgid mails imap gt set flag
SQL：列出多个连接语句中的重复记录？

你好以下查询在连接多个表后返回所有员工 select e from dbo EMP e join dbo HREMP a on a ID e ID join dbo LOGO c on c EMPID e id join dbo LOGO
使用 Getopt::Long 解析参数的最简洁方法

我使用 GetOpt 来解析命令行参数我想添加一个新选项 multi 它应该得到一个如下所示的字符串 key1 abc key2 123 key3 xwz 我不知道用户想要提供多少个自定义密钥但他可以提供 minimax5键另外我想
如何将文本转换为标题大小写？

我有一个文本文件其中包含需要更改为标题大小写的标题列表单词应以大写字母开头但大多数冠词连词和介词除外例如这个书名列表 barbarians at the gate hot flat and crowded A DAY LATE
如何构建 Perl Web 服务基础设施

我有许多用于管理多服务器基础设施的脚本其中一些脚本需要 root 访问权限一些需要访问数据库并且大多数脚本都是基于 perl 的我想将所有这些脚本转换为非常简单的 Web 服务可以从不同的应用程序执行这些 Web 服务将接受常规
读入模板文件，使用用户输入填充并生成新文件

我正在尝试读取如下所示的模板配置文件 template config path to speedseq package binary directory SPEEDSEQ BIN DIR usr local packages Sequenc
由于 lpcap，CPAN 安装 Net::Pcap 和 Packet 模块失败

最近我尝试通过 cpan 安装 perl 模块 Net Packet 和 Net Pcap 但它抱怨找不到 pcap 库所以我正在搜索 cpan 在安装模块时是否接受外部 lib include 目录但到目前为止还没有运气 looki
Perl 的反引号、system 和 exec 有什么区别？

有人可以帮帮我吗在 Perl 中以下之间有什么区别 exec command and system command and print command 还有其他方法可以运行 shell 命令吗 exec 执行命令并一去不复返这就像一个
如何将 Perl 转换为 C？

有没有可用的工具可以将 Perl 源代码转换为 C 源代码什么平台都可以对此的规范答案是MJD 的为什么不将 Perl 翻译成 C http www perl com pub a 2001 06 27 ctoperl html
你能挽救我的负面回顾示例来传达数字吗？

在高级正则表达式一章中掌握 Perl http oreilly com catalog 9780596527242 我有一个损坏的示例我无法找到一个很好的修复方法这个例子可能为了自己的利益而试图变得太聪明但也许有人可以帮我解决它
如何使用 Perl 分割文本文件并将其存储到二维数组中？

230215 01 16 2000 57533 0 1045403 0 0 217623 230215 01 18 2000 77659 0 1045403 0 0 217624 230215 01 25 2000 76583 0 1045
如何使用 Perl CGI 脚本提供图像？

我的 Google fu 让我失望了如何使用 Perl 提供已生成的图像 Example img src getimage pl getimage pl 里有什么干得好 usr bin perl w my file inner nav
Perl Parallel::Forkmanager 不允许收集变量值

也许因为子进程不知道我的散列请参阅下面的代码散列输出没有收集任何内容除了写入 tmp 文件之外还有其他方法来收集该值吗 foreach Item AllItems pid pm gt start Item and next Tem
在 qx 运算符中将 perl 数组拆分为单独的参数

我试图将一组参数传递给qx操作员考虑 my files qw A txt B txt print qx ls files 这给出了错误 ls cannot access A txt B txt No such file or direct
有没有办法匹配任意 Unicode 字母字符？

我有一些文档经过 OCR 从 PDF 转换为 HTML 因此他们最终会出现很多随机的 unicode 标点符号而转换器会搞砸即省略号等他们还正确地有一堆非英语但仍然是字母字符如和俄语字符等有没有办法制作一个匹配任何 unico
无法从日志文件中提取特定信息

我这里有日志文件我想提取以下信息想要提取十六进制值如果该行有第二个括号 0 9 想要提取十进制值首先转换为十六进制然后提取 9 gt 0x09 想要提取负值 25 先转换为十六进制然后提取例如 25 gt FFE7 gt 想要提取
检查一个数字是 int 还是 float

在perl中我想检查给定变量是否包含浮点数为了检查我正在使用的 my Var 0 02 Floating point number if int Var Var floating point number 但上面的代码对于 0 0 不起

随机推荐

如果日志级别低于阈值，则防止昂贵的日志调用

如果我执行 NLog Trace logger Trace Json 0 Newtonsoft Json JsonConvert DeserializeObject myObject 我的最低级别出现错误
如何使用php中的password_hash函数对1000个或更多字符的令牌进行哈希处理？

我有一个大约 1400 个字符的令牌我想使用 password hash 函数对其进行哈希处理但使用 PASSWORD DEFAULT 算法将仅使用前 72 个字符生成哈希值我已经探索了 PASSWORD ARGON2I 算法但我不
不要使用“object”作为类型。 “object”类型目前很难使用

const useSetState
从网页写入本地磁盘

我正在开发一个允许多文件下载的 Silverlight 控件目前我正在尝试了解浏览器的权限模型假设在网页上用户在文本框中输入本地文件夹 c temp 然后用户单击一个按钮是否可以在 JavaScript 或 Silverlight
FlatList 在渲染时调用 `onEndReached`

这是我的简单的 render 函数category list page 最近我为我的页面添加了分页FlatList所以当用户滚动到底部时查看 onEndReached在某个点被调用 onEndReachedThreshold从底部开始的值长
属性错误：“图形”对象没有属性“节点”

我有以下 python 代码来构建 knn 图但出现错误 AttributeError Graph 对象没有属性 node 似乎 nx Graph 没有节点属性但我不知道应该用它替换什么 import networkx as nx de
通过 Webpack 在 Rails 中安装 jQuery 时未定义 $

我正在尝试通过 Webpack 在 Rails 6 0 0 rc1 中安装 jQuery 我不确定我缺少什么但我收到了错误 is not defined尽管能够编译 jQuery 但仍会在浏览器控制台中出现我添加了 jQueryyarn
Tomcat 8 给出 JSP 编译错误

我使用的是 tomcat 7 刚刚升级到 tomcat 8 但是当我在 tomcat 服务器上运行我的 Web 应用程序时它给出了这个错误 Stacktrace with root cause org apache jasper Jasp
Windows Phone 8.1 尺寸问题

我在为 Windows Phone 开发应用程序时无法理解尺寸我知道有3个决心 WVGA 480 800 15 9 WXGA 768 1280 15 9 1 6x scale 720p 720 1280 16 9 1 5x scale 8
ToString() 与字符串运算符的类型推断

注这个问题和我的有些关系前一个 https stackoverflow com questions 41347374 tostring throws nullreferenceexception for unit value 但实际上从不
PHP内置开发服务器的最大并发连接数

我在使用 php 的内置网络服务器时遇到了一个问题因为它似乎只允许单个并发连接我在测试一些并发 ajax 请求时发现了这一点这些请求似乎都是同时完成的这不是什么大问题因为我总是可以启动 apache 这就是我得出上述结论的方式但
GlassFish 需要 Java SE 版本 6。您的 JDK 是版本 0 (Mac)

我正在 IntelliJ 中使用 GlassFish 做一个项目它抛出以下错误 GlassFish 需要 Java SE 版本 6 您的 JDK 是版本 0 我跑了glassfish4 bin asadmin start domain在终
分层架构中的实体框架

我正在使用实体框架的分层架构这是我到目前为止想到的除 UI 之外的所有项目都是类库 Entities POCO 实体完全的执着无知没有参考其他项目由 Microsoft 的 ADO Net POCO 实体生成器生成 DAL 带有上
具有复杂 Json 结构的 Room

我是 Room 的新手目前正在做我的一个项目我应该在其中插入一些改造的 GSON 数据首先让我在下面展示我的 JSON 它将提供清晰的结构 organization id 0 title string description HTM
计算唯一对的数量并将计数存储在矩阵中

我的问题类似于stackoverflow com q 7549410 https stackoverflow com q 7549410 我有配对数据如下所示 ID ATTR 3 10 1 20 1 20 4 30 我想计算唯一对的数量并
Python 3 CSV 文件在打印时出现 UnicodeDecodeError: 'utf-8' 编解码器无法解码字节错误

我在 Python 3 中有以下代码用于打印 csv 文件中的每一行 import csv with open my file csv r newline as csvfile lines csv reader csvfile delim
更改文件长度时，是否需要重新映射所有关联的 MappedByteBuffer？

我有一个小而简单的存储系统可以通过内存映射文件进行访问由于我需要处理超过 2GB 的空间因此我需要一个具有固定大小如 2GB 的 MappedByteBuffer 列表由于不同原因我使用的空间较少那么一切都相对简单一个缓冲区
Nuxt 3 中的深色模式切换器无法与官方 @nuxtjs/color-mode 配合使用

我想使用 tailwind 和推荐的 nuxtjs color mdoe 模块在我的 Nuxt 应用程序上实现深色模式测试顺风的黑暗类运行良好并且按预期工作但是我无法使按钮切换器以编程方式设置颜色模式我在 devDeps 中安装了
将 props 传递给包装在 withRouter() 函数中的 React 组件

我正在使用 React Router v4 在我的 React 应用程序中导航下面是包裹在withRouter 函数使其能够在单击时更改路线 const LogoName withRouter history props gt h1 gt
如何使用perl脚本删除重复行

如何删除重复行我当前的代码 use strict use warnings my input input txt my output output txt my seen open OP gt output or die open IP

如何使用perl脚本删除重复行

如何使用perl脚本删除重复行 的相关文章

随机推荐

热门标签

如何使用perl脚本删除重复行的相关文章