寻求参考来理解一种模式“!_[$0]++”

2024-03-10

我是 AWK 新手，使用移植到 Windows (UNXUtils) 的 GNU 实用程序和 gawk 而不是 awk。该论坛上的解决方案的工作原理如下绝对的魔法，并且我正在尝试找到一个可以阅读的来源，以更好地理解该解决方案中提供的模式表达式。

In 从 UNIX shell 脚本中的列表中选择唯一或不同的值 https://stackoverflow.com/questions/618378/select-unique-or-distinct-values-from-a-list-in-unix-shell-scriptDimitre Radoulov 的回答提供了以下代码

zsh-4.3.9[t]%   awk '!_[$0]++' file

作为选择具有重复和混乱元素的列表中的元素的解决方案，仅列出每个元素一次。

我以前用过sort | uniq这样做，这对于小型测试文件来说效果很好。对于我的实际问题（从 2006 年 4 月印度国家证券交易所历时 16 天的档案订单簿研究数据中提取公司代码列表，多个文件中有 1.29 亿条记录），排序负担变得太大了。而uniq只是消除相邻的重复项。

为我的 Win-GNU gawk 复制上面的行，我使用

C:\Users\PAPERS\>  cat ..\Full*_Symbols.txt | gawk "!_[$0]++"  | wc -l

946

表明超过 1.29 亿条记录属于 946 个不同的公司，这是一个非常合理的答案。在我的普通 Windows 机器上花了不到 5 分钟的时间，经过几个小时的尝试排序让我筋疲力尽。

查看了我拥有的所有 awk 文本并在网上进行了一些搜索，而对于部分模式，其工作原理的解释很清楚（!用作 NOT，$0是整个当前记录），对于下划线_我找不到任何解释，并且已经看到++在示例中仅作为“将计数器更新 1”。

将不胜感激任何适当的文本或网络参考来充分理解这个例子，因为我认为它也会对我在其他相关案例中有所帮助。谢谢。最好的，

真的是非常非常聪明啊！

它创建一个关联数组（意味着“索引”可以是任何内容，而不仅仅是数字）。如果元素不存在（为零），则创建它（通过递增它），并且当存在匹配时awk执行默认操作（即打印输入行）。一旦找到该值，_[$0]将为非零，因此如果再次遇到相同的值，则表达式为 false 并且不会打印任何内容。

我认为下划线只是一个“普通”变量名称（您需要一个数组名称，下划线与monkey但更“匿名”。经典！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

寻求参考来理解一种模式“!_[$0]++” 的相关文章

字符串到数组，按第三个字/列排序

我有一个包含数字单词和换行符的字符串我将其拆分为一个数组如果我跑Array Sort lines 它将按第 1 列对数组进行数字排序 Number 我怎样才能按第 3 列的字母顺序对数组进行排序 Color 注意它们不是真正的列只
如何在给定目标索引数组的情况下对数组进行就地排序？

你如何对给定的数组进行排序arr in place给定目标索引数组ind 例如 var arr A B C D E F var ind 4 0 5 2 1 3 rearrange arr ind console log arr gt B E
需要初学者 PHP 帮助

我学习 PHP 一段时间了我想要一个澄清我见过preg match使用不同的分隔符号调用函数例如 preg match and preg match 今天我还看到了正在使用我的问题分为两部分所有字符都可以使用什么有一个标准吗
使用正则表达式反转匹配[重复]

这个问题在这里已经有答案了使用 PCRE 如何构造一个仅在字符串是时才匹配的表达式not成立如果我使用 grep 我没有我会想要 v 选项一个更具体的例子我希望我的正则表达式能够匹配 if 字符串foo is not在字符串中所
如何根据当前日期时间发现财政年度？

我需要基于当前或今天的日期时间的财政年度假设我们认为今天的日期是10 April 2011 那么我需要输出为Financial Year 2012在某些情况下我需要以短格式显示相同的输出FY12 我想以两种方式显示在我们的要求中考虑
如何在 git diff 中按标点符号拆分单词？

我对以下命令有一些运气 git diff color words lt gt space lt gt 但它似乎没有在第一个字符类中正确地否定方括号我试过这个 git diff color words lt gt space lt gt 为
匹配不包含超过 x 个连续字符的字符串的正则表达式是什么

我想要匹配不包含连续 3 个以上重复的相同字符的字符串所以 abaaaa 不匹配 abawdasd 比赛 abbbbasda 不匹配巴巴巴巴比赛是的对包含连续字符进行正则表达式匹配然后在代码中对其进行否定会更容易更简洁然而
Bash - 在 perl 正则表达式中使用变量以及匹配组

这是我在 stackoverflow 上的第一篇文章如果我错过了一些重要的内容请原谅我我目前遇到以下问题目标是根据我准备的文件列表动态替换端口号find 这些文件中的所有端口均以数字 4 开头有 5 位数字现在是棘手的部分我只
正则表达式最小值4 个字符，最多 11 个，允许空格和特殊字符

我在 RegularExpressionValidator NET 控件上有一个正则表达式 w 4 11 工作正常它允许字符串长度在 4 到 11 之间我希望它允许空格和特殊字符例如丹麦语字符有什么建议么怎么样 4 11 或者只
Perl 的 grep 函数如何与正则表达式一起使用？

以下 grep 函数如何工作什么作用 0o1Iil do chars grep 0o1Iil 0 9 A Z a z use Data Dumper print Dumper chars 在 chars中生成以下内容 VAR1 0 VAR
Python 正则表达式从文本中提取域

我有以下正则表达式 r a zA Z0 9 a zA Z0 9 61 a zA Z0 9 a zA Z 2 6 当我将其应用于文本字符串时比方说这是 www website1 com 这是 website2 com 我得到 www we
正则表达式删除某些字符周围不需要的空格

我正在尝试从 JavaScript 文件中删除一些不需要的空格并在将文件发送到客户端之前使用 C 和 Regex 组合文件我有一个JavascriptHandler处理 js 文件效果很好这是我用来打包 JavaScript 的函
在 MongoDB 中，如何根据嵌入对象中的属性对文档进行排序？

在我的产品集合中我可以找到已在 GB 地区发布的所有产品 gt db products find release region GB pretty id foo release region GB date ISODate 2012 03
C - 对浮点数组进行排序，同时跟踪索引

我有一个包含 3 个浮点值的数组 float norms 3 norms 0 0 4 norms 1 3 2 norms 2 1 7 我想按降序对这个数组进行排序同时跟踪数组中值的原始索引换句话说给定数组norms 0 4 3 2 1
如何在不使用 LINQ 的情况下按降序对 FileInfo 对象数组进行排序

我必须降级我的代码才能在 NET 2 0 上工作因为它不支持 LINQ 目前该代码对数组进行排序FileInfo对象由他们FullName属性使用 LINQ 如下所示 Dim files As FileInfo files files
仅匹配空格或字符串开头/结尾之间的整数的正则表达式

我目前正在使用该模式 b d b 用这些条目测试它 numb3r 2 3454 3 214 test 我只希望它捕获 2 和 3454 它非常适合捕获数字单词除了边界标志 b 包括作为一个单独的词考虑我尝试排除句点但在编写模式时遇到
如何让“grep”从文件中读取模式？

假设有一个很大的文本文件我只想打印与某些模式不匹配的行显然我可以使用egrep v patter1 pattern2 pattern3 现在如果所有这些模式都在一个文本文件中怎么办最好的制作方法是什么egrep从文件中读取模式 g
按偶数和奇数排序

我想知道是否可以使用 std sort 函数按偶数或奇数对数字进行排序我有以下代码但我不确定如何在 std sort 中实现 inline bool isEven const Point n return n getX 2 0 它是否正
如何使用 PHP 查找字符串中字符的序列模式？

假设我有随机的文本块 EAMoAAQAABwEBAAAAAAAAAAAAAAABAgMFBgcIBAkBAQABBQEBAAAAAAAAAAAAAAAGAgMEBQcBCBAAAQMDAgMEBQcIBQgGCwEAAQACAxEEBSEG
正则表达式 - 匹配不包含字符串的模式

我对正则表达式很陌生并且一直在寻找方法来做到这一点但没有成功给定一个字符串我想删除以 abc 开头以 abc 结尾且中间不包含 abc 的任何模式如果我做 abc abc abc 它将匹配以 b 开头以 abc 结尾并且中间包

随机推荐

存储过程、MySQL 和 PHP

这是一个相当开放的问题我已经在 MS SQLServer 中使用存储过程以及经典 ASP 和 ASP net 一段时间了并且非常喜欢它们我正在从事一个小型爱好项目由于各种原因我选择了 LAMP 路线有什么提示技巧陷阱或良好的
例如，C++0x auto 关键字的含义是什么？

auto a Foo
将320x240x3点云矩阵转换为320x240x1深度图

有人可以用Python帮我解决以下问题吗我有从虚拟相机获得的点云矩阵其尺寸为 320x240x3 表示每个点相机视图中的点的 x y z 坐标所有值的范围都从负到正如何将此点云矩阵转换为存储每个像素的正深度值的 320x240x
在 Swift 3 中使用选择器

我正在用 Swift 3 编写我的 iOS 应用程序我有一个UIViewController扩展我必须检查控制器实例是否响应方法下面是我尝试的代码 extension UIViewController func myMethod if
如何使用 WorkManager 更改定期工作请求周期而不立即运行？

val request PeriodicWorkRequestBuilder
使用R的lm()，公式对象应该作为字符传递？

我发现 R 使用 lm 时有一个奇怪的行为基于cars对象以下函数是在速度 30 时使用局部线性回归绘制拟合断裂距离 func1 lt function fm spd w lt dnorm cars speed spd sd 5 fit
Jenkins 与 intellij 共享库

我开始实现 Jenkins 共享库并尝试使用 intellij 作为我的 ide 编写我的 jenkinsfile 如何从共享 lib 存储库获取函数到其中包含 jenkins 文件的其他存储库只是为了澄清从 jenkins 运行时对我有
查找数组的第一个重复项

我决定学习 python 并使用 CodeFight 进行训练第一个面试练习是找到数组的第一个重复项并返回它如果没有则返回 1 这是我写的代码 def firstDuplicate a b print len a for i in ra
当两个命令都存在时，在 jupyter 中使用“%”比使用“!”有优势吗？

例如当我使用 pip install VSCode 建议我使用 pip install 同样有一个版本mv对彼此而言 and 使用其中一种比另一种有优势吗 Yes pip在大多数边缘情况下将正确解析适当的虚拟环境当前内核使用的虚拟环境
如何在 Spring WebClient 中一次设置多个标头？

我试图为我的其余客户端设置标头但每次我都必须写 webclient get uri blah blah header key1 value1 header key2 value2 如何使用 headers 方法同时设置所有标头如果这些标
Cloudinary api - 解决承诺

我想编写一个函数返回一个布尔值指示我的 Cloudinary 空间中是否已存在具有指定 public id 的图像我可以使用以下代码将结果记录到控制台 function isUploaded public id cloudinary
不可能的布局？

我开始认为这是不可能的但我想我会问你们基本上它是一个 2 列布局但业务需要以下内容始终占据整个浏览器窗口适应浏览器窗口大小的调整左栏的宽度是固定的但该宽度在不同页面上应该是灵活的左列顶部有一个固定高度的区域左栏有一个底
所有 mysql 引擎之间的主要区别是什么？

我想总结一下所有 Mysql 引擎之间的主要区别当然也包括最流行的引擎我应该使用什么标准来确定使用哪个引擎这里对它们进行了很好的描述 http dev mysql com doc refman 5 0 en storage engin
如何更改 tcsh 提示符以显示当前工作目录？

我在用tcsh我正在寻找一种响应式工作目录我至少想显示最后一个文件夹名称而不是获取完整路径想象我当前的工作目录是 user hostname home us Desktop my projects 然后我想显示这样的提示 user ho
获取 Librosa 中与 STFT 相关的频率

使用时librosa stft 要计算频谱图如何获取相关的频率值我对生成图像不感兴趣如librosa display specshow 而是我希望掌握这些价值观 y sr librosa load recordings high pi
Azure 媒体播放器无法在 iPhone 上使用 AES 保护

我们在 iPhone 6 A1586 上播放受 AES 使用 JWT 令牌身份验证保护的视频时遇到问题欠费错误如下 0x50300000 视频播放因损坏问题而中止或者因为视频使用了您的浏览器不支持的功能禁用加密后播放相同的视频不会
Google 脚本可跨多个工作表工作

我是 Google 脚本的新手所以如果这个问题已经得到解答我深表歉意我有一个包含多个工作表的电子表格其中一些工作表上有一个状态列使用我已经发现的代码我可以根据状态列中单元格中的值设置整个行颜色我遇到的问题是我只能让代码在一张纸
有效查询合并2个以上子查询

我有一个数据库 books primary key bookID characterNames foreign key books bookID locations foreign key books bookID 角色名称和位置的文本位置
我可以在批处理文件中使用多少个变量

我有点好奇我可以在批处理文件中设置多少个变量我这里有一个小脚本 ECHO OFF SETLOCAL EnableDelayedExpansion FOR L P IN 1 1 2147483647 DO SET Foo P P ECHO
寻求参考来理解一种模式“!_[$0]++”

我是 AWK 新手使用移植到 Windows UNXUtils 的 GNU 实用程序和 gawk 而不是 awk 该论坛上的解决方案的工作原理如下绝对的魔法并且我正在尝试找到一个可以阅读的来源以更好地理解该解决方案中提供的模式表达式

寻求参考来理解一种模式“!_[$0]++”

寻求参考来理解一种模式“!_[$0]++” 的相关文章

随机推荐

热门标签