打印一个文件中与另一文件中的模式匹配的行

2024-03-16

我有一个超过 40.000 行的文件 (file1)，我想提取与 file2 中的模式匹配的行（大约 6000 行）。我像这样使用 grep，但它很慢：

grep -f file2 file1 > out

有没有更快的方法来使用awk or sed?

以下是我的文件中的一些摘录：

File1:

scitn003869.2| scign003869 CGCATGTGTGCATGTATTATCGTATCCCTTG
scitn007747.1| scign007747  CACGCAGACGCAGTGGAGCATTCCAGGTCACAA
scitn003155.1| scign003155  TAAAAATCGTTAGCACTCGCTTGGTACACTAAC
scitn018252.1| scign018252  CGTGTGTGTGCATATGTGTGCATGCGTG
scitn004671.2| scign004671  TCCTCAGGTTTTGAAAGGCAGGGTAAGTGCT

File2:

scign000003
scign000004
scign000005
scign004671
scign000013

Try grep -Fwf file2 file1 > out

The -F选项指定纯字符串匹配，因此应该更快，而无需使用正则表达式引擎。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

unix

sed

awk

grep

extract

打印一个文件中与另一文件中的模式匹配的行的相关文章

如何在Unix中将相对路径转换为绝对路径[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我想转换相对路径 home stevin data APP SERVICE datafile txt to 绝对路径 home stev
通过名称查找进程ID

如何在 Ruby 中通过名称或完整命令行找到 pid 而不调用外部可执行文件我正在将 SIGUSR2 发送到命令行包含的进程ruby job rb 我想在不打电话的情况下执行以下操作pgrep uid Process uid pid pg
怎样才能使 Windows 成为一个开箱即用的 POSIX 兼容操作系统？

这个问题的动机是我的一个牵强的梦想即 nix 平台上可用的许多优秀软件可以轻松移植到 Windows 微软最近对开源和开放性采取了不同的方法所以我真的很想知道如果微软有这样的倾向这样的事情会有多可行我很好奇的一些更具体的事情是是否
如何让“grep”从文件中读取模式？

假设有一个很大的文本文件我只想打印与某些模式不匹配的行显然我可以使用egrep v patter1 pattern2 pattern3 现在如果所有这些模式都在一个文本文件中怎么办最好的制作方法是什么egrep从文件中读取模式 g
如何让“grep -zoP”单独显示每个匹配项？

我有一个此表格的文件 X this is the first match blabla X this is the second match and here we have some fluff 我想提取 X 之后和相同标记之间出现的所有
在 OSX 和 GNU 中使用“find”删除带有数字的文件名

我正在尝试搜索一个文件并删除名称中包含数字的类似文件我的文件 txt from myfile 00 04 version txt myfile 00 txt find E iregex myfile 0 9 1 txt 删除 myfile
为什么总是./configure;制作;进行安装；作为 3 个单独的步骤？

每次从源代码编译某些内容时都会经历相同的 3 个步骤 configure make make install 我明白将安装过程分为不同的步骤是有意义的但我不明白为什么这个星球上的每个编码员都必须一次又一次地编写相同的三个命令才能完成
仅当重复行与模式匹配时才删除它们

这个问题 https stackoverflow com questions 1444406 how can i delete duplicate lines in a file in unix有一个很好的答案说你可以使用awk seen
如何使用 UNIX shell 计算字母在文本文件中出现的次数？

我有几个文本文件我想计算每个字母在每个文件中出现的次数具体来说我想使用 UNIX shell 来执行此操作形式为 cat file 做东西有没有办法让 wc 命令来执行此操作 grep char o filename wc l
创建 jar 文件 - 保留文件权限

我想知道如何创建一个保留其内容的文件权限的 jar 文件我将源代码和可执行文件打包在一个 jar 文件中该文件将在使用前提取人们应该能够通过运行批处理 shell 脚本文件立即运行示例和演示然后他们应该能够修改源代码并重新编译所有内
如何检测并找出程序是否陷入死锁？

这是一道面试题如何检测并确定程序是否陷入死锁是否有一些工具可用于在 Linux Unix 系统上执行此操作我的想法如果程序没有任何进展并且其状态为运行则为死锁但是其他原因也可能导致此问题开源工具有valgrind halgr
通过特定分隔符删除字符串

我的文件中有几列其中第二列有分隔符我想删除第二列中的第一个第三个和第四个字符串并将第二个字符串留在该列中但我有正常的分隔符空间所以我不知道 input 22 16050075 A G 16050075 A G 22 16050
git 别名中的 AWK 语句

我正在尝试创建一个 git 别名来以特定格式打印日志中的所有拉取请求但是我在使用 AWK 删除双空格时遇到问题这是使用以下命令的 git log 的输出 git log merges grep pull request pretty
从 R 中的方差分析 (glm) 中提取残余偏差

我在 R 中安装了一个 glm 模型并采用了方差分析表我需要提取残余偏差列但它会产生错误以下是代码创建数据 counts lt c 18 17 15 20 10 20 25 13 12 outcome lt gl 3 1 9 t
如何在 shell 脚本中操作 $PATH 元素？

有没有一种惯用的方法从类似 PATH 的 shell 变量中删除元素这就是我想要的 PATH home joe bin usr local bin usr bin bin path to app bin and remove or rep
两种情况或 if 哪个更快？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我必须制作一个非常轻的脚本它将接受用户的选项并调用脚本中的函数来执行一些任务现在我可以使用 IF 和 CASE 选项但我想知道两
如何查找所有以句号结尾的单词？

我有一个包含许多以 a 结尾的单词的文件其中大部分是缩写例如 etc p s 如何输出一个仅显示一次所有这些单词的列表所有单词前面都有一个空格因此可以使用该空格来查找单词的开头没有一个单词出现在该行的开头文件中没有句子因此句点
从 shell 命令调用 SOAP 请求

我使用curl 向Web 服务发送SOAP 请求并使用shell 脚本获取响应请在下面找到我正在使用的命令 curl H Content Type text xml charset utf 8 H SOAPAction d sample
在 bash 脚本中提取 XML 值 [重复]

这个问题在这里已经有答案了我正在尝试从 xml 文档中提取一个值该文档已作为变量读入我的脚本中原始变量 data is
ssh远程变量赋值？

以下内容对我不起作用 ssh email protected cdn cgi l email protection k 5 echo k 它只是返回一个空行如何在远程会话 ssh 上分配变量 Note 我的问题是not关于如何将本地变量传

随机推荐

SQL Anywhere 11，JZ0C0：连接已关闭

我开发基于 apache tomcat 6 0 26 apache cxf 2 2 7 spring 3 0 hibernate 3 3 和 sybase sqlanywhere 11 的 Web 服务我使用 SYBASE jconn j
使用回形针上传多个文件

我在使用回形针上传多个文件时遇到问题我的模型是这样的 slider has many imgarrays imgarrays has many imageobjects imageobjects have attachment as fo
Android 中的 WorkManager 多次执行 do Work()

我正在使用 WorkManager 来安排一些任务但问题是工作管理器在一次调用中多次执行这些任务 doWork 我在用 android arch work work runtime 1 0 0 alpha08 我尝试过使用 alpha07
如何在 Google 云端硬盘中搜索子文件夹和子子文件夹？

这是一个常见问题场景是 folderA folderA1 folderA1a folderA2 folderA2a folderA2b 问题是如何列出根目录下所有文件夹中的所有文件folderA 编辑 2020 年 4 月 Google
在 ASP.NET c# 中重定向到另一个页面之前显示 ClientScript 警报？

我必须在这里解决一个问题我正在开发一个系统我不断地向用户显示消息例如我正在添加一个新客户端我输入所有数据并按保存在 C 上我所做的就是完成所有保存过程然后我使用 ClientScript RegisterStartupScr
如何在没有 VS 6.0 的计算机上安装 Microsoft FlexGrid Control 6.0？

我的 VB NET 应用程序使用 Microsoft Flex Grid Control 6 0 这是一个遗留应用程序已通过 Visual Studio 转换向导从 VB6 移植虽然我可以编译程序集但由于某些类未注册我收到了 COM
For 循环中的 Grunt 运行

我是咕噜声的新手我有一个适用于单个构建的 gruntfile 有几个目标链接在一起来完成该过程问题是我需要使用变量数据创建几个不同的版本我正在尝试弄清楚如何在我的 gruntfile 中执行此操作今天要进行构建我只需要运行 gr
让 `nosetests` 脚本按 Python 版本选择文件夹

我曾经有过这个setup cfg file nosetests where test python toolbox 但现在我通过提供两个并行代码库来支持 Python 2 和 Python 3 其中一个位于source py2文件夹和其中一
使用facet_wrap时，geom_bar中的条形有不需要的不同宽度

我找不到以下问题的解决方案我非常感谢一些帮助以下代码使用facet 生成条形图然而由于 ggplot2 在某些组中具有额外空间即使我指定 0 1 或类似的宽度它也会使条形变得更宽我觉得这很烦人因为它看起来很不专业我希望所
如何在 C++ 中正确返回数组（类成员）？

我对 C 还很陌生所以这可能是一个微不足道的问题我的类有一个私有成员变量它是一个数组我需要返回该数组但我不确定如何正确执行此操作 class X private double m Array 9 public double Get
这段代码可以防止SQL注入吗？

背景我已签约分析现有数据提供者并且我知道以下代码有错误但为了指出它有多糟糕我需要证明它容易受到 SQL 注入的影响 Question 什么 Key 参数可能会破坏PrepareString函数并允许我执行DROP陈述代码片段 Pu
如何访问网络文件？

using namespace std ofstream myfile myfile open Z ABC TXT fails Z is a network drive myfile open C Temp ABC TXT OK myfil
为 JavaScript 模块编写 scalajs Facade 时如何使用 JSImport

我使用 JSImport 编写了一个外观并且它有效不幸的是我通过反复试验找到了解决方案并且我不完全理解为什么这个特定的解决方案有效但我尝试过的其他解决方案却无效背景我从一个使用 sbt 构建的工作项目开始它是一个单页应用程序
有没有办法以正确的顺序生成 Liquibase 数据？

我正在使用 Liquibase 对现有数据库进行版本控制所以我使用 liquibase logLevel debug driver com mysql jdbc Driver classpath lib mysql connector j
合并删除远程分支列表下的分支后仍然看到Git Branch

我正在开发一个自动化套件我在其中创建了两个分支 p2pOnOff 和 release 分支后来我将它们合并到 master 并使用以下命令删除它们 git branch d p2pOnOff git push origin p2pOnO
删除元组列表中包含 nan 的元组 - Python

我有一个很长的元组列表想要使用 Python 删除其中包含 nan 的任何元组我目前拥有的 x 录音开始 0 nan 4 nan 7 事件标记1 150 我正在寻找的结果 x 录音开始 0 事件标记1 150 我尝试过使用 np isn
将 fb-contrib 库与 Gradle 的 FindBugs 插件结合使用

是否可以整合Facebook 贡献 http fb contrib sourceforge net 带有 Gradle 的库FindBugs 插件 http www gradle org docs current userguide fin
在Java中，为什么Stack是一个具体类，而Queue是一个接口？

Queue 的哪一个子类是普通队列 1 java util Stack 是 Java 1 0 的遗留类它早于 Collections 框架很多年坦率地说它是一个例子horrible多方面的设计一切都不是事情应有的样子主要问题是
为什么 numpy.var 是 O(N) 空间？

我有一个 13GB 的数组我打电话numpy var对其进行计算方差然而它又分配了约 13GB 来执行此操作为什么需要 O N 空间或者我打电话numpy var以错误的方式 import numpy as np data pri
打印一个文件中与另一文件中的模式匹配的行

我有一个超过 40 000 行的文件 file1 我想提取与 file2 中的模式匹配的行大约 6000 行我像这样使用 grep 但它很慢 grep f file2 file1 gt out 有没有更快的方法来使用awk or sed

打印一个文件中与另一文件中的模式匹配的行

打印一个文件中与另一文件中的模式匹配的行 的相关文章

随机推荐

热门标签

打印一个文件中与另一文件中的模式匹配的行的相关文章