多线程 Grep

2024-02-01

我有以下包含 30233088 字符串的（大）文件：

head mystringfile.txt:

GAATGAACACGAAGAA
GAATGAACACGAAGAC
GAATGAACACGAAGAG
GAATGAACACGAAGCA

cat sequence.txt

AAATAGAGGGCGGTCCAGGCGTGTCGAAACACTGGGTCCAGGGCAAGAGCGGTTCGGGTGTCAGGAAAGCCCCCAAGGGGGTTCGCGCGGTTTGCAGTGAGGTAGAGGCCGGTGTATGGGTAGACAATTGGGGTCCCAAAGAAAAAGGCTCGTCCAACATCATAATAAACCCAAGCACGATAAAAAGCAAACGCAGACTTCAATAGGGTACGAGCAATTGTGGCAGGGTGCTCGCTGTCAGGGTTAGATCTTCTTGGAGTCGCGTCGCTCGGGGGGGCAAGGCCAACGTAAGATCGTGGCTGATCGCTGGCAATGCGGTCGGTTGGGTGGTCGCTAGTAGGGGCACGGCGGTCTCTTATGGCGTCGTAAAATGCGTCTCCAAAGCGAAAAGGGGCGGCAGACAAGTCACCGGGCAAGCTTAGAGGTCTGGGGCCCGTGGCTTTAGGGGAATGAACACGAAGACGCGAAACGAAGTCGTGTTTCTTGTTGGCTGTAGAGGGGAAAACCGTCTGGGGCGATCTGGCGTAGTAGTGCGTGTCTTGCAGTGAGCTCCCCGTCCGTAAGGATTCGCAGGAATCCTGCGTGAAGCTCGGTCGTCTCGGCCGTGTCTCGGGGTTTGATTGCGGGTTCAGATTGGAAAGGTCTCCTCGGGTCGTTTGCTGCATTTGCTCGCAACCCTGACGTGAAAGGGGTGAGCTGTCTCCAATCTGCCACGCTGGGTGTTGCGTCGTCAGTAAAAGACTTGGTCAAGCTGGGACCTCGCAAGATCGCGAGAGGGTTAAGCACAAAAGGTATGGCGAAGCTCCCGGGTGCTCTTGTGGCCACCCAGAATCATGGTGACGTAGGTTTTGCGAAGCCATCAAAAATTCAGGCGGCAAAACGAGCCAGTAGGGTCCTGGGCAGCTGGGCTTGTAGTGGGTAGGCGGCAAAACGCAAAGAATGAACACGAAGCAACTCCGTAGTGTGACGGGGGTTCTGACAAACGTCCTGCAAGAAGTTCGTCTTGGG

我需要grep在另一个序列文件中确定匹配的位置，我执行以下操作：

while read line; do grep -b -o $line sequence.txt >>sequence.txt.count; done<mystringfile.txt

运行这样的代码当然需要很长时间并且只运行 1 个线程的一部分，那么我该如何修改它（使用parallel or xargs？）以便它在我想要指定的线程数上运行？

您使用 shell 循环处理文本的想法是错误的。您正在打开一个新的文件描述符，以便为输入文件上的每次 30233088 迭代重定向到输出文件。它很容易产生巨大的性能影响或耗尽打开的文件描述符的情况。

使用适合工作的正确工具。Awk是你的朋友吗？如果sequence.txt正如您所说，只是一个巨大的模式，您可以将其放入正则表达式匹配的变量中，如下所示。该解决方案不涉及必须在 RAM 中存储条目的内存开销

awk -v sequence="$(<sequence.txt)" 'n=index(sequence, $1){print n":"$1}' mystringfile.txt

这应该比您所采用的方法相对更快，并且要进一步加快速度，请更改您的locale设置以匹配C local,

LC_ALL=C awk -v sequence="$(<sequence.txt)" 'n=index(sequence, $1){print n":"$1}' mystringfile.txt

为了匹配grep的选项-b要打印字节偏移开始，请使用n-1在上面的答案中而不是仅仅n.

如果您仍然想使用 GNU 并行，请使用--pipepart将文件物理分割成多个部分并指定--blocksize 为要读取的文件内容的 MB 量

parallel -a mystringfile.txt --pipepart --block=20M -q awk -v sequence="$(<sequence.txt)" 'n=index(sequence, $1){print n":"$1}'

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

awk

parallelprocessing

grep

xargs

多线程 Grep 的相关文章

使用awk对字段进行排序和排列

我现在正在尝试学习 awk 我想做一项特定的任务我的问题与之前发布的问题范围相似使用 awk 将列转置为行 https stackoverflow com questions 13634816 using awk to transpos
如果字段重复则删除行

如果第一个字段重复则寻找 awk 或 sed 单行代码以从输出中删除行我见过的删除重复行的示例是 awk a 0 a 0 尝试使用它作为基础但没有运气我认为将 0 更改为 1 可以解决问题但似乎不起作用 awk if a 1 0
MongoDB：在没有并行性的情况下使用 MapReduce 有什么意义？

Quoting http www mongodb org display DOCS MapReduce MapReduce Parallelism http www mongodb org display DOCS MapReduce Ma
在 __device/global__ CUDA 内核中动态分配内存

根据CUDA 编程指南 http developer download nvidia com compute cuda 3 2 prod toolkit docs CUDA C Programming Guide pdf 第 122 页可
将文本文件转换为逗号分隔的字符串

我似乎没有找到与这个问题完全匹配的问题我有一个文本文件每行有一个文本标记没有任何逗号制表符或引号我想根据文件内容创建一个逗号分隔的字符串 Input one two three Output one two three 我正在使用
使用 Scoop 编程 DEAP

我在 python 中使用 DEAP 库来解决多目标优化问题我想使用多个处理器来完成这项任务但是我遇到了一些麻烦为了提供一些背景信息我将 networkx 与 DEAP 结合使用我还定义了适应度函数交叉和变异函数由于某些原因
如何查找出现在括号之间的所有单词？

我有一个文件其中包含括号中的一些单词我想编制一个出现在那里的所有独特单词的列表例如 This is some text This text has some words in parenthesis Sometimes there a
如何“grep”连续流？

可以用吗grep在连续的流中我的意思是有点tail f
Java 中的并行编程

我们如何在Java中进行并行编程有什么特殊的框架吗我们怎样才能让这些东西发挥作用我会告诉你们我需要什么认为我开发了一个网络爬虫它从互联网上爬取了大量数据一个爬行系统无法使事情正常工作因此我需要更多的系统并行工作如果是这种情况
Bash：循环遍历字符串数组后无法读出带空格的字符串

我正在使用循环读取数组的内容该数组包含名为 music 的目录层次结构中的所有目录和文件内容是 find 命令先前输出的字符串这个想法是根据流派艺术家和标题将 directory contents 中每个数组元素的完整目录路径分成子
C# 的快速线程安全随机数生成器

我需要在多个正在运行的线程中快速生成随机浮点数我尝试过使用System Random 但它对于我的需求来说太慢了并且它在多个线程中返回相同的数字当我在单线程中运行应用程序时它工作正常此外我需要确保生成的数字在 0 到 100 之
不要将连续匹配的上下文与 grep 合并

如果我跑grep C 1 match在以下文件上 a b match1 c d e match2 f match3 g 我得到以下输出 b match1 c e match2 f match3 g 正如您所看到的由于连续匹配 match2
mclapply 调用应该嵌套吗？

正在筑巢parallel mclapply是个好主意吗 require parallel ans lt mclapply 1 3 function x mclapply 1 3 function y y x unlist ans Outpu
lambda 表达式是多线程的吗？

lambda 表达式是多线程的吗假设当你将数学公式编写为 lambda 方法时当你将其传递给另一个方法时它会是多线程的吗不是100 清楚你问的是什么您是否想问 lambda 是否自然地在不同的线程上运行如果是这样则它们只是 S
如何让“grep”从文件中读取模式？

假设有一个很大的文本文件我只想打印与某些模式不匹配的行显然我可以使用egrep v patter1 pattern2 pattern3 现在如果所有这些模式都在一个文本文件中怎么办最好的制作方法是什么egrep从文件中读取模式 g
OpenMP：无法并行化嵌套 for 循环

我想将循环与其中的内循环并行化我的代码如下所示 pragma omp parallel for private jb ib shared n Nb lb lastBlock jj W WT schedule dynamic private
满足条件时终止所有进程

我正在使用星图来运行测试功能当进程首次找到排列 5 2 4 3 1 时终止所有进程的最佳最安全方法是什么 import multiprocessing as mp import time def testing lts code st
如何 git grep 仅一组文件扩展名

如何执行 git grep 并将检查的文件限制为一组文件我希望能够 grep cpp 和 h 文件的内容来查找 MyFunc 例如 git grep MyFunc hc 但是这也匹配 c 文件和 cs 文件 Use git grep M
Unix 命令列出包含字符串但*不*包含另一个字符串的文件

如何递归查看包含一个字符串且不包含另一个字符串的文件列表另外我的意思是评估文件的文本而不是文件名结论根据评论我最终使用了 find name html exec grep lR base maps xargs grep L ba
调用许多网络服务的最佳方式？

我有 30 家子公司每家都实施了他们的 Web 服务使用不同的技术我需要实现一个Web服务来聚合它们例如所有子公司的Web服务都有一个名为的Web方法GetUserPoint int nationalCode 我需要实现我的网络服

随机推荐

当我按回车键或在文本字段外部单击时，如何删除文本字段焦点？（SwiftUI、MacOS）

当我按回车键或在文本字段外部单击时如何删除文本字段焦点请注意这是 SwiftUIMacOS 如果我这样做 import SwiftUI struct ContentView View State var field1 String T
Hive：选择 AS 和分组依据

我有一个 Hive 查询例如 SELECT Year Month Day Hours Minutes cast cast Seconds as int 15 as int 15 AS secondMod Count AS PerCount
XMLHttpRequest 返回错误编码的字符

我使用 XMLHttpRequest 来读取 PDF 文档http www virtualmechanics com support tutorials spinner Simple2 pdf http www virtualmechani
无法执行目标 org.apache.maven.plugins:maven-clean-plugin:2.4.1

我正在做一个maven项目我的IDE是Eclipse 我无法掌握的是当我在Eclipse中使用 clean X 时它会报告以下错误 Apache Maven 3 0 4 r1232337 2012 01 17 16 44 56 0800
将 Emacs AUCTeX 与 Sumatra PDF 同步

有了我的这些行init el我能够将 Emacs LaTeX 缓冲区与 Sumatra 同步 setq TeX source correlate mode t setq TeX source correlate method synctex
为什么我会出现 Keras 形状不匹配的情况？

我正在遵循一个针对初学者的 Keras mnist 示例我尝试更改标签以适合我自己的数据该数据有 3 个不同的文本分类我正在使用 to categorical 来实现这一点形状对我来说看起来不错但 fit 会出现错误 train
查找数组中长度为 k 的所有子集

给定一组 1 2 3 4 5 n 对于 n 个元素我们需要找到长度为 k 的所有子集例如如果 n 4 且 k 2 则output将会 1 2 1 3 1 4 2 3 2 4 3 4 我什至不知道如何开始我们不必使用内置的库函数如
你怎么会忘记 Laravel 中缓存的 Eloquent 模型呢？

关于 Laravel 的理论问题在这里所以我要做的缓存示例是 Article with comments gt remember 5 gt get 理想情况下我希望有一个文章更新事件当该模型的实例已缓存的 ID 更新时我想忘记该
存在哪些 ASP.NET MVC 示例项目？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
混合语言框架

我有一个用 Objective C 编写的框架我们称之为 MyKit 我用一些 Swift 类对其进行了扩展我正在尝试使用以下文档来理解它 https developer apple com library ios documentat
OpenGL ES 片段着色器可以更改片段的深度值吗？

OpenGL ES 2 0 中的片段着色器可以更改像素的 Z 值深度吗在 OpenGL ES 2 0 中这是如何实现的 No gl FragDepth 这是 GLSL 桌面版本的一部分在 OpenGL ES 中不存在但是您可以检
NHibernate 将类属性映射到行而不是列

是否可以映射一个类其中每个属性存储为表中的行而不是列该场景是我们将全局选项保存到数据库的情况我们将选项存储在选项类中每个选项都有一个属性即展开菜单退出时保存等我们不想将每个选项存储在其自己的表列中而是希望有一个表其
如何获取包含占位符的属性的原始值？

我试图在我的 properties 文件之一中定义以下属性 personExpression person surname 然后由配置类读取 Configuration public class TemplateConfig Autowir
在 Chrome 扩展程序中获取 JSON

我的 chrome 扩展有一个小问题我只是想从另一台服务器获取 JSON 数组但清单 2 不允许我这样做我尝试指定content security policy 但 JSON 数组存储在没有 SSL 证书的服务器上那么如果不使用清
更改 varchar 列的最大长度？

我正在尝试将 varchar 列的长度从 255 个字符更新为 500 个字符而不会丢失内容我之前已经删除并重新创建过表但我从未接触过 alter 语句我相信我需要使用它来执行此操作我在这里找到了文档更改表 Transact S
Python——使用 Selenium 打开多个选项卡

我正在使用Python 我正在尝试在 Chrome 上打开两个选项卡每个选项卡都指向不同的网站这是我的代码 from selenium import webdriver from selenium webdriver common ke
将视频添加到 YouTube 上用户最喜欢/喜欢的播放列表

目的是使用 YouTube API 创建一个收藏喜欢按钮当用户单击该按钮时视频将保存到用户的收藏喜欢播放列表中就像您在自己的网站上实施 Facebook Like 按钮时的工作原理一样这本质上是对发布的出色解决方案的后续问题
在 google oauth 后，如何在不使用 webview 的情况下将用户重定向回我的应用程序？

谷歌决定禁止通过 webview 进行 oauth 给我带来了巨大的麻烦迁移到替代方案是一个漫长而困难的过程我目前正在使用建议的 AppAuth 库并且我收到用户抱怨如果不将帐户添加到 chrome 他们的设备这作为据我所知如果
地址簿联系人排序

我有下面的代码我设法从地址簿中列出了姓名和电话号码但如何按名字对其进行排序 ABAddressBookRef addressBookRef ABAddressBookCreateWithOptions NULL NULL abConta
多线程 Grep

我有以下包含 30233088 字符串的大文件 head mystringfile txt GAATGAACACGAAGAA GAATGAACACGAAGAC GAATGAACACGAAGAG GAATGAACACGAAGCA cat

多线程 Grep

多线程 Grep 的相关文章

随机推荐

热门标签