如何拆分文件并并行处理它们，然后将它们缝合回去？ UNIX

2023-12-28

我有一个文本文件infile.txt像这样：

abc what's the foo bar.
foobar hello world, hhaha cluster spatio something something.
xyz trying to do this in parallel
kmeans you're mean, who's mean?

文件中的每一行都将被这个 perl 命令处理到 out.txt 中

`cat infile.txt | perl dosomething > out.txt`

想象一下，如果文本文件有 100,000,000 行。我想并行化 bash 命令，所以我尝试了这样的操作：

$ mkdir splitfiles
$ mkdir splitfiles_processed
$ cd splitfiles
$ split -n3 ../infile.txt
$ for i in $(ls); do "cat $i | perl dosomething > ../splitfiles_processed/$i &"; done
$ wait
$ cd ../splitfiles_processed
$ cat * > ../infile_processed.txt

但是有没有更简洁的方法来完成同样的事情呢？

@Ulfalizer 的答案为您提供了有关解决方案的良好提示，但缺少一些细节。

您可以使用GNU并行 http://www.gnu.org/software/parallel/ (apt-get install parallel在 Debian 上）

所以你的问题可以使用以下命令来解决：

cat infile.txt | parallel -l 1000 -j 10 -k --spreadstdin perl dosomething > result.txt

以下是参数的含义：

-l 1000: send 1000 lines blocks to command
-j 10: launch 10 jobs in parallel
-k: keep sequence of output
--spreadstdin: sends the above 1000 line block to the stdin of the command

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

bash

perl

unix

split

cat

如何拆分文件并并行处理它们，然后将它们缝合回去？ UNIX 的相关文章

如何使用shell脚本从json字符串中grep特定字段值[重复]

这个问题在这里已经有答案了下面是文件中可用的 JSON 字符串我需要从中提取值status在 shell 脚本中预期输出 status success 响应 json eventDate null dateProccessed nul
对目录中的所有文件执行命令

有人可以提供执行以下操作的代码假设有一个文件目录所有这些文件都需要通过程序运行该程序将结果输出到标准输出我需要一个脚本该脚本将进入一个目录对每个文件执行命令并将输出连接到一个大输出文件中例如要在 1 个文件上运行命令 cm
使用 find 命令搜索直到第一个匹配项

我只需要搜索可以在任何地方的特定目录有没有办法运行此命令直到第一个匹配谢谢我现在使用 find noleaf name experiment type d wc l 正如鲁道夫米尔鲍尔 Rudolf M hlbauer 所提到的 qu
Git difftool 未启动外部 DiffMerge 程序

我一直遵循戴夫的博客条目 http www davesquared net 2009 05 setting up git difftool on windows html 链接在此answer https stackoverflow co
如何在 Windows 下向 .sh 脚本传递参数？

我正在尝试在 Windows 下执行 sh 脚本我安装了 Git 它允许我执行 sh 文件但是如果不使用 sh 作为执行前缀我似乎无法传递任何参数我的 sh 文件 echo Test 1 如果我用以下命令执行它 gt sh tes
Linux：在文件保存时触发 Shell 命令

我想在修改文件时自动触发 shell 命令我认为这可以通过注册 inotify 挂钩并调用来在代码中完成system 但是是否有更高级别的 bash 命令可以完成此任务尝试 inotify 工具我在复制链接时遇到问题抱歉但 Git
获取变量的名称作为输入并使用该名称更改变量

我从脚本用户那里获取变量的名称作为第一个参数并将该变量的值回显到控制台 bin bash variablename 1 echo The value of variablename is variablename 这太棒了我无法开始工作
从 php 执行 bash 脚本并立即输出回网页

我有一组 bash 和 Perl 脚本开发在 Linux Box 上部署所需的目录结构可选从svn导出代码从这个源构建一个包这在终端上运行良好现在我的客户请求此流程的 Web 界面例如某些页面上的创建新包按钮将一一调用
如何在shell中输出返回码？

我正在尝试通过调用自定义 shell 脚本sh bin sh c myscript sh gt log txt 2 gt 1 echo 该命令的输出是创建的后台进程的 PID 我想指导 bin sh保存返回码myscript sh到某个文件
使用 su 和 Expect 脚本登录用户时遇到问题

我正在为一个班级制作一个网站您可以使用用户名和密码登录然后它会将您带到一个显示您在班级中的成绩的页面该网站正在运行bash脚本 https github com jduga002 rapache 并将托管在用户已有用户名和密码登录的计
[APUE]fork后父进程和子进程是否共享相同的文件偏移量？

在 APUE 第 8 3 节中fork function 关于父子进程之间的文件共享它说 It is important that the parent and the child share the same file offset 在
客户端浏览器关闭时服务器端 Perl CGI 脚本中断

我已经尝试解决一个小问题很长一段时间了但似乎我无法解决我编写了一个 HTML 页面它在提交表单时调用 perl CGI 脚本该 CGI 在服务器端执行一定数量的任务我让脚本将这些任务的步骤打印到 HTML 页面上的 iframe
为什么我的 Apache2::Log 输出用 \n 替换换行符？

我在 apache2 mod perl 下设置了多个虚拟主机我用的是ErrorLog指令为每个虚拟主机获取单独的错误日志仅当我使用 Apache2 Log 时这才按预期工作警告只会记录到常规错误日志中这样就可以了最后但还存在
分叉/多线程进程|重击

我想让我的代码的一部分更加高效我正在考虑让它分叉成多个进程并让它们一次执行 50 100 次而不是只执行一次例如伪 for line in file do foo foo2 foo3 done 我希望这个 for 循环运行多次我
为什么 $((true == false)) 在 bash 中计算结果为 1？

为什么 bash 有以下行为 echo true false 1 我本以为这会打印0 但它打印1 以下事实使情况变得更加复杂 gt echo true 0 gt echo false 0 gt echo true true 1 gt ech
是否可以创建一个脚本来保存和恢复权限？

我正在使用 Linux 系统需要对一组嵌套文件和目录进行一些权限实验我想知道是否没有某种方法可以保存文件和目录的权限而不保存文件本身换句话说我想保存权限编辑一些文件调整一些权限然后将权限恢复到目录结构中将更改的文件保留在适
通过 sed 使用 unix 变量将数据附加到每行末尾[重复]

这个问题在这里已经有答案了我有一个文件我想使用 SED 将值附加到每行末尾的 unix 变量中我已经通过 AWK 实现了这一点但我想在 SED 中实现像这样的东西我已经尝试过以下命令但它不起作用 sed i s BATCH R
使用 Grep 查找两个短语之间的文本块（包括短语）

是否可以使用 grep 来高亮所有以以下内容开头的文本 mutablePath CGPathCreateMutable 并以以下内容结尾 CGPathAddPath skinMutablePath NULL mutablePath 这两个短
按值和键对哈希进行排序（按顺序）

我正在寻找一种很好的方法来在 Perl 中先按值排序然后再按键排序 Example my userids williams gt Marketing smith gt Research johnson gt Research jones
sh / Bash shell 脚本中 !# (bang-pound) 的含义是什么？

我想了解这个 Scala 脚本是如何工作的 usr bin env bash exec scala 0 object HelloWorld def main args Array String println Hello world arg

随机推荐

使用 LLVM 按参数传递结构

是否可以通过参数传递结构它与 C abi 兼容吗 edit 基本上我希望有一个包含两个成员的 C POD 该结构将是一个胖指针带有一个指针和一个整数并且能够在调用指令中将此结构作为函数参数传递即使在调用 C代码我现在没有使用胖指
是否可以将钱从 PayPal 帐户转入银行帐户或信用卡？

我正在使用未来的贝宝付款方式进行付款我想使用 PayPal 访问令牌将钱从 PayPal 帐户转移到银行或信用卡但我找不到任何正确的方法来做到这一点有什么方法可以吗没有可用于以编程方式自动执行此操作的 API 但您可以从 PayPa
使用雪花连接器获取数据会引发 EmptyPyArrowIterator 错误

我在 python 脚本 plotly dash 应用程序中使用 python Snowflake 连接器今天在我不更改代码的情况下该应用程序停止工作我尝试了一些方法来找出可能出现的问题我什至尝试运行示例代码雪花文档 https
未捕获的 ReferenceError：进程未定义/第 0 行：解析错误

For a simple Create React App https create react app dev project I run npm install Then npm start opens the default web
MongoDB - 使用嵌套字典查找条目

我有一个与 python 一起使用的 MongoDB 我的条目如下所示 a something b something c d something e something f something 我想查询具有特定 d 和 e 值的条目但我
无锁竞技场分配器实现 - 正确吗？

对于一个简单的指针增量分配器它们有正式名称吗我正在寻找一种无锁算法这看起来微不足道但我想得到一些反馈看看我的实现是否正确非线程安全实现 byte head current head of remaining buffer byt
Java全对算法

给定一个整数集合有什么 Java 算法可以给出所有的项对如下所示给定示例集合 1 3 5 我们想要输出 1 1 3 3 5 5 1 3 1 5 3 5 请注意顺序并不重要因此我们需要 1 3 3 1 之一但不能同时两者这应该适
检测 Windows Phone 7 是否连接到桌面 Zune 软件

我已经在 Windows Phone 7 应用程序上工作了几个月并且拥有一组有用的检测标志这些标志用于测试代码是否在模拟器中后台前台线程上或在设计时间看完整列表在这里 http silverlightzxing codeplex
(html) phpmyadmin 中文本字段的所见即所得编辑器

我正在制作一个小型网站我需要谁接手来添加一些内容存储在三个表中到 2013 年 9 月最多将有 500 条记录小东西现在我正在使用 phpmyadmin 但添加文本其中一个表格是一个迷你博客需要基本的 html 技能我确信
Python文件缓存

我正在从文件创建一些对象来自模板 xsd 文件的验证器以将其他 xsd 文件组合在一起并且我想在磁盘上的文件发生更改时重新创建对象我可以创建类似的东西 def getobj fname cache try obj lastloade
L2 取指未命中率远高于 L1 取指未命中率

我正在生成一个综合 C 基准测试旨在通过以下 Python 脚本导致大量指令获取丢失 usr bin env python import tempfile import random import sys if name main fun
Azure 函数-System.Net.Http

我遇到了很多麻烦System Net Http使用 Azure Functions 时的库如果我在门户中创建一个全新的 httptrigger 函数它就可以正常工作不过我想用我自己的预编译汇编 https github com Az
如何在 AngularJS 中使用 JSON 数组？

我在这里想做的是我想使用使用 Spring Restful WebService 生成的 JSON 如下所示 userid 1 firstName kevin lastName buruk email email protected cd
将电子邮件作为服务发送给他人时是否应该使用 Reply-To 标头？

假设我们有一个充当中间人的应用程序允许 A 公司向其客户发送报告 A公司 B公司我 A公司的客户收到报告后我们会向收件人发送电子邮件通知但它们必须来自我们公司的通知电子邮件地址例如电子邮件受保护 cdn cgi l email
内部异常：java.sql.SQLException：无效状态，Connection 对象已关闭

我有一个使用 Eclipse Persistence Services 2 1 1 v20100817 r8050 的 JSF 应用程序有时会收到以下错误 Exception EclipseLink 4002 Eclipse Persis
如果我在 IntelliJ 中创建一个简单的客户端服务器应用程序，它应该如何工作？

创建客户端服务器应用程序 serversocket 时我会创建 2 个单独的项目还是可以在单个项目中执行此操作我对这将是什么类型的项目感到有点困惑并且对如何启动客户端和服务器感到更加困惑或者我必须手动启动终端并执行罐子这将是一个服
Python 在 Android 上有哪些限制？

我正准备开始一点 Android 开发需要选择一种语言我了解 Python 但必须学习 Java 我想了解那些在 Android 上使用 Python 的人有哪些限制另外与 Java 相比有什么好处吗 Andrew 提到的大部分观点
Android 使用捆绑包从一个活动发送数据到另一个活动

我必须活动AnswerQuestion java and SendAnswerToServer java 我想将数据从第一个活动发送到另一个活动在 AnswerQuestion 活动中我这样写 Bundle basket new Bund
使用 SQL 的百分位数

我的数据集中有 3 列 Monetary Recency 频率我想使用 SQL 创建另外 3 个列例如 M P R Q F Q 其中包含货币新近度和频率每个值的百分位值先感谢您 Customer ID Frequency Recen
如何拆分文件并并行处理它们，然后将它们缝合回去？ UNIX

我有一个文本文件infile txt像这样 abc what s the foo bar foobar hello world hhaha cluster spatio something something xyz trying to d

如何拆分文件并并行处理它们，然后将它们缝合回去？ UNIX

如何拆分文件并并行处理它们，然后将它们缝合回去？ UNIX 的相关文章

随机推荐

热门标签