是否可以通过 GNU 并行并行 awk 写入多个文件？

2024-02-29

我正在运行一个 awk 脚本，我想通过 GNU 并行对其进行并行化。

该脚本根据每一行上的值将一个输入文件多路分解为多个输出文件。代码如下：

#!/usr/bin/awk -f

BEGIN{ FS=OFS="\t" }
{
    # bc is the field that defines to which file the line
    # will be written
    bc = $1
    # append line to such file
    print >> (bc".txt")
}

我想通过以下方式使用 GNU 并行对其进行并行化：

parallel --line-buffer --block 1G --pipe 'awk script.awk'

但是，我担心两个 awk 进程同时写入同一个文件时可能出现的竞争情况。是否可能，如果可能，如何在不影响并行性的情况下避免这种情况？

注意。包括我--line-buffer选项，尽管我不确定它是否也适用于 awk 脚本内的文件重定向。它是否也适用于这种情况或仅适用于每个 awk 进程的标准输出？

Example

# Input file
bc1    line1
bc3    line2
bc1    line3
bc2    line4


# Output file bc1.txt
bc1    line1
bc1    line3

# Output file bc2.txt
bc2    line4

# Output file bc3.txt
bc3    line2

您可以通过对不同目录中的输出进行多路分解来实现：

stuff |
  parallel --block 10M --pipe --round-robin \
    'mkdir -p dir-{%}; cd dir-{%}; awk ../script.awk'

或者如果输入是文件，您可以使用--pipepart哪个更快：

parallel --block -1 --pipepart -a bigfile \
  'mkdir -p dir-{%}; cd dir-{%}; awk ../script.awk'

那么就没有竞争条件了。通过合并目录完成：

parallel 'cd {}; ls' ::: dir-* | sort -u |
  parallel 'cat */{} > {}'

如果无法接受合并（也许您没有磁盘空间来容纳 2 个数据副本），则可以使用 fifo。但要做到这一点，你需要知道所有的名字.txt- 提前创建文件，并且您需要一个可以并行运行每个名称一个进程的系统（10000 个名称 = 10000 个进程）：

# Generate names-of-files.txt somehow
# Make fifos for all names in all slots
parallel 'mkdir -p {2}; mkfifo {2}/{1}' :::: \
  names-of-files.txt <(seq $(parallel --number-of-threads) )
# Run the demultiplexer in the background
parallel --block -1 --pipepart -a bigfile \
  'mkdir -p dir-{%}; cd dir-{%}; awk ../script.awk' &
# Start one process per name
# If you have more than 32000 names, you will need to increase the number
# of processes on your system.
cat names-of-files.txt |
  parallel -j0 --pipe -N250 -I ,, parallel -j0 'parcat */{} > {}'

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

bash

file

awk

ioredirection

gnuparallel

是否可以通过 GNU 并行并行 awk 写入多个文件？的相关文章

Bash 方法的返回值总是模 256

我有一个 bash 脚本方法它返回输入值然而返回值始终是模 256 的值我用 google 搜索了一段时间发现this http www tldp org LDP abs html exitcodes html文章说它总是以 25
目录 * 和文件顺序

我需要将目录中的所有文件连接到一个文件但具有指定名称的文件必须位于输出的顶部只是在做cat gt result将按字母顺序连接所有文件有什么办法告诉猫放置文件vars css或任何其他输出的开头现在我只是重命名文件需要首先000 f
如何将 bash 脚本的整个输出保存到文件

我正在尝试将 bash 脚本的整个输出保存到文件中我目前在代码开头有一个参数 ip 地址如下所示 bin bash USAGE Usage 0
如何让“grep -zoP”单独显示每个匹配项？

我有一个此表格的文件 X this is the first match blabla X this is the second match and here we have some fluff 我想提取 X 之后和相同标记之间出现的所有
在 Linux 中禁用历史记录 [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案要在 Linux 环境中禁用历史记录我执行了以下命令 export HISTFILESIZE 0 export HISTSIZE 0 u
bash 支持字边界正则表达式吗？

我试图在再次添加该单词之前匹配列表中是否存在该单词以避免重复我正在使用 bash 4 2 24 并尝试以下操作 foo bmyword b also foo
如果文件为空，如何跳过文件行

python 3中的程序这是我的第一个涉及文件的程序我需要忽略注释行以开头和空行然后拆分这些行以便它们可迭代但我不断收到 IndexError 消息指出字符串索引超出范围并且程序在空行处崩溃 import os path
如何使用 PHP 查找目录中的前 5 个文件？

如何使用 PHP 列出按字母顺序排序的目录中的前 5 个文件或目录 Using scandir array slice array filter scandir path to dir is file 0 5 The array filte
在bash中，是否有相当于“错误消息”的东西

在 perl 中您可以使用错误消息退出die some msg bash 中是否有等效的单个命令现在我正在使用命令来实现这一点 echo some msg exit 1 你可以很容易地自己推出 die echo 1 gt 2 exit
如何使用我在 github 中发布的 bash 脚本执行 chsh？

我有一个要点我总是用它来在新服务器上安装我需要的软件包 http gist github com 4372049 http gist github com 4372049 我需要做的就是通过 ssh 在新服务器中输入以下内容 bash c
仅当重复行与模式匹配时才删除它们

这个问题 https stackoverflow com questions 1444406 how can i delete duplicate lines in a file in unix有一个很好的答案说你可以使用awk seen
Bash 解析和 shell 扩展

我对 bash 解析输入和执行扩展的方式感到困惑对于输入来说 hello world 作为 bash 中的参数传递给显示其输入内容的脚本我不太确定 Bash 如何解析它 Example var hello world displaywh
通过特定分隔符删除字符串

我的文件中有几列其中第二列有分隔符我想删除第二列中的第一个第三个和第四个字符串并将第二个字符串留在该列中但我有正常的分隔符空间所以我不知道 input 22 16050075 A G 16050075 A G 22 16050
如何使用 bash 锁定文件

我有一个任务从远程服务器同步目录 rsync av email protected cdn cgi l email protection srv data srv data 为了使其定期运行并避免脚本 reEnter 问题我使用 rsyn
在 Ruby 中创建一个空文件：相当于“touch”？

创建一个的最佳方式是什么emptyRuby 中的文件类似于 Unix 命令的东西 touch https en wikipedia org wiki Touch 28Unix 29 touch file txt FileUtils tou
grep 两个分隔符之间的子字符串

我有很多bash使用的脚本perl内的表达式grep为了提取两个分隔符之间的子字符串例子 echo BeginMiddleEnd grep oP lt Begin End 问题是当我将这些脚本移植到运行的平台时busybox 融合的 g
迭代 bash 脚本中的变量名称

我需要在一堆文件上运行一个脚本这些文件的路径被分配给train1 train2 train20 我想为什么不使用 bash 脚本使其自动执行呢所以我做了类似的事情 train1 path to first file train2 pa
如何在数组中存储包含双引号的命令参数？

我有一个 Bash 脚本它生成存储和修改数组中的值这些值稍后用作命令的参数对于 MCVE 我想到了任意命令bash c echo 0 0 echo 1 1 这解释了我的问题我将用两个参数调用我的命令 option1 without
jq：将对象数组转换为对象

我收到了来自curl的回复格式如下 list value 1 id 12 value 15 id 13 value 4 id 14 给定 id 之间的映射如下所示 12 newId1 13 newId2 14 newId3 我想做这个
添加要在给定命令中运行的 .env 变量

我有一个 env 文件其中包含如下变量 HELLO world SOMETHING nothing 前几天我发现了这个很棒的脚本它将这些变量放入当前会话中所以当我运行这样的东西时 cat env grep v xargs node t

随机推荐

C++ 结构“placement new”有什么用途？

我刚刚了解了名为 placement new 的 C 结构它允许您精确控制指针在内存中指向的位置它看起来像这样 include
EF插入多个相关表

我正在尝试使用 Linq Entity Framework 将数据从 C 应用程序保存到数据库中插入到单个表很简单但我不知道如何将数据插入到三个表中这三个表都通过自增标识互连这是为了刮擦所以我正在拿一个线程及其所有帖子每个话题标
HtmlButton 处理程序在单击时触发两次（当 AutoEventWireup="True" 时）

我有一个 html 按钮见下文当单击并且 AutoEventWireup true 时 Save Click 单击处理程序将被触发两次当 AutoEventWireup False 时它会触发一次为什么会发射两次该按钮没有注册两
JS 编译过程中的参考错误与语法错误

我正在对解释与编译进行一些研究成立本文 https almogad medium com javascript is it compiled or interpreted 9779278468fc其中指出 console log Hell
请求模块抛出 OpenSSL.SSL.Error

我正在使用来自的 REST API泛欧交易所网站 http www euronext com 要进一步我需要验证服务器证书并通过模块请求发送我自己的客户端证书我已经用curl做了一些测试 crt pem文件都被接受了但请求仍然抛出 D
QTextDocument、QPdfWriter - 如何缩放输出

我创建了一个QTextDocument里面有一张桌子现在我尝试使用将其渲染为 PDF 格式QPdfWriter Qt 5 2 1 我就是这样做的 QPdfWriter pdfWriter output QPainter painter p
为什么这段代码可以在 Python 3.6 上运行，但不能在 Python 3.7 上运行？

In script py def f n memo 0 0 1 1 if n not in memo memo n sum f n i for i in 1 2 return memo n print f 400 python3 6 scr
有没有办法检查本机 Javascript 函数是否经过猴子修补？

例如我在某个网站上加载了一个脚本我想知道 JSON parse stringify 是否没有经过猴子修补我注意到如果我在 Chrome FF 中的函数上使用 toString JSON stringify toString 然后我回来
在 coefplot 中仅绘制交互项

在 Stata 中进行回归后我尝试仅绘制交互项的系数我无法使用社区贡献的命令coefplot 这是一个可重现的示例和我尝试的解决方案 sysuse auto clear reg price foreign i turn foreign
是否可以在 gcc pure C 中取消 const typeof ？

我有一个宏它使用 GCC 的 typeof 创建与宏参数相同类型的变量问题是如果这个论点有const类型在宏内部创建的变量是const我无法使用它例如 include
Extjs 4：创建 iFrame 窗口

我需要在 Extjs 中创建一个 iFrame 窗口以前在 ExtJS 3 x 中我会这样做 bodyCfg tag iframe But the WindowExtJS 4 的类似乎没有 bodyCfg 关于如何制作 iFrame Ex
为什么我收到有关 cudaMemcpyToArray(...) 已弃用的警告？

这个警告是什么我该如何解决它 warning cudaError t cudaMemcpyToArray cudaArray t size t size t const void size t cudaMemcpyKind is depr
R：填充时间序列值，但仅在过去 12 个月内

我们如何在 R 中填充转发时间序列但前提是最后一个值在过去 12 个月内观察否则不适用样本数据变量是原始数据期望的是期望的结果我们从 2016 年 6 月开始观察 NA 但我们会向前推进我只想这样做 12 个月所以一旦我
Symfony 4 - Webpack Encore bootstrap css 不在输出中

我正在尝试将 Webpack Encore 引入我的 Symfony 4 应用程序来管理 JS 和 CSS 资产我安装了yarn and nodejs Then composer require encore进而yarn install
具有类和结构的命名空间？

如果我能用 D 语言得到嵌套成员就好了所以我有一个不光彩的想法来编码 class Keyboard struct Unused string key1 Wake Up string key2 Sleep string key3 Pow
JSLint 认可的将数字转换为字符串的方法是什么？

我总是通过向数字添加空字符串来将数字转换为字符串 var string 1 然而 JSLint 抱怨这种方法Expected String and instead saw 而且看起来确实有点难看有没有更好的办法我相信 JSLint 批准
Tomcat cookie 无法通过我的 ProxyPass VirtualHost 工作

当使用 ProxyPass 将端口 80 上的流量重定向到通过 Tomcat 托管的 Web 应用程序时我在获取 cookie 时遇到一些问题我启用 cookie 的动机是摆脱附加到 URL 的 jsessionid 参数我已在 ME
相机意图不适用于三星 Galaxy S3

我有一个活动其中我为用户提供了单击相机中的图像的选项然后我将该图像存储在字节数组和数据库中但是我的代码似乎不适用于 Samsung Galaxy S3 下面是代码相机调用意图 if i 0 Intent cameraIntent n
有没有更有效的方法来使用 angularjs 序列化表单？

有没有办法序列化 angularjs 的函数我的帖子现在看起来像这样 scope signup submit function var formData username scope username full name scope fu
是否可以通过 GNU 并行并行 awk 写入多个文件？

我正在运行一个 awk 脚本我想通过 GNU 并行对其进行并行化该脚本根据每一行上的值将一个输入文件多路分解为多个输出文件代码如下 usr bin awk f BEGIN FS OFS t bc is the field that d

是否可以通过 GNU 并行并行 awk 写入多个文件？

Example

是否可以通过 GNU 并行并行 awk 写入多个文件？ 的相关文章

随机推荐

热门标签

是否可以通过 GNU 并行并行 awk 写入多个文件？的相关文章