awk 中的并行处理？

2024-04-24

awk 逐行处理文件。假设每行操作不依赖于其他行，有没有办法让 awk 一次并行处理多行？是否有其他文本处理工具可以自动利用并行性并更快地处理数据？

唯一尝试提供 awk 并行实现的 awk 实现是并行 awk http://code.google.com/p/parallel-awk/people/detail?u=john.david.duncan但现在看来这个项目已经死了。

否则，并行化 awk 的一种方法是将输入分成块并并行处理它们。然而，分割输入数据仍然是单线程的，因此可能无法实现性能增强目标，主要问题是标准split如果不读取每一行，命令就无法在行边界处分割。

如果您有可用的 GNU split，或者支持的版本-n l/*选项，这是一种并行处理文件的优化方法，假设您有 8 个 vCPU：

inputfile=input.txt
outputfile=output.txt
script=script.awk
count=8

split -n l/$count $inputfile /tmp/_pawk$$
for file in /tmp/_pawk$$*; do
    awk -f script.awk $file > ${file}.out &
done
wait
cat /tmp/_pawk$$*.out > $outputfile
rm /tmp/_pawk$$*

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

awk

batchprocessing

awk 中的并行处理？的相关文章

列，宽度参数不起作用

我在工作中运行 REHL7column V at column from util linux 2 23 2 我有 csv 文件其中包含一些带有长字符串的列我想将 csv 作为表格查看并限制列宽因为我通常对抽查长字符串不感兴趣 c
将具有不同列的大数据文件合并为一个大文件

我有 N 个制表符分隔的文件每个文件都有一个标题行说明列的名称有些列是所有文件共有的但有些列是唯一的我想将所有文件合并成一个包含所有相关标头的大文件 Example gt cat file1 dat a b c 5 7 2 3 9
awk -cut 如何删除带有字段分隔符的第二列

我有一个 csv 文件其中的数据如下 o 022344527 o lonyfoe o Joe o Joe o Otieno 我正在尝试删除第二列 Output o lonyfoe o Joe o Joe o Otieno 有任何想法吗这
在特定数量的分隔符后添加 '\n'

我怎样才能添加一个 n每四次之后 CSV 文件中的分隔符使用 bash 输入文件示例 aaaa bbbbbb cccc ddddd eeee ffff gggg hhhh iii jjjj kkkk llll 需要输出 aaaa bbbb
检查文件中是否存在所有多个字符串或正则表达式

我想检查一下是否all我的字符串存在于文本文件中它们可以存在于同一行或不同行上部分匹配应该没问题像这样 string1 string2 string3 string1 string2 string1 string2 string3 s
在awk中转换日期格式，一行包含2个日期和1个ip

我有以下几行 192 168 1 200 Feb 24 10 22 14 2014 GMT Aug 24 10 22 14 2014 GMT 我想用 awk 或其他东西将它转换成这一行 2014 02 24 2014 02 24 192
awk 求和多列

如何计算所有单独列 115 列的总和输入 txt 1st 2nd 3rd 4th 5th Till 115thColumn 51 34 27 67 88 99 56 39 32 72 93 104 66 49 42 82 103 114
如何检查列的值是否位于其他文件中两列的值之间并从 Unix 中的列中打印相应的值？

我有两个文件要比较我找到了如何比较列并根据条件进行打印我手头的问题是我必须检查 file1 中的 column 2 的值是否位于 file2 中定义为两列范围 col 2 col 3 的值之间如果这是真的那么我应该在 file1
批量执行R脚本

我无法从 Windows 命令行获取脚本输入以下命令 C Program Files RStudio bin rstudio exe CMD BATCH vanilla slave E myfile R 打开 Rstudio 和相关脚本
使用 join/awk/sed 合并 CSV 文件

您能帮我找到 bash 命令该命令会将以下 cvs 文件 template csv file1 csv file2 csv file3 csv fileX csv 加入合并到 ouput csv 中吗对于 template csv 中
使用 awk（或熟悉的）将多行合并为 1 行

我需要将 nmap 输出中的多行合并为一行 FROM Nmap scan report for example com 22 tcp open ssh 80 tcp open http 111 tcp open rpcbind 1720 t
匹配两个不同文件中最接近的值并打印特定列

大家好我有两个文件每个文件都有 N 列和 M 行 File1 1 2 4 6 8 20 4 8 10 12 15 5 7 9 11 File2 1 a1 b1 c5 d1 2 a1 b2 c4 d2 3 a2 b3 c3 d3 19 a
使用 awk 对单独行上的多个字段进行数学运算

我一直在对 3 字段 x 2 行文件进行一些数学运算如下所示 3216 01 2724 81 1708 25 1762 48 617 436 1650 79 我的问题是如何引用第一行的第一个字段并在同一计算中引用第二行的第一个字段为了完
如何使用 awk 将一组重复的行转置为列

我有一个文本文件其中包含 7 列数据格式如下 18030 AAJ51 FTO rs9939609 C 30090620 10 A T 18030 AAJ51 CAT rs1001179 C 11468118 10 C C 18030 A
比较不同文件中的列并打印那些不匹配的列

我有两个文件 file1 和 file2 我想将 file1 的几列 1 2 3 和 4 与 file2 的几列 1 2 3 和 4 进行比较并打印 file2 中与 file1 中任何行都不匹配的那些行 E g file1 aaa bb
使用 awk 添加列。这个 awk 命令有什么问题？

我想将两列添加到大约 10 000 列的文件中我想在每行插入 nr 22 作为第一列然后我想要将原始第一列作为第二列然后作为第三列我想要插入第 nr NR 行之后我想要打印其余的原始列我想我可以用下面的 awk 行来做到这一点 a
如何格式化 .CSV 文件的日期字段并在字符串字段中包含多个逗号

我有一个 CSV 文件 file csv 其数据全部用双引号引起来文件的示例格式如下 column1 column2 column3 column4 column5 column6 column7 Column8 Column9 Colu
Bash 脚本问题

我可以很好地运行这个命令并得到我想要的输出 ifconfig eth0 grep HWaddr awk print 5 但是当我将命令设置为变量并打印该变量时出现错误 CASS INTERNAL ifconfig eth0 grep
创建带小数秒的时间戳

awk可以使用 strftime 函数生成时间戳例如 awk BEGIN print strftime Y m d H M S 2019 03 26 08 50 42 但我需要一个带有小数秒的时间戳最好是纳秒 gnu date可以用 N
使用 Sed 或 Awk 进行数据转换 - 名称到标题

我有以下格式的数据 APP OWNER hari APP AREA Work Business Area AUS APP ID 124080 APP OWNER ari APP AREA Work AUS APP ID 124345 我希望

随机推荐

MATLAB：让audioplayer()在函数结束后继续播放

我正在使用使用以下子函数的代码 function playTone duration toneFreq Generate a tone samplesPerSecond 44100 the bit rate of the tone y si
未安装分发证书/私钥

使用 Xcode 9 1 构建 iOS 应用程序后我想将其存档并将其上传到 appStore 进行 beta 测试但点击按钮后出现以下问题Upload to the App Store 并选择Automatically manage s
在 mvc3 中公开实体或 DTO 以查看的最佳实践是什么？

我创建了自己定制的大量架构包括针对不同技术的 n 层目前正在使用 asp net mvc 框架进行 n 层架构问题是我在数据访问层有实体框架由于实体将拥有所有关系元数据和导航属性因此它变得更重我觉得直接通过 mvc 视图公开这些
在俄罗斯方块项目中添加其他形状。循环逻辑辅助

我正在创建一个俄罗斯方块克隆作为个人项目以帮助我更好地绘制图像移动图像以及学习碰撞检测一切都很顺利但我对让程序在第一个停止移动时向框架添加新的方块形状背后的逻辑感到困惑到目前为止我使用随机数生成器随机创建四边形并将其添加到框架
Owin Context 每个请求使用单个实例

app CreatePerOwinContext DataContext Create 我有上面的行来创建一个数据上下文当我启动一个新的 MVC 5 项目时该代码随项目一起提供同时我使用 autofac 在我的依赖注册器中为每个请求
Dia：图表编辑器：盒子对象的限制？

如标题所示我尝试为 hte 3d 图形引擎 ogre3d 开发尽可能少的方案问题是大图方案 Ogre Root 类需要相当多的从它下降的箭头用关系箭头连接框的模型是它们只能通过边界周围的特定点称为关节或其他东西进入退出但现
使用像 FILE* 这样的 C 字符串

我有一个 C 函数可以从 a 中读取字符流FILE 我怎样才能创建一个FILE 在这种情况下从字符串中 Edit 我认为我原来的帖子可能具有误导性我想创建一个FILE 来自文字字符串值因此结果FILE 会表现得好像某处确实有一个包含该
可以在 JavaScript 中强制打印机设置（纸张尺寸）吗？

我需要将网络应用程序中的页面打印到 8 x 4 索引卡上 IE 不会将打印设置从一份打印保存到下一份打印那么有没有办法以编程方式强制打印设置看看这个 CSS3 示例http www w3 org TR css3 page size ht
java.lang.IllegalArgumentException：找不到 id 0x7f0c007b 的视图

我尝试启动一个应用程序项目现在出现以下错误我从旁边找到的答案中尝试了很多但没有发现我的错误这是输出 E AndroidRuntime FATAL EXCEPTION main Process de christian heinisc
Meteor.WrapAsync 不返回值

我一直在努力工作Meteor WrapAsync我读过了Meteor wrapAsync 语法 https stackoverflow com questions 26058205 meteor wrapasync syntax回答这个视频
如何保护自己免受内存消耗失控导致电脑崩溃的情况？

我时不时地发现自己做了一些相当愚蠢的事情导致我的程序分配它可以获得的所有内存然后分配一些内存过去这种情况会导致程序因内存不足错误而很快死掉但现在 Windows 会不遗余力地将这些不存在的内存提供给应用程序而且实际上显然已经
如何查看JVM中JIT编译的代码？

有什么方法可以查看 JVM 中 JIT 生成的本机代码吗一般用法正如其他答案所解释的您可以使用以下 JVM 选项运行 XX UnlockDiagnosticVMOptions XX PrintAssembly 根据特定方法进行过滤您
反应 for 循环

我正在学习 JavaScript React 我正在尝试为 React 网站上的 tic tac toe 示例创建一个简单的 for 循环但到目前为止它还存在问题奇怪的是有几个映射示例但没有 for 循环示例无论如何对于以下内容
通用 .NET 类中的 public static (const)

是否有语法技巧可以在不指定临时类型的情况下获取泛型类中的常量 public class MyClass
如何在WPF中启动其他程序，例如Windows窗体process.start

我在 Windows 窗体中使用 process start 来启动其他程序但现在我想使用 wpf 来启动它但我不知道如何以及与它等效的是什么
Paypal：客户端身份验证失败

尝试让我的 paypal REST api 网站上线它在沙箱模式下运行良好并具有经过验证的传输当我将沙箱切换为实时客户端 ID 和密钥时出现错误 error invalid client error description Clie
Azure Functions不生成extensions.json

我有一个具有多种功能的 Azure Functions 项目由服务总线和 Blob 存储触发他们已经构建并部署到 azure Fine 几个月了某物最近发生了这样的事情当您单击该函数时它们不再从我的构建计算机进行部署并在 Azu
FBSDKLog：在 Facebook SDK 初始化之前无法启动 FBSDKGraphRequestConnection

我只是在我的 iOS 应用程序中使用 FBSDKCoreKit 8 1 0 最新使用 Facebook Analytics 此错误消息不断淹没我的日志 FBSDKLog FBSDKGraphRequestConnection cannot
Django 模板上的 Unicode 字符串显示

我正在使用 django v1 5 我将渲染一个名为 foobar 的变量它是一个 json obj 包含 unicode 字符串 def home request import json foo name u 赞我们一下 bar jso
awk 中的并行处理？

awk 逐行处理文件假设每行操作不依赖于其他行有没有办法让 awk 一次并行处理多行是否有其他文本处理工具可以自动利用并行性并更快地处理数据唯一尝试提供 awk 并行实现的 awk 实现是并行 awk http code googl

awk 中的并行处理？

awk 中的并行处理？ 的相关文章

随机推荐

热门标签

awk 中的并行处理？的相关文章