使用 GNU Parallel 和 Split

2024-04-05

我正在将一个相当大的文件加载到 postgresql 数据库中。为此，我首先使用split在文件中获取较小的文件（每个 30Gb），然后我使用以下命令将每个较小的文件加载到数据库中GNU Parallel and psql copy.

问题是大约需要 7 个小时来分割文件，然后开始为每个核心加载一个文件。我需要的是一种讲述的方式split每次完成写入文件时将文件名打印到 std 输出，以便我可以将其通过管道传输到Parallel然后它开始加载文件split写完吧。像这样的事情：

split -l 50000000 2011.psv carga/2011_ | parallel ./carga_postgres.sh {}

我已阅读split手册页，我找不到任何东西。有没有办法做到这一点split或者任何其他工具？

您可以让并行进行分割：

<2011.psv parallel --pipe -N 50000000 ./carga_postgres.sh

请注意，手册页建议使用--block over -N，这仍然会在记录分隔符处分割输入，\n默认情况下，例如：

<2011.psv parallel --pipe --block 250M ./carga_postgres.sh

Testing `--pipe` and `-N`

以下测试将 100 个数字的序列拆分为 5 个文件：

seq 100 | parallel --pipe -N23 'cat > /tmp/parallel_test_{#}'

检查结果：

wc -l /tmp/parallel_test_[1-5]

Output:

 23 /tmp/parallel_test_1
 23 /tmp/parallel_test_2
 23 /tmp/parallel_test_3
 23 /tmp/parallel_test_4
  8 /tmp/parallel_test_5
100 total

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 GNU Parallel 和 Split 的相关文章

拆分具有多行文本和单行文本的行

我试图弄清楚如何拆分数据行其中行中的 B C D 列包含多行而其他列不包含多行我已经弄清楚如何拆分多行单元格如果我将这些列复制到新工作表中手动插入行然后运行下面的宏仅适用于 A 列但我在编码时迷失了休息 Here s wha
如何将命令作为参数传递给 ssh [重复]

这个问题在这里已经有答案了我的需要是让这个命令起作用 sshpass p XXXX ssh oStrictHostKeyChecking no email protected cdn cgi l email protection sudo
反转java String.split()效果的方法？ [复制]

这个问题在这里已经有答案了我正在寻找一种将字符串数组组合成分隔符的方法细绳与 split 相反在我尝试自己编写之前想询问一下论坛因为 JDK 拥有一切据我所知 JDK 中没有任何方法可以实现这一点阿帕奇公共语言 http co
规范化 solaris 上的路径名

在 GNU 系统上我只会使用readlink f SOME PATH 但 Solaris 没有 readlink 我更喜欢在 bash 中运行良好的程序但如果需要的话其他程序也可以 Edit 到目前为止我想到的最好的方法是使用 cd 和
bash 变量中的 Linux 鞭尾/对话框参数错误

有人可以解释为什么下面的代码不起作用吗我要疯狂地想找出答案 bin bash TEST M1 1 wire Interface ON echo TEST RESULT dialog title Config Modules State c
shell_exec 的输出被截断为 100 个字符

当在 shell 中运行以下命令时 curl F file filename http 192 168 0 1 产生以下输出 Accuracy 0 0 1 classification Accuracy 0 0 1 classificati
为什么我不能将 sed 的输出重定向到文件

我正在尝试运行以下命令 someprogram tee dev tty sed s 2 gt output file 但当我去查看时该文件始终是空白的如果我删除 gt output file从命令末尾我可以看到 sed 的输出没有任
在 Linux 中禁用历史记录 [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案要在 Linux 环境中禁用历史记录我执行了以下命令 export HISTFILESIZE 0 export HISTSIZE 0 u
Godaddy 托管上的 CakePHP 控制台

我一直在努力让我的 CakePHP 网站在 Godaddy 网格托管帐户上运行我的蛋糕应用程序设置是从帐户的子目录托管的并且可以通过子域访问我必须调整我的 htaccess 文件才能使其正常工作现在我需要让 CakePHP 控制台
使用正确的头打印文件名

我想获取当前目录中的文件名使得文件的第一行等于myWord 我想结合find type f命令与 exec选项与head 1 filename但无济于事有没有一些聪明的单行的解决方案来解决这个问题您可以使用find with awk
在bash中，是否有相当于“错误消息”的东西

在 perl 中您可以使用错误消息退出die some msg bash 中是否有等效的单个命令现在我正在使用命令来实现这一点 echo some msg exit 1 你可以很容易地自己推出 die echo 1 gt 2 exit
使用带有curl 的内部字段分隔符

当我做 ls IFS l 我得到了我期望的输出当我做 curl IFShttp www google com 我不我是否误解了内部字段分隔符如何在不使用任何空格字符的情况下运行curl 命令您需要将变量放在大括号内否则 shell
awk 子串单个字符

这是columns txt aaa bbb 3 ccc ddd 2 eee fff 1 3 3 g 3 hhh i jjj 3 kkk ll 3 mm nn oo 3 我可以找到第二列以 b 开头的行 awk if substr 2 1 1
.profile 无法从 Mac 终端运行

我有一个 profile 文件我正在终端中读取并使用别名但在某些时候别名由于没有明确的原因而停止工作其他命令仍在工作为了快速修复我删除了 rm 并在用户目录中重新创建了 profile 文件我可以看到至少在该目录中没有 ba
git 别名中的 AWK 语句

我正在尝试创建一个 git 别名来以特定格式打印日志中的所有拉取请求但是我在使用 AWK 删除双空格时遇到问题这是使用以下命令的 git log 的输出 git log merges grep pull request pretty
Pure Bash 替换捕获组

我有这个示例字符串 test string 13A6 该字符数字可以是从 0 到 9 以及从 A 到 F 我想要这个输出 1 3 A 6 我有这个工作 result echo test string sed s g 我想在没有 sed 的
将相对符号链接转换为绝对符号链接

如何在 bash 中递归地将相对符号链接转换为绝对符号链接 ln sf readlink f link link
bash 行长度限制从何而来？

在运行 Bash 4 4 19 标准安装的 Solaris 11 上输入行似乎有 256 个字符的限制我想了解这个限制从何而来我浏览了手册页但没有找到任何解决此问题的内容仅当未使用 readline 库时才会发生这种情况在下面
匹配模式后添加行[重复]

这个问题在这里已经有答案了我有一个文件说test具有以下值 Linux Solaris Fedora Ubuntu AIX HPUX 如何在匹配 AIX 的行后面添加一行系统主机名如果我做 echo hostname gt gt tes
在 bash 脚本中提取 XML 值 [重复]

这个问题在这里已经有答案了我正在尝试从 xml 文档中提取一个值该文档已作为变量读入我的脚本中原始变量 data is

随机推荐

Java REST 客户端的 swagger-codegen 标头参数

我正在使用 swagger codegen 为我的 REST API 之一生成 Java REST 客户端 REST API 采用可选的标头参数客户端中生成的方法有一个采用标头的附加参数我希望生成的方法在方法签名中没有标头参数我已阅读
Bootstrap .dropdown li背景颜色

这是我的网站 http defend foreclosure com index html http defend foreclosure com index html 当我将鼠标悬停在法律上方时我无法更改法律下拉列表中的任何颜色
HTML5 音频播放列表 - 如何在第一个音频文件结束后播放第二个音频文件？

我们怎样才能让html5中的一些音频在另一个音频播放完后播放呢我尝试过使用jquerydelay 功能但它根本不起作用是否可以使用pause 在 html5 音频中用定时器代替例如 pause 500 function 这是一个 J
如何在具有AllowPartiallyTrustedCallersAttribute 的库程序集中实现.NET 4 中的Exception.GetObjectData？

我有一个标有的程序集AllowPartiallyTrustedCallersAttribute其中包含自定义异常类我想通过覆盖使其可序列化GetObjectData 借助 NET 4 GetObjectData已成为一个SecurityC
如何在spyder IPython控制台中显示？

我正在尝试运行代码 perm PermutationImportance clf fit X test y test eli5 show weights perm 了解模型中哪些特征最重要但输出是
如何根据两个列表获取自定义元组的计数

请帮助我使用 from collections import Counter 或任何其他最快的方式获取 PYTHON 中列表 SS1 中列表 SS2 的计数器 SS1 1 2 3 4 5 1 2 3 4 6 1 2 3 5 6 1 2 4
Python Trie：如何遍历它来构建所有单词的列表？

我在学习 python 时创建了一个 trie 树这是真实的输出 a b c b a x r z z h e l l o 我无法列出特里树中的所有单词显然我不明白简单的事情下面是我的代码用于创建特里树并添加到特里树以及检查特里树中是
JavaScript 在新选项卡中打开，而不是在 Chrome 浏览器中打开窗口

我在用 window open Download php 该文件会在所有浏览器的新选项卡中打开但在 Chrome 中它会在新窗口中打开所以我尝试过 window open Download php blank window open
使用复制命令和清单文件将 parquet 格式文件加载到 Amazon Redshift 时出错

我正在尝试使用清单文件加载镶木地板文件并出现以下错误查询 124138由于内部错误而失败文件 https s3 amazonaws com sbredshift east data 000002 0 https s3 amazonaws
ContextMenu 命令绑定未随数据源更新

在我的 WPF 应用程序中有一个可以从中选择项目的列表然后所选项目将显示在 ContentControl 中以进行进一步交互根据所选项目的类型可以有多个在 ContentControl 中使用适当的 DataTemplate 到
使用 Browser.Current 在 C# 中通过 Baseclass.Contrib.Specflow 调用浏览器

我目前正在尝试使用 Selenium Grid 2 在多个浏览器上运行自动化测试在我的研究过程中我遇到了使用 Baseclass Contrib Specflow 它使我能够将浏览器用作功能文件中的标签而无需在我的主驱动程序类中声明它
针对每个构建变体配置 Firebase Analytics + Google 跟踪代码管理器 (GTM)

在 Firebase Analytics 可用之前我们使用多风格多构建类型的 Android Gradle 项目设置并为每个构建变体提供不同的 GTM 容器 ID 如下所示 TagManager getInstance context
未捕获的类型错误：无法在 jquery 验证中调用未定义的方法“addMethod”

嗨我正在使用jQuery JavaScript Library v1 10 2 and jQuery Validation Plugin 1 11 1并得到上述错误代码 validator addMethod fnType functio
Log4Net 以编程方式检查 Appender 过滤器的 IsEnabledFor

我如何以编程方式检查IsEnabledFor is true对于某个附加器过滤器这是我的配置
以编程方式向 PayPal 收取定期付款费用

How to 以编程方式不是通过我们的 PayPal 仪表板手动向我们服务的 PayPal 订户收取非固定金额自动计费的账单每月我会推荐 PayPal 的参考交易来实现您的目的请查看下面的链接了解其详细信息 https devel
如何快速转换大数据帧中的不同时间格式？

我想计算不同时间维度的长度但在处理数据框列中两种略有不同的时间格式时遇到问题原始数据框列大约有一百万行两种格式如示例代码所示混合在一起示例代码 time lt c 2018 07 29T15 02 05Z 2018 07 29T
Python：如何确定子进程子进程已全部运行完毕

我试图检测安装程序何时从 Python 脚本中完成执行具体来说该应用程序是Oracle 10gR2数据库目前我正在将 subprocess 模块与 Popen 一起使用理想情况下我只需使用 wait 方法来等待安装完成执行但是
PHP 向登录/注销用户隐藏/显示菜单项的更简单方法

是否有更简单更有效的方法来隐藏显示登录注销用户的菜单项看来我不必用重复的菜单项再次复制整个菜单菜单项的顺序可能不同如下所示您可以在下面的示例中看到我已添加到陈述 ul class nav navbar nav li class
Spring Kafka中检测broker断开连接

我正在尝试为我的卡夫卡消费者编写健康检查当应用程序启动并运行时我关闭 Kafka 我看到很多 Connection to node 1001 127 0 0 1 9092 could not be established Broker
使用 GNU Parallel 和 Split

我正在将一个相当大的文件加载到 postgresql 数据库中为此我首先使用split在文件中获取较小的文件每个 30Gb 然后我使用以下命令将每个较小的文件加载到数据库中GNU Parallel and psql copy 问题是大

使用 GNU Parallel 和 Split

Testing --pipe and -N

使用 GNU Parallel 和 Split 的相关文章

随机推荐

热门标签

Testing `--pipe` and `-N`