使用 Perl 分割大文本文件

2024-05-11

我必须将一个 1.8Tb 的大文本文件分成两部分（我只需要文件的后半部分）。该文件有\n作为记录分隔符。

I tried

perl -ne 'print if $. >= $line_to_start_from' test.txt > result.txt

在一个小得多的 115Mb 测试文件上，它完成了工作，但花了 22 秒。

对 1.8Tb 文件使用此解决方案将花费不合理的长时间，所以我的问题是 Perl 中是否有一种方法可以分割大文件而不循环它们？

默认情况下，perl 一次读取一行文件输入。如果你的文件包含很多相对较短的行（我假设它确实如此），perl 将比像这样的实用程序慢很多split一次从文件中读取更大的块。

为了进行测试，我创建了一个约 200MB 的文件，其中包含很短的行：

$ perl -e 'print "123\n" for( 1 .. 50_000_000 );' >file_to_split

split可以相当合理地处理它：

$ time split --lines=25000000 file_to_split half

real    0m1.266s
user    0m0.314s
sys     0m0.213s

而简单的 Perl 方法要慢得多：

$ time perl -ne 'print if $. > 25_000_000' file_to_split >second_half

real    0m10.474s
user    0m10.257s
sys     0m0.222s

但您可以使用$/使 perl 一次读取多行的特殊变量。例如一次 16 kb 数据：

my $CHUNK_SIZE = 16 * 1024;
my $SPLIT_AT_LINE = 25_000_000;

{
    local $/ = \$CHUNK_SIZE;
    my $lineNumber = 0;
    while ( <> ) {
        if ( $lineNumber > $SPLIT_AT_LINE ) {
            # everything from here on is in the second half
            print $_;
        }
        else {
            my $count = $_ =~ tr/\n/\n/;
            $lineNumber += $count;
            if ( $lineNumber > $SPLIT_AT_LINE ) {
                # we went past the split, get some of the lines from this buffer
                my $extra = $lineNumber - $SPLIT_AT_LINE;
                my @lines = split m/\n/, $_, $count - $extra + 1;
                print $lines[ -1 ];
            }
        }
    }
}

如果您不关心超出几行的分割，则可以使此代码更加简单。这使得 perl 在合理的时间内完成相同的操作：

$ time perl test.pl file_to_split >second_half

real    0m0.678s
user    0m0.095s
sys     0m0.297s

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

perl

使用 Perl 分割大文本文件的相关文章

如何在 PHP 中反序列化 Perl Data::Dumper 输出

我在 Perl 中有一个导出变量的结果如下字符串 VAR1 guard gt undef work hand gt undef images gt 1 gt mini height gt 150 width gt 150 extensio
如何在 Perl 中修改 Windows NTFS 权限？

我在 Windows Server 2003 上使用 ActiveState Perl 我想在 Windows NTFS 分区上创建一个目录然后授予 Windows NT 安全组对该文件夹的读取访问权限这在 Perl 中可能吗我必须使
将 stdin/stdout 从执行进程重定向到 Perl 中的管道

我试图让执行子进程中的 STDOUT STDERR 通过 Perl 中的管道返回到父进程我见过的最接近我想做的事情是 http forums devshed com perl programming 6 exec and redirect
Crypt::OpenPGP Symkey 解密失败：无效的密钥 ID

我遇到问题在哪里地穴 OpenPGP https metacpan org module Crypt 3a 3aOpenPGP无法解密 GPG 编码的消息看来我是不是第一个 http www perlmonks org node id 9
我使用 TT（perl 模板工具包）获得额外的 CR

我使用 perl v5 10 在 Windows 7 上 TT v2 22 当我使用 TT 时对于每个源代码行我都会在生成的 html 中获得一个额外的内容CR 源文本 Windows 格式 Some html CR LF 输出文本 S
如何从 Perl 中的文本文件中提取/解析表格数据？

我正在寻找类似的东西HTML 表格提取 http search cpan org dist HTML TableExtract 只是不适用于 HTML 输入而是适用于包含采用缩进和间距格式化的表格的纯文本输入数据可能如下所示 Her
为什么 getElementsByTagName 会出现“无效谓词”错误？

我有以下 XML
如何在perl中使用O_ASYNC和fcntl？

我想使用 O ASYNC 选项当管道可以读取时 SIGIO 的处理程序将运行但以下代码不起作用任何人都可以帮助我吗 bin env perl use Fcntl SIG IO sub print catch SIGIO n my fl
Perl：管理 Windows 上的路径编码

我正在努力处理包含非英文字符的路径 Activestate Perl Windows XP 如何打开写入复制等位于包含希腊语俄语法语重音字符的路径中的文件假设我要将 text txt 文件复制到的目录是 C Documents a
如何绑定值 INSERT INTO mysql perl

我有下面的代码可以工作但我需要知道如何绑定它们以确保安全如果我只是将 new row 替换为并将其放入执行中我收到错误感谢您的帮助 foreach my field account field order new row param
本地“关闭”binmode(STDOUT, ":utf8")

我的脚本开头有以下块 usr bin perl5 w use strict binmode STDIN utf8 binmode STDOUT utf8 binmode STDERR utf8 在某些子程序中当存在其他编码来自远程子程序
如何匹配单引号字符串中的双反斜杠？

我需要区分带有单反斜杠和双反斜杠的字符串 Perl 对它们一视同仁 print n qqq www eee rrr print n qqq www eee rrr 将给出相同的结果 qqq www eee rrr qqq www eee r
在 Perl 中如何打印到变量而不是文件？

如何使用 Perl 打印到变量我已经在一个程序上工作了一段时间它记录了它的迭代的以非常详细的方式取得进展 print loghandle some message 但是我还想有选择地将一些消息打印到不同的文件中当然我可以在代码中添
在 Perl 中解析 RSS/Atom 的最佳库是什么？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我注意到XML RSS 解析器 http search cpan org dist XML RSS P
修改排序比较器内的字符串

我有以下代码在排序比较器中它在进行比较之前删除前缀字符串 print for sort a s STRING b s STRING foo a cmp foo b a 尽管比较和顺序是正确的但前缀字符串已从输出中删除以下保留前缀字符
我可以在 VIM 或 Perl 中替换单个正则表达式中的多个项目吗？

假设我有字符串 The Quick Brown Fox Jumps Over the Lazy Dog 我可以用一个正则表达式将其更改为 The Slow Brown Fox Jumps Over the Energy Dog 吗目前我
如何使用 Perl 在 Unix 中获取文件创建时间

如何使用 perl 在 unix 中获取文件创建时间我有这个命令显示文件的最后修改时间 perl MPOSIX le print strftime d b Y H M localtime lstat 9 for ARGV file txt
从具有不同活动 perl 版本的另一个 perl 脚本调用 perl 函数

我们有两个版本的 Active perl 5 6 和 5 24 我们有必须在 Active perl 5 24 版本采用 TLS 1 2 版本上执行的 Web 服务并且需要从 Active perl 5 6 版本调用我们使用的是wi
mod_perl 无法看到 /tmp 中的文件

我有一些 mod perl 代码试图访问 tmp 下的文件但它抛出没有这样的文件或目录错误我在代码中添加了一个 ls al tmp 来查看 Perl 在目录中看到的内容它只给了我和 drwxrwxrwt 2 root root
如何在 Perl 中将多个哈希值合并为一个哈希值？

在 Perl 中我如何得到这个 VAR1 999 gt 998 gt 908 906 0 998 907 VAR1 999 gt 991 gt 913 920 918 998 916 919 917 915 912 914 VAR1 99

随机推荐

内部注册 vs. OpenID vs. Google Friend Connect vs. Facebook Connect vs.（等等）

我正在尝试决定如何允许用户注册我的网站有 openID clickpass facebook connect googlefriendconnect 等或者是老式的内部输入用户名电子邮件密码等简要地看一下如何设置 OpenID
Objective C - 动态属性的respondsToSelector

我目前面临的问题是检查对象 NSManagedObject 的属性是否存在不幸的是方法 MyObject class respondsToSelector selector myProperty 总是返回NO 我认为这是因为CoreDat
TX 未发送至公证服务的情况有哪些？

交易未提交公证服务的情况有哪些尽管进度跟踪器显示公证步骤但我们注意到在某些情况下交易并未真正发送到公证服务例如没有时间窗口的状态创建从 Corda 3 3 开始如果 Tx 没有输入且没有时间窗口则不会将其发送给公证人进行签名
添加 Javascript 按钮来更改 iframe 的内容

我正在尝试创建此页面其中有一个 Iframe 并且我想添加一个按钮来显示 iframe 中的下一页以及一个按钮来显示 iframe 中的上一页我总共有 4 个页面要在名为 1 html 2 html 3 html 4 html 的 i
我应该使用哪个 Linux 发行版作为 Xen 主机？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我为家庭办公室订购了一台服务器我想用 Xen 对其进行分区我认为这将使事情保持干净并且更容易维护我将运行 MySQL PostgreSQL
为什么 MATLAB 本机函数 cov（协方差矩阵计算）使用与我预期不同的除数？

给定一个 M 维和 N 个样本的数据矩阵数据例如 data randn N M 我可以计算协方差矩阵 data mu data ones N 1 mean data cov matrix data mu data mu N 如果我使用原生
查找PID所属的tmux会话

我正在使用 htop 所以看看哪些进程占用了大量内存以便我可以杀死它们我有很多 tmux 会话和很多类似的流程如何检查 PID 位于哪个 tmux 窗格中以便确定我正在杀死我想杀死的东西鉴于PID下面一行是目标 pid 号 tmu
SQL Server - 删除语句增加日志大小

我有一个LOGGIN数据库很大 400 GB 它有数百万行我刚刚跑了一个delete该语句花费了 2 5 小时并删除了可能数百万行 delete FROM DB dbo table where Level not in info erro
R中一张图中的多个条形图

我是 R 初学者我需要创建一个像这样的图表 https i stack imgur com az56z jpg https i stack imgur com az56z jpg 我不知道如何生成整个数据集基本思想是某个外显子 ID 会
传递 oauth 令牌请求的授权标头

我使用java实现oauth来获取未经授权的请求令牌如何传递授权标头中的参数我需要通过 GET request token HTTP 1 1 Host photos example net 80 Authorization OAuth
如何在 GTX 560 及更高版本上使用 OpenGL 进行立体 3D？

我正在使用在 Windows 7 上运行的开源触觉和 3D 图形库 Chai3D 我重写了该库以使用 Nvidia nvision 执行立体 3D 我将 OpenGL 与 GLUT 一起使用并使用 glutInitDisplayMode
将数组从控制器传递到视图

I have UIView UI视图控制器在 UIViewController 中我需要能够将项目插入到 6 个整数的固定数组中然后我需要将此数组传递给视图以便它分析该数组并适当地更新屏幕我该怎么做呢我尝试过使用标准 C 数组
为什么在特征中返回“Self”可以工作，但返回“Option”需要“Sized”？

这个特征定义编译得很好 trait Works fn foo gt Self 然而这确实会导致错误 trait Errors fn foo gt Option
Google Map Android API v2 无法在 Play 商店应用程序中显示地图

我正在与Google Map Android API v2在 Android 应用程序中它可以很好地与未签名的应用程序在不同的设备上但是当我签署 apk 并将应用程序上传到 Play 商店时下载的应用程序显示白屏而不是地图您使用什
如何在打字稿中的类方法上强制执行函数类型接口？

许多方法的class我隐含地写着同样的功能类型 https www typescriptlang org docs handbook interfaces html function types 我想要做的是强制执行此函数类型以便我可以明
Javascript 闭包与 PHP 闭包，有什么区别？

JS 中的闭包和 PHP 中的闭包有什么区别它们的工作方式几乎相同吗在 PHP 中编写闭包时有什么需要注意的注意事项吗一个区别是两者如何处理存储执行匿名函数的上下文 JavaScript var a 1 var f function
覆盖 Predef 的隐式转换

我有多个返回 java lang Integer 的方法然后使用 Scala 的 Predef 隐式转换将其隐式转换为 Int 下面是它的编写方式there https github com scala scala blob v2 11
在 SQL Server 中选择条件的值[重复]

这个问题在这里已经有答案了在查询选择中我想显示字段是否满足条件的结果想象一下我有一张名为stock 该表有一列告诉我库存中每种商品的数量我想做的是这样的 SELECT stock name IF stock quantity lt
codeStyleSettings.xml 始终由 Android Studio 修改

使用Android Studio 1 3 2 不断修改 idea codeStyleSettings xml以添加以下部分
使用 Perl 分割大文本文件

我必须将一个 1 8Tb 的大文本文件分成两部分我只需要文件的后半部分该文件有 n作为记录分隔符 I tried perl ne print if gt line to start from test txt gt result txt

使用 Perl 分割大文本文件

使用 Perl 分割大文本文件 的相关文章

随机推荐

热门标签

使用 Perl 分割大文本文件的相关文章