Perl 中大型哈希表的快速加载

2024-04-19

我有大约 30 个文本文件，其结构如下

wordleft1|wordright1
wordleft2|wordright2
wordleft3|wordright3
...

文件总大小约1GB，包含约3200万行单词组合。

我尝试了几种方法来尽可能快地加载它们并将组合存储在哈希中

$hash{$wordleft} = $wordright

逐个文件打开并逐行读取大约需要 42 秒。然后我使用可存储模块存储哈希值

store \%hash, $filename

再次加载数据

$hashref = retrieve $filename

将时间缩短至约 28 秒。我使用快速 SSD 驱动器和快速 CPU，并有足够的 RAM 来保存所有数据（大约需要 7 GB）。

我正在寻找一种更快的方法来将此数据加载到 RAM 中（由于某些原因我无法将其保留在那里）。

您可以尝试使用 Dan Bernstein 的 CDB 文件格式并使用绑定哈希，这将需要最少的代码更改。您可能需要安装CDB_File http://search.cpan.org/~toddr/CDB_File-0.98/CDB_File.pm。在我的笔记本电脑上，cdb 文件打开速度非常快，每秒可以执行大约 200-250k 次查找。以下是创建/使用/基准测试 cdb 的示例脚本：

测试_cdb.pl

#!/usr/bin/env perl

use warnings;
use strict;

use Benchmark qw(:all) ;
use CDB_File 'create';
use Time::HiRes qw( gettimeofday tv_interval );

scalar @ARGV or die "usage: $0 number_of_keys seconds_to_benchmark\n";
my ($size)    = $ARGV[0] || 1000;
my ($seconds) = $ARGV[1] || 10;

my $t0;
tic();

# Create CDB
my ($file, %data);

%data = map { $_ => 'something' } (1..$size);
print "Created $size element hash in memory\n";
toc();

$file = 'data.cdb';
create %data, $file, "$file.$$";
my $bytes = -s $file;
print "Created data.cdb [ $size keys and values, $bytes bytes]\n";
toc();

# Read from CDB
my $c = tie my %h, 'CDB_File', 'data.cdb' or die "tie failed: $!\n";
print "Opened data.cdb as a tied hash.\n";
toc();

timethese( -1 * $seconds, {
          'Pick Random Key'    => sub { int rand $size },
          'Fetch Random Value' => sub { $h{ int rand $size }; },
});

tic();
print "Fetching Every Value\n";
for (0..$size) {
    no warnings; # Useless use of hash element
    $h{ $_ };
}
toc();

sub tic {
    $t0 = [gettimeofday];    
}

sub toc {
    my $t1 = [gettimeofday];
    my $elapsed = tv_interval ( $t0, $t1);
    $t0 = $t1;
    print "==> took $elapsed seconds\n";
}

输出（100万个按键，测试超过10秒）

./test_cdb.pl 1000000 10

Created 1000000 element hash in memory
==> took 2.882813 seconds
Created data.cdb [ 1000000 keys and values, 38890944 bytes]
==> took 2.333624 seconds
Opened data.cdb as a tied hash.
==> took 0.00015 seconds
Benchmark: running Fetch Random Value, Pick Random Key for at least 10 CPU seconds...
Fetch Random Value: 10 wallclock secs (10.46 usr +  0.01 sys = 10.47 CPU) @ 236984.72/s (n=2481230)
Pick Random Key:  9 wallclock secs (10.11 usr +  0.02 sys = 10.13 CPU) @ 3117208.98/s (n=31577327)
Fetching Every Value
==> took 3.514183 seconds

输出（1000万个按键，测试超过10秒）

./test_cdb.pl 10000000 10

Created 10000000 element hash in memory
==> took 44.72331 seconds
Created data.cdb [ 10000000 keys and values, 398890945 bytes] 
==> took 25.729652 seconds
Opened data.cdb as a tied hash.
==> took 0.000222 seconds
Benchmark: running Fetch Random Value, Pick Random Key for at least 10 CPU seconds...
Fetch Random Value: 14 wallclock secs ( 9.65 usr +  0.35 sys = 10.00 CPU) @ 209811.20/s (n=2098112)
Pick Random Key: 12 wallclock secs (10.40 usr +  0.02 sys = 10.42 CPU) @ 2865335.22/s (n=29856793)
Fetching Every Value
==> took 38.274356 seconds

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

performance

perl

Hash

Perl 中大型哈希表的快速加载的相关文章

与 Java 7 相比，Java 8 ScriptEngine 的主要性能问题

我有一个 Java 程序使用 JDK 7u80 编译它广泛使用了 JavaScript ScriptEngine JSR 223 我注意到与 Java 7 运行时环境 JRE 7u80 相比我的程序在 Java 8 运行时环境 JR
如何在 Perl 脚本中递归查找文件/文件夹？

我有一个 perl 脚本我编写了该脚本来递归地搜索 Windows 文件夹中的文件我输入搜索文本作为 perl 脚本运行时参数以查找名称中包含此文本的文件 perl脚本如下 use Cwd file1 ARGV 0 res1 glob
DBI：在 eval 中引发错误

这个问题参考了池上的评论 But if you re going to put an eval around every statement just use RaiseError gt 0 in this thread https sta
PostgreSQL：存在与左连接

我多次听说 postgres 处理exists查询速度更快左连接 http archives postgresql org pgsql performance 2002 12 msg00185 php http archives postg
如何加速Python循环

我查看了几个网站上的一些讨论但没有一个给我解决方案这段代码运行时间超过5秒 for i in xrange 100000000 pass 我正在研究整数优化问题我必须使用O n log n 算法编辑 O n 4 算法其中n代表矩阵的
读取 CSV 文件单列的更快方法

我正在尝试阅读一个列CSV文件至R尽快我希望将标准方法将列放入 RAM 所需的时间减少 10 倍我的动机是什么我有两个文件一个叫Main csv这是 300000 行和 500 列其中一个称为Second csv即 300000
Java Keystore 是否存在性能问题？ [复制]

这个问题在这里已经有答案了我们开发了一个应用程序来加密解密来自服务器的请求响应我们正在做性能测试加密解密应用程序我们观察到加密解密过程需要时间而许多线程正在同时做为了识别问题我们记录了加密解密过程中的所有方法从记
“const”声明是否有助于编译器（GCC）生成更快的代码？ [复制]

这个问题在这里已经有答案了 Do const声明有助于编译器 GCC 生成更快的代码还是仅对可读性和正确性有用泽德肖认为const在 C C 中无用或过度使用接下来是对 const 的所有奇怪的迷恋由于某些奇怪的原因 C 喜欢让你
返回空字符串：C++ 中的有效方法

我有两种从函数返回空字符串的方法 1 std string get string return 2 std string get string return std string 哪一种更有效为什么 Gcc 7 1 O3 这些都是相同的
什么时候汇编比C更快？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案 Locked 这个问题及其答案是locked help locked posts因为这个问题是题外话但却具有历史意义目前不接受新的
Java中使用final关键字会提高性能吗？

在 Java 中我们看到很多地方final可以使用关键字但其使用并不常见例如 String str abc System out println str 在上述情况下 str can be final但这通常被忽略当一个方法永远不会
在 Perl 中，如何从父进程向子进程发送消息（或信号），反之亦然？

我正在编写一个管理多进程的程序这就是我所做的而且效果很好但现在我想将消息从子进程发送到父进程反之亦然从父进程到子进程你知道最好的方法吗你知道我所做的是否是我想要的正确方法从子进程到父进程发送消息信号或共享内存反之亦然
矩阵求逆 (3,3) python - 硬编码与 numpy.linalg.inv

对于大量矩阵我需要计算定义为的距离度量尽管我确实知道强烈建议不要使用矩阵求逆但我没有找到解决方法因此我尝试通过对矩阵求逆进行硬编码来提高性能因为所有矩阵的大小均为 3 3 我预计这至少会是一个微小的改进但事实并非如此为什么
网站性能衡量

我需要一个免费的工具来测量网站的性能并且不需要对代码 jsp asp 页面进行任何更改感谢所有帮助对于绩效衡量我建议您YSlow http developer yahoo com yslow 它是一个 Firefox 插件集成了
如何提高 MongoDB 中 update() 和 save() 的性能？

我正在寻找有关如何在以下情况下提高数据库性能的提示作为示例应用程序我今天编写了一个相当简单的应用程序它使用 Twitter 流 API 来搜索某些关键字然后将结果存储在 MongoDB 中该应用程序是用 Node js 编写的我
Oh-my-zsh 哈希（井号）符号错误模式或未找到匹配项

我很确定是与我的 Oh my zsh 配置相关的东西但我不知道它是什么当我在 git 命令中使用符号时但也适用于其他所有命令例如 ls 2 我收到错误模式错误或找不到匹配项我猜是要计算一些东西但我找不到在哪里配置它 I
如何在 Linux 上使用 Mono 将 Perl 解释器嵌入到我的 C# 程序中？

有谁知道是否可以在 C 中从 Mono 调用 Perl 子程序这是在 Linux 机器上 Maybe DllImport 如果可能的话我们也希望避免每次都加载 perl Interop 可以在 Linux 下与 Mono 很好地调用 C
time() 会返回相同的输出吗？

当用户注册时我正在为 PHP 中的用户生成令牌我想知道两个用户是否可以获得相同的令牌因为这会破坏系统请让我知道这是否足够 token md5 rand time 编辑我现在正在使用我在另一个问题上找到的generate uuid
LockBits 性能关键代码

我有一个方法需要尽可能快它使用不安全的内存指针这是我第一次尝试这种类型的编码所以我知道它可能会更快
hashlib 和 urandom 哪个更随机？

我正在和一个朋友一起开发一个项目我们需要生成随机哈希在我们有时间讨论之前我们都提出了不同的方法并且因为他们使用不同的模块我想问你们大家什么会更好如果有这样的事情的话 hashlib sha1 str random random

随机推荐

无法使用 cors 从 Angular 2 获取所有响应标头

我有一个 Angular 2 2 1 2 客户端 ASP NET Core 作为启用 CORS 的后端普通 API GET POST DELETE 工作正常我的问题是当我尝试从响应中检索标头时特别Content Disposition
如何让我的网站网址在社交应用程序（Discord、Twitter 等）中生成漂亮的嵌入式药丸？

我发现当我将某些网站的 URL 放入 Discord 或 Twitter 中时应用程序会直接在流中显示该网站的漂亮嵌入式药丸例如这是 Discord 中 github url 的嵌入式 Pill 推特上的相同网址我怎样才能让我的网
我可以在 Flask 模板中嵌套变量吗？ [复制]

这个问题在这里已经有答案了大家好我在 Flask 中遇到了一个问题 mysql中有一个名为category的表我查询了所有这些表然后将它们传递给a html 如下所示 return render template admin ind
使用 Symfony 的 EventDispatcher 组件的正确方法是什么？

我想通过使某些类可观察来促进 PHP 代码中的松散耦合交响乐的事件分发器组件 https github com symfony EventDispatcher看起来很有希望 SPL 也是如此Spl观察者 http php net splo
CodeIgniter MSSQL 连接

我正在开发一个 Web 项目该项目将部署在运行 IIS 7 5 和 PHP 5 3 8 的 64 位 Windows 2008 Server 计算机上系统上的数据库是Microsoft SQL Server 2008 R2 我正在 Co
单击网格视图时如何将数组列表（位置）发送到另一个活动

在这种方法中我收到ArrayList OkHttpHandler handler new OkHttpHandler MainActivity this new OkHttpHandler MyInterface Override publ
编译 com.android.support:support-v4:24.0.0 时出现 android 错误

目前我的安卓compileSdkVersion设置为 24 并且在我的依赖项中我已包含compile com android support support v4 24 0 0 但是当我尝试构建时出现以下错误 java lang I
setcookie() 和 session_set_cookie_params() 函数之间的区别

我试图理解 PHP 函数 setcookie 和 session set cookie params 之间的区别看起来两个函数都在执行相同类型的任务但 setcookie 可用于创建具有名称和值的 cookie 我试图理解 PHP 手册
如何创建 tox.ini 变量

有没有办法在 tox ini 中设置任意变量一个示例是可以多种方式使用的项目名称对于相当复杂的 tox ini 我发现自己复制并粘贴到了我只需要在顶部设置一个变量的地方作为参考 tox ini 示例 tox envlist clean
配置中的 devServer 代理抛出 404

我有这个src vue config js module exports devServer proxy api target http localhost 8081 changeOrigin true 我正在调用 api axios ge
Moshi/Kotlin - 如何将 NULL JSON 字符串序列化为空字符串？

我正在尝试编写一个空安全字符串适配器来序列化此 JSON nullString null 进入这个 Model nullString 这样我希望是字符串的任何带有 null 值的 JSON 都将被替换为假设存在这样的数据类 data cl
）' aria-label='反序列化派生类时出现 XmlSerializer 异常（未预期出现）'> 反序列化派生类时出现 XmlSerializer 异常（未预期出现）

我正在尝试使用 XmlSerializer 序列化和反序列化类的层次结构序列化工作正常但是当我尝试反序列化时出现以下异常 System InvalidOperationException XML 文档 2 2 中存在错误 gt Sys
如何在 Chrome 开发工具中获取 CSS 更改的摘要？

有没有办法获取您在 Chrome 开发工具中应用的自定义 CSS 更改的列表当您在 Chrome 开发工具中使用 CSS 来使网页看起来正确时轻松跟踪您所做的更改会派上用场我了解工作区但用例是一个 Angular 5 应用程序其中
在未排序的数组中查找 2 个等于给定总和的数字

我们需要在数组中找到总和等于给定值的数字对 A 6 4 5 7 9 1 2 总和 10 那么这些对是 6 4 9 1 我对此有两个解决方案 O nlogn 解决方案使用 2 个迭代器开始和结束进行排序校验和 O n 解决方案对数组
androidcamera2中的曝光补偿方法

我是安卓新手在相机中我用过params getMinExposureCompensation以获得最小亮度如何在 Camera2 中做到这一点任何例子将不胜感激 Thanks 可用的曝光补偿范围由CameraCharacterist
如何在 PropertyGrid 上自定义类别排序？

如何自定义分类中的类别排序PropertyGrid 如果我设置以下任一 propertyGrid PropertySort PropertySort Categorized propertyGrid PropertySort Propert
Graphql查询错误！变量已声明但从未使用

我正在尝试根据搜索关键字获取 Shopify 产品我通过在查询中传递硬编码值来测试此查询它工作正常但我需要传递变量值因此在这种情况下它会给出错误 Graphql 查询错误 search 关键字已声明但未使用这是我根据以下内容搜索产
从上一个任务获取更改/失败的主机列表 |安西布尔

All 示例如果我有 20 个主机用于剧本并使用 Serial 10 运行它们则以下 shell 命令一次在 10 个主机上运行完成后将调用处理程序任务其中创建 dict dict 的任务不会提供字典输出因此第二个任务失败的主
如何更改 OpenGL 中的旋转中心

我有一个 3D 模型 OpenGL ES 1 1 iPhone SDK v3 0 这有点复杂即数千个顶点和面并且我想围绕模型中心或附近的 Y 轴旋转该模型问题是 glRotate 围绕位于附近的点旋转我的模型其底边之一的中心不靠近
Perl 中大型哈希表的快速加载

我有大约 30 个文本文件其结构如下 wordleft1 wordright1 wordleft2 wordright2 wordleft3 wordright3 文件总大小约1GB 包含约3200万行单词组合我尝试了几种方法来尽可能快

Perl 中大型哈希表的快速加载

Perl 中大型哈希表的快速加载 的相关文章

随机推荐

热门标签

Perl 中大型哈希表的快速加载的相关文章