在 bash/ubuntu 中对数百万个字符串进行快速 md5sum

2024-03-22

我需要 ubuntu 上的 bash 脚本中大约 300 万个字符串的 MD5 和。 300 万个字符串 -> 300 万个 MD5 哈希值。每个字符串的简单实现大约需要 0.005 秒。就这样4个多小时了。存在哪些更快的替代方案？有没有办法将字符串组泵入 md5sum 中？

#time md5sum running 100 times on short strings
#each iteration is ~0.494s/100 = 0.005s
time (for i in {0..99}; do md5sum <(echo $i); done) > /dev/null

real    0m0.494s
user    0m0.120s
sys     0m0.356s

一个好的解决方案将包括一个 bash/Perl 脚本，该脚本从 stdin 获取字符串列表并输出其 MD5 哈希值列表。

使用许多 md5 实现中的任何一种在 C（或 Perl 或 Python）中执行此操作并不困难 - md5 的核心是一个从字符向量到字符向量的哈希函数。

因此，只需编写一个外部程序来读取 300 万个字符串，然后将它们一一输入到您选择的 md5 实现中。这样您就可以启动一个程序而不是 300 万个，仅此一点就可以节省您的时间。

FWIW 在一个项目中，我使用了 Christophe Devine 的 md5 实现（用 C 语言），还有 OpenSSL，我确信 CPAN 也会有一些用于 Perl 的 md5 实现。

Edit:好吧，没忍住。我提到的 md5 实现是例如里面这个小压缩包 http://dirk.eddelbuettel.com/code/digest/digest-current.tar.gz。拿走文件md5.c并替换（#ifdef'ed out）main()在底部这个

int main( int argc, char *argv[] ) {
    FILE *f;
    int j;
    md5_context ctx;
    unsigned char buf[1000];
    unsigned char md5sum[16];

    if( ! ( f = fopen( argv[1], "rb" ) ) ) {
        perror( "fopen" );
        return( 1 );
    }

    while( fscanf(f, "%s", buf) == 1 ) {
        md5_starts( &ctx );
        md5_update( &ctx, buf, (uint32) strlen((char*)buf) );
        md5_finish( &ctx, md5sum );

        for( j = 0; j < 16; j++ ) {
            printf( "%02x", md5sum[j] );
        }
        printf( " <- %s\n", buf );
    }
    return( 0 );
}

构建一个简单的独立程序，例如在

/tmp$ gcc -Wall -O3 -o simple_md5 simple_md5.c

然后你会得到这个：

# first, generate 300,000 numbers in a file (using 'little r', an R variant)
/tmp$ r -e'for (i in 1:300000) cat(i,"\n")' > foo.txt

# illustrate the output
/tmp$ ./simple_md5 foo.txt | head
c4ca4238a0b923820dcc509a6f75849b <- 1
c81e728d9d4c2f636f067f89cc14862c <- 2
eccbc87e4b5ce2fe28308fd9f2a7baf3 <- 3
a87ff679a2f3e71d9181a67b7542122c <- 4
e4da3b7fbbce2345d7772b0674a318d5 <- 5
1679091c5a880faf6fb5e6087eb1b2dc <- 6
8f14e45fceea167a5a36dedd4bea2543 <- 7
c9f0f895fb98ab9159f51fd0297e236d <- 8
45c48cce2e2d7fbdea1afc51c7c6ad26 <- 9
d3d9446802a44259755d38e6d163e820 <- 10

# let the program rip over it, suppressing stdout
/tmp$ time (./simple_md5 foo.txt > /dev/null)

real    0m1.023s
user    0m1.008s
sys     0m0.012s
/tmp$

对于 300,000 个（短）字符串来说，这大约是一秒。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在 bash/ubuntu 中对数百万个字符串进行快速 md5sum 的相关文章

如何为ubuntu创建永久“别名”？ [复制]

这个问题在这里已经有答案了例如如果您创建别名 alias cls clear 它一直存在直到您终止终端会话为止当您启动新的终端窗口时别名不再存在如何创建永久别名该别名存在于每个终端会话中您可以将此类别名放入 bash a
在 Ubuntu 9.10 中安装 play-framework

我已从 playframework org 网站复制了压缩文件并将其解压缩到某个位置我已将其插入到我的 bashrc 配置文件中以设置为 PATH 环境但仍然无法从任何地方访问播放命令即使在框架的安装目录中播放文件也没有按原样运行
如何在 ubuntu 上并行安装多个版本的 .NET Core

我们有一个用 NET Core rc2 编写的应用程序在验收环境 Linux 服务器上运行最近我们的客户运行了他们自己的性能测试结果完全破坏了应用程序由于以下几个原因我们无法自己复制它我们在windows上开发我们已经从
安装cassandra时出错

我正在尝试按照此处的说明在 ubuntu 16 04 LTS 上安装 apache cassandra gt http docs datastax com en cassandra 3 x cassandra install install
/usr/bin/ld: 找不到 -llibeststring.a

我在我的程序中使用 Festival TTS C API 我已经从以下位置下载了所有文件http www cstr ed ac uk downloads festival 2 0 95 http www cstr ed ac uk down
如何使用 exec() 启动和停止 PHP 开发服务器

如何使用 exec 函数启动和停止 PHP 开发服务器我需要这样做才能自动化我的 BDD 测试这将停止我的脚本的执行 echo exec php S localhost 8000 所以我需要一种方法从 PHP 启动服务器并能够继续执行我
pip3 安装不起作用 - 没有名为“pip._vendor.pkg_resources”的模块

当尝试安装 Python 3 的软件包在 Ubuntu 中时使用pip3 install packageName or sudo pip3 install packageName 我收到以下错误消息 Traceback most re
为什么链接时会出现多重定义错误？

我使用这两个文件here https raw github com elanthis easylogger master easylogger h and here https raw github com elanthis easylog
如何根据第一列的内容分割一个巨大的csv文件？

我有一个 250MB 以上的巨大 csv 文件要上传文件格式是group id application id reading数据可能看起来像 1 a1 0 1 1 a1 0 2 1 a1 0 4 1 a1 0 3 1 a1 0 0 1 a
如何在 php5/ubuntu 中安装 pspell？

我正在尝试在 Ubuntu 中安装适用于 PHP 5 的 pspell 我已经安装了运行 pspell 所需的 aspell 库如图所示here http www php net manual en pspell requirements
Nginx no-www 到 www 以及 www 到 no-www

我在用按照教程在 Rackspace 云上安装 nginx http www howtoforge com running phpmyadmin on nginx lemp on debian squeeze ubuntu 11 04并在网
无法解析“adb version”的输出

我使用 Ubuntu 11 10 和 Eclipse 进行 Android 开发我已经创建了一个新项目但它包含错误 Failed to parse the output of adb version 如果有人知道我该如何解决这个问题我
tomcat.conf 位于哪里？

我找不到我的tomcat conf 我看过 etc tomcat6 但它不在那里也不在 usr share tomcat6 我在哪里可以找到tomcat conf在 Linux Ubuntu 中 Try sudo updatedb loc
无法使用 RVM、Ruby 1.9.2 和 Rails 3 运行 RubyMine 调试器

我已经设置了全新的 Ubuntu 安装并遵循本指南 http ryanbigg com 2010 12 ubuntu ruby rvm rails and you安装 RVM Ruby 1 9 2 和 Rails 3 然后我安装了RubyM
在 ubuntu 上使用 Kurento 安装错误

我已经浏览了 Stackoverflow 上的所有 Kurento 问题之前似乎没有出现过这个错误我已经根据安装指南安装了 Kurento 媒体服务器和 java 客户端示例我正在运行媒体服务器当我去运行客户端应用程序时问题就出现
与本机 Windows NPM/Yarn 处理相比，为什么 WSL 极其缓慢？

我最近经常使用 WSL 因为我需要一些本机 UNIX 工具并且模拟器还不够好我注意到使用 NPM Yarn 时的速度差异令人难以置信我进行了一个简单的测试证实了我的感受测试正在运行npx create react app my t
Healpy python-3..4 在 ubuntu-14.04 上的安装问题

我是 ubuntu 新手在 lenovo t410 上使用 ubuntu 14 04 和 python 3 4 为了安装 Healpy 我遵循了以下步骤我已经使用安装了 python3 dev 包 sudo apt get instal
如何在ubuntu服务器上安装android SDK

我在 ubuntu 服务器中有一个 React Native 项目我想构建一个用于生产的 Android 应用程序为此我首先必须生成 Gradle Wrapper 文件因此我在中运行此命令android目录 gradle wrapp
tar 命令在提取时更改所有者：组

使用此命令提取文件时tar zxf bluez arm package tgz文件和目录的所有者 1000 组脉冲是更改如下例 Example drwxrwxr x 4 1000 pulse 1024 Jul 21 00 32 dbu
VS Code 不会构建具有多个 .cpp 源文件的 C++ 程序

请注意我在 Ubuntu 17 10 上使用 VS Code 并使用 GCC 编译器我在构建一个使用附加 cpp 文件的简单程序时遇到问题我可能在这里遗漏了一些明显的东西因为我对编程相当陌生但我会解释到目前为止我所做的事情这阻止

随机推荐

在 jqgrid 中动态将 rownumbers 设置为 false

我喜欢使用以下命令在网格中显示行号rownumbers财产但如果只返回一行有没有办法设置rownumbers动态为 false 为什么乍一看在没有标题的列中看到 1 有点令人困惑但如果有多行那么您很快就会意识到该列的用途你可以
通过 DOM、insertAdjacentHTML 或 document.write 将 SCRIPT 添加到 IFRAME

我需要将 SCRIPT 添加到沙盒 IFRAME 中并且我试图避免使用document write see here https stackoverflow com questions 4537963 what are alternati
如何删除使用 Uri 创建的文件？

我的应用程序从相机拍摄照片并将其保存在一个文件中该文件的 Uri 存储在 SQL 数据库中使用数据库中的 Uri 初始化位图可以完美地工作但是当我尝试使用数据库中的 Uri 初始化文件然后使用删除时imagefile delete
使用 Ansible“lineinfile”模块编辑 /etc/sudoers 是否安全？

我想根据以下内容更改 sudo 会话超时this https superuser com a 149740 775166回答我可以编辑普通文件 lineinfile path etc sudoers regexp Defaults env
将 ggplot 中的背景部分更改为不同的颜色[重复]

这个问题在这里已经有答案了使用以下数据框d day lt gl 8 1 24 labels c Mon Tues Wed Thurs Fri Sat Sun Avg day lt factor day level c Mon Tues W
使用POSTMAN时不会出现CORS问题

我已经使用 POSTMAN 发送一段时间了HTTP requests like GET POST PUT用于 RESTful Web 服务最近遇到一种情况当通过浏览器向我的 REST API 发送请求时我收到一条消息请求的资源上不存
如何在django中检查多对多字段的类型？

如何检查 django 中多对多字段的类型我想这样做 import django field class django db models fields related ManyRelatedManager 这是行不通的因为类ManyR
DynamoDBMapper 负载与查询

DynamoDBMapper 提供了从表中读取一项的不同方法 query load 有推荐吗该使用哪一个在快速测试中以下两个代码片段对于主键哈希和范围键日期的表返回相同的 MyEntry 项而查询方法大约快 10 load pu
Spring-Core-WS 与 Spring 4.3.0 不兼容，是吗？

我总是尝试在我的 Spring 项目中使用最新的 jars api 我们有一个 Spring 4 2 4 RELEASE 然后我升级到 4 3 0 一切都构建和编译得很好但是当我尝试运行单元测试时我收到一条错误消息我确实追踪到 Sp
在 Wpf 应用程序中查看 Byte[] Pdf

你好我在 Byte 中找到了一些 pdf 文件我正在寻找一种在 WPF 应用程序中查看它们的方法我已经看过了http hugeonion com 2009 04 06 displaying a pdf file within a wp
将 .hide() 和 .show() 与 Google Visualization 结合使用

我用谷歌可视化创建了一个折线图我已经测试过它并且它按预期工作问题是当我在可视化上使用 hide 启动页面然后单击按钮显示它时它不会显示可视化这是我所拥有的内容的精简版本
如何解压缩字节数组中的 gzip 数据？

我有一个类它有一个接收对象作为参数的方法该方法通过 RMI 调用 public RMIClass extends Serializable public RMIMethod MyFile file do stuff MyFile 有一个
如何在两个不同的选项卡上显示相同的控件？

我正在使用VB NET 我需要在两个不同的选项卡上显示相同的控件 ListBox 是否必须创建 2 个不同的 ListBox 实例如果您不需要设计时支持您可以简单地在运行时将 ListBox 实例的父级从一个选项卡更改为另一个选项卡当
开玩笑“toMatchSnapshot”会导致“超出最大调用堆栈大小”

我正在尝试测试组件上的快照但收到错误RangeError Maximum call stack size exceeded 虽然当我删除toMatchSnapshot 错误消失了我在多个组件上都发生过这种情况这是一个例子我的项目是使
如何修复 Type '{ [key in K]:unknown; } & S["data"]' 不可分配给 TypeScript 中的类型 'ScopeFormDataType'

我有这个TypeScript 游乐场 https www typescriptlang org play code KYDwDg9gTgLgBMAdgVwLZwMoGMJmHAbwCg44AxadAXjgCIAzS2gGhLgDlgBneG
time.perf_counter() 应该在 Windows 上的 Python 中跨进程保持一致吗？

UPDATE 此错误的修复已提交并将在 Python 3 10 中首次亮相预计将于 2021 年 10 月发布请参阅错误报告 https bugs python org issue37205 msg381107了解详情的文档time
将光标移动到 QTextEdit 内部

我有一个表格QTextEdit其上称为translationInput 我正在尝试为用户提供编辑功能 This QTextEdit将包含 HTML 格式的文本我有一组按钮例如 bold Italic 等等这应该将相应的标签添加到文档
Tweepy：传输数据 X 分钟？

我正在使用 tweepy 来数据挖掘公共推文流中的关键字这非常简单并且已在多个地方进行了描述 http runnable com Us9rrMiTWf9bAAW3 how to stream data from twitter with
如何使用 xlib 和 glx 创建具有透明背景的支持 OpenGL 的窗口

我想创建一个具有透明背景的窗口然后使用 OpenGL 在其上渲染一些内容我不想使用捕捉窗口后面的任何内容然后将其绘制为背景的技巧我想要真正的透明度我正在运行合成管理器我没有使用任何 GUI 库 GTK QT 只是原始的 xlib
在 bash/ubuntu 中对数百万个字符串进行快速 md5sum

我需要 ubuntu 上的 bash 脚本中大约 300 万个字符串的 MD5 和 300 万个字符串 gt 300 万个 MD5 哈希值每个字符串的简单实现大约需要 0 005 秒就这样4个多小时了存在哪些更快的替代方案有没有办法

在 bash/ubuntu 中对数百万个字符串进行快速 md5sum

在 bash/ubuntu 中对数百万个字符串进行快速 md5sum 的相关文章

随机推荐

热门标签