Ruby：从大文件中的任意点开始读取

2024-01-12

我有一些日志文件想要筛选。内容正是您在日志文件中所期望的：许多单行逗号分隔的文本。每个文件大约有 4 GB。 File.each_line 或 foreach 其中之一大约需要 20 分钟。

由于简单的 foreach 看起来......简单（而且慢），我认为如果我只能告诉它们从哪里开始，两个单独的线程可能能够在同一个文件上工作。但基于我（有限的）知识，我无法决定这是否可能。

有没有办法从任意行开始读取文件？

为了了解一次读取整个文件与逐行读取整个文件有何不同，我对一个大约 99MB、超过 1,000,000 行的文件进行了测试。

greg-mbp-wireless:Desktop greg$ wc filelist.txt 
 1003002 1657573 99392863 filelist.txt

我将以下循环放入 ruby 文件中，并使用 time 命令从命令行运行它：

IO.read(ARGV.first).lines { |l|
}

greg-mbp-wireless:Desktop greg$ time ruby test.rb filelist.txt 

real    0m1.411s
user    0m0.653s
sys     0m0.169s

然后我将其更改为逐行读取并计时：

IO.readlines(ARGV.first) { |l|
}

greg-mbp-wireless:Desktop greg$ time ruby test.rb filelist.txt 

real    0m1.053s
user    0m0.741s
sys     0m0.278s

我不知道为什么，但是逐行阅读会更快。这可能与内存分配有关，因为在第一个示例中 Ruby 尝试将整个文件加载到 RAM 中，或者可能这是一个异常，因为我只为每个文件做了一次测试。用一个read使用显式文件大小可能会更快，因为 Ruby 会知道需要提前分配多少。

这就是我测试这个所需的全部：

fcontent = ''
File.open(ARGV.first, 'r') do |fi|
  fsize = fi.size
  fcontent = fi.read(fsize)
end
puts fcontent.size

greg-mbp-wireless:Desktop greg$ time ruby test.rb filelist.txt 
99392863

real    0m0.168s
user    0m0.010s
sys     0m0.156s

看起来知道需要读多少内容会有很大的不同。

添加回字符串缓冲区的循环会导致以下结果：

File.open(ARGV.first, 'r') do |fi|
  fsize = fi.size
  fi.read(fsize).lines { |l| 
  }
end

greg-mbp-wireless:Desktop greg$ time ruby test.rb filelist.txt 

real    0m0.732s
user    0m0.572s
sys     0m0.158s

这仍然是一个进步。

如果您使用队列并从负责读取文件的线程提供队列，然后从处理传入文本的任何进程中消耗队列，那么您可能会看到更高的总体吞吐量。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

ruby

flatfile

Ruby：从大文件中的任意点开始读取的相关文章

我在 Rails 中使用了保留字吗？

这是我的模型 class Record lt ActiveRecord Base belongs to user belongs to directory end class Directory lt ActiveRecord Base h
已定义方法的 Ruby 钩子？

我一直在谷歌上搜索这个问题但找不到答案这让我认为答案是否定的但我想我会在这里问以防有人确切知道 Ruby 是否有一个钩子来定义方法即在模块或类上如果没有是否有人足够熟悉该实施的情况main对象以了解它到底如何将方法复制到Obj
ruby从1.8.7升级到1.9.2（使用Rails 3.1.1）后本地服务器错误

我刚刚安装了rvm并使用rvm将ruby从1 8 7升级到1 9 2 我在我的应用程序上运行了捆绑安装它重新安装了我的 gems 当我在本地运行 Rails 服务器并将浏览器导航到 localhost 3000 时服务器日志中显示以下错
Ruby/Rails 集合到集合

我有两个表与一个连接表连接这只是伪代码 Library Book LibraryBooks 我需要做的是如果我有一个图书馆的 id 我想获取该图书馆拥有的所有书籍所在的所有图书馆因此如果我有图书馆 1 图书馆 1 中有书籍 A 和
RoR - Rails 中的大文件上传

我有一个 Rails Web 应用程序允许用户上传视频视频存储在 NFS 安装的目录中当前的设置适用于较小的文件但我也需要支持大文件上传最多 4GB 当我尝试上传 4GB 文件时它最终会发生但从用户体验的角度来看很糟糕上传开
我可以将 MAMP (MySQL) 或 XAMPP (MySQL) 与 Ruby on Rails 3 一起使用吗？

我可以将 MAMP MySQL 或 XAMPP MySQL 与 Ruby on Rails 3 一起使用吗我从 MYSQL com 安装了 MySQL 但遇到了很多麻烦所以我喜欢使用 MAMP XAMPP Mysql 有人这样做吗另外
Rails/Ruby 合并两个具有相同键、不同值的哈希值

我有两个想要合并的哈希值它们看起来像这样 Hello gt 3 Hi gt 43 Hola gt 43 第二个哈希看起来像 Hello gt 4 Hi gt 2 Bonjour gt 2 我想合并这两个哈希数组使结果看起来像 Hello
Shoulda/RSpec 匹配器 - 条件验证

在我的代码中我使用 Shoulda 匹配器进行了以下验证效果很好 it should validate presence of name 在我的模型中我已将条件添加到验证中 validates presence of name if
带有 OAuth2 的 YouTube API v3：更新和删除失败并出现“权限不足”错误

我在尝试着update and delete视频使用YouTube API v3 https developers google com youtube v3 docs videos with OAuth2 用于身份验证 https dev
ruby 认为我正在引用顶级常量，即使我指定了完整的命名空间

在我的应用程序中我有 class User include User Foo end User Foo定义在 app models user foo rb 中现在我正在使用一个定义自己的库Foo班级我收到此错误警告 User Foo
我可以让这个 Ruby 代码更快并且/或使用更少的内存吗？

我有一个Array of StringRuby 中的对象由如下单词组成 animals cat horse dog cat dog bird dog sheep chicken cow 我想将其转换为另一个Array of String对象
ruby on Rails：音频/mp3 内容标题下载

如何在 ruby rails 中设置下载标题在 php 中我为 mp3 下载设置标头如下所示 header Content Transfer Encoding binary header Content type audio mp3
如何声明依赖于参数化任务的 Rake 任务？

我见过一些任务具有参数和依赖项任务的示例例如 task name first name last name gt pre name do t args args with defaults first name gt John last
如何使用 ruby 和命令行工具在 mavericks 中正确安装 cocoapod？

这是我的设置小牛队10 9 1 Xcode 5 0 2 哪个红宝石返回这个 Users quique123 rvm rubies ruby 1 9 3 p194 bin ruby 但 dvm install ruby 返回 Already
Rails 3.2：用 json 序列化中的空字符串替换 null 值

我正在使用 Rails 3 2序列化 http www simonecarletti com blog 2010 04 inside ruby on rails serializing ruby objects with json 将 ru
通过 ruby 进程共享变量

我正在编写一个 gem 其中我必须分叉两个进程来启动两个 webrick 服务器我想通过基类的类方法启动该服务器因为应该只运行这两个服务器而不是多个服务器在运行时我想调用这两台服务器上的一些方法来更改变量我的问题是我无法通过基
将对象转换为哈希，然后将其保存到用户的列

找不到任何接近我想做的事情我想将一个对象存储到用户的列中该列采用数组的形式 postgres def change add column users interest string array true default end 我有另一
如何在 Ruby 中将 DateTime.now 转换为 UTC？

如果我有d DateTime now 如何将 d 转换为 UTC 带有适当的日期 DateTime now new offset 0 将在标准 Ruby 中工作即没有 ActiveSupport
Ruby/Rails - 如何创建类并从控制器访问它

我一直在尝试使用一些不同的 gem 在 Rails 3 中显示谷歌地图但遇到了一些问题幸运的是我发现了这个https github com YouthTree bhm google maps https github com Youth
以 Rails 形式处理 MongoMapper EmbeddedDocument

首先我对一般编程和 Rails 都是新手我选择 Rails 是因为它看起来是一种很容易上手的语言对于我的项目我将 MongoMapper 与 Rails 结合使用我正在尝试以与文档相同的形式处理嵌入文档我有以下模型 class

随机推荐

android selectableItem背景选择

我想在状态激活时更改视图的背景并且我想保留以下效果波纹 attr selectableItemBackground 是否可以扩展或组合选择器 attr selectableItemBackground 您可以使用LayerDrawa
以编程方式更改应用程序 Dock 图标 javaFX

我有一个只能从 JAR 加载的 javaFX 应用程序但我想更改 mac 扩展坞中的图标我已经成功地在 Windows 上解决了这个问题我正在使用 Netbeans IDE 并且不想添加额外的 Apple JAR 扩展文件正因为如此
Django1.4：在模板中设置语言链接以使用 i18n_patterns 的通用方法？

我开始使用 Django 1 4 中的新 i18n patterns 基本上我希望在所有模板标题上都有我支持的每种语言的语言链接我已将标头实现为包含在其他模板中的单独模板有没有办法让我的标头保持通用并解决此问题而无需在模板上下文中传
使用 dplyr::mutate() 在列子集上按行 cor()

set seed 8 df lt data frame A sample c 1 3 10 replace T B sample c 1 3 10 replace T C sample c 1 3 10 replace T D sample
找不到模块 jest-sequencer-@jest/test-sequencer

我正在尝试在 VSCode 中调试 Jest 测试但它无法解析某些模块我设置了一个断点jest run下面被称为argv runInBand no cache watchAll false config roots
如何为 Maven 设置 Archiva 内部+快照存储库？

我们正在尝试使用 Archiva 作为中央和其他外部存储库的 Maven 代理同时也作为我们的工件的快照存储这些工件由 Hudson 从 SVN 自动构建并安装到快照存储库我无法将 Maven 客户端设置为同时使用内部存储库和快照存储
如何在首页加载时执行 JavaScript 函数？

我想知道是否有一种方法可以只在第一次页面加载时执行一次 JavaScript 函数然后在任何后续重新加载时都不执行我有办法做到这一点吗下面的代码将在以下代码执行一次onload https developer mozilla org
MKMapView 因 EXC_BAD_ACCESS 崩溃

我有以下激活断点的代码行 mapView addAnnotations grabinstance itemArray 这随机崩溃 rabinstance itemArray 始终被完全填充并且当时永远不会改变因为只有在数组已满时才会调用
使用 AngularJS 观察下拉菜单的所选项目不起作用

跟进自AngularJS 为什么我的手表不工作 https stackoverflow com questions 16486634 why my angularjs watch is not working function myCont
JavaScript 中的原始包装器行为

在书里面向 Web 开发人员的专业 Javascript我读到当尝试访问原始对象的属性和方法时 JavaScript 在内部使用原始包装器这是否意味着每次我尝试访问字符串基元上的长度属性时都会重新计算该值我的直觉告诉我由于字符串是
检查图像和线条之间的碰撞

我检查碰撞 offset x0 x1 y0 y1 result player1 mask overlap player2 offset 它在两个图像之间工作但如果我想检查图像和pygame draw line I use it https
AWS Cognito oauth2/token 端点中不允许出现 405 方法错误

我正在使用 AWS Cognito UI 使用授权代码授予流程进行登录并成功获取授权代码但得到一个405 方法不允许通过邮递员向 oauth2 token 端点发出 post 请求时出错应用程序客户端在 Cognito 用户池中设置应
SwiftUI ScrollView VStack GeometryReader 高度被忽略

我想在 VStack 之外使用 ScrollView 这样当 VStack 扩展超出屏幕尺寸时我的内容就可以滚动现在我想用GeometryReader在 VStack 中它会导致问题我只能通过设置 GeometryReader 框架来
有人找到了适用于 Visual Studio 的 PowerShell 语法突出显示或 IntelliSense 插件吗？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
Angular SSR 在生产环境中“无法查找视图”（Ubuntu、Nginx）

遵循有关使用 Express 服务器设置 SSR 的官方 Angular 教程 https angular io guide universal configure for universal https angular io guide
状态机适合解决什么样的问题？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
如何调用 setCountry() 来 AutocompleteFilter Google place API？

我正在实现 PlaceAutocompleteFragment 来自动完成位置我想将搜索限制在特定国家地区就像之前我们在网址中使用 component UK 一样我怎样才能在下面的代码中实现这一点 Override protecte
删除数据库时出错（无法 rmdir '.test\'，errno：17）

基本上我学习了如何使用 mysqladmin u root p password 命令创建 root 密码这都是通过 Windows 命令编辑器完成的现在下一个过程是显示默认数据库 info schema mysql 和 test
C++ 领域特定嵌入式语言运算符

在面向数值的语言 Matlab Fortran 中范围运算符和语义在处理多维数据时非常方便例如 A i j k n represents two dimensional slice B i j 0 n of A at index k 不
Ruby：从大文件中的任意点开始读取

我有一些日志文件想要筛选内容正是您在日志文件中所期望的许多单行逗号分隔的文本每个文件大约有 4 GB File each line 或 foreach 其中之一大约需要 20 分钟由于简单的 foreach 看起来简单而且慢我

Ruby：从大文件中的任意点开始读取

Ruby：从大文件中的任意点开始读取 的相关文章

随机推荐

热门标签

Ruby：从大文件中的任意点开始读取的相关文章