使用 libxml-ruby 逐块处理大型 XML 文件

2024-03-25

我想读一本大书XML http://dblp.uni-trier.de/xml/包含超过一百万个小书目记录的文件（例如<article>...</article>）在 Ruby 中使用 libxml。我尝试过将 Reader 类与expand方法按记录读取记录，但我不确定这是正确的方法，因为我的代码会占用内存。因此，我正在寻找一种方法，如何以恒定的内存使用量方便地逐条记录地处理记录。下面是我的主循环：

   File.open('dblp.xml') do |io|
      dblp = XML::Reader.io(io, :options => XML::Reader::SUBST_ENTITIES)
      pubFactory = PubFactory.new

      i = 0
      while dblp.read do
        case dblp.name
          when 'article', 'inproceedings', 'book': 
            pub = pubFactory.create(dblp.expand)
            i += 1
            puts pub
            pub = nil
            $stderr.puts i if i % 10000 == 0
            dblp.next
          when 'proceedings','incollection', 'phdthesis', 'mastersthesis':
            # ignore for now
            dblp.next 
          else
            # nothing
        end
      end  
    end

这里的关键是dblp.expand读取整个子树（就像<article>record）并将其作为参数传递给工厂进行进一步处理。这是正确的方法吗？

然后，在工厂方法中，我使用类似 XPath 的高级表达式来提取元素的内容，如下所示。再说一遍，这可行吗？

def first(root, node)
    x = root.find(node).first
    x ? x.content : nil
end

pub.pages   = first(node,'pages') # node contains expanded node from dblp.expand

处理大型 XML 文件时，您应该使用流解析器来避免将所有内容加载到内存中。有两种常见的方法：

推送解析器像 SAX 一样，当你遇到标签时你会做出反应（参见tadman回答）。
拉解析器，您可以在 XML 文件中控制“光标”，可以使用简单的原语（例如向上/向下等）移动该“光标”。

我认为如果您只想检索某些字段，则推送解析器很好用，但它们通常用于复杂的数据提取很混乱，并且通常使用以下方式实现case... when...结构体

在我看来，拉式解析器是基于树的模型和推式解析器之间的一个很好的替代方案。你可以找到一个好文章 http://www.ddj.com/web-development/184406385在 Dobb 博士的期刊中，有关使用 REXML 进行拉解析器。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 libxml-ruby 逐块处理大型 XML 文件的相关文章

尝试使用 Rails 和 PostgreSQL 生成模型时，命令挂起且没有错误

使用该命令时 rails generate model Event name string 什么也没发生我必须按 CTRL c 我使用的版本是红宝石 2 1 1p76 导轨4 1 0 PostgreSQL 9 3 4 Mac OS X
在 Rails 3.2 + SimpleForm 中显示嵌套表单有错误的字段

我有一个Flight模型嵌套在一个FlightLog模型 AFlightLog可能包含许多航班我使用 SimpleForm 进行引导安装这样当验证失败时可以用错误类包围带有错误的表单元素问题是即使触发了嵌套模型的验证 simple
Selenium 找不到“spec”文件夹

因此我正在尝试建立本地系统来帮助完成仅使用 Rails 的雇主的现有项目他们希望我主要关注 rspec 测试因为该项目几乎可以正常运行我需要充实他们错过的东西但是我无法获取 rake spec 来构建我的测试文件夹事实上测试
使用 Ruby on Rails 进行设计 - 强制用户在首次登录时更改密码

我有一个运行 Devise 的 RoR 应用程序 Rails 4 2 Ruby 2 2 0 我已经进行了设置以便管理员用户标识了我添加到用户模型中的 is admin 布尔值能够创建新的用户帐户为他们提供生成的密码和确认电子邮件这
如何在 .js 中的字符串中插入来自 ruby 示例的变量[重复]

这个问题在这里已经有答案了在 ruby 中您可以将变量插入到字符串中如下所示 x sake puts I like x I like sake 例如 def what i like word I like word end 在 jav
如何在 Ruby 中列出局部变量？

def method a 3 b 4 some method that gives a b end 局部变量 http ruby doc org core Kernel html method i local variables 它输出符号
为什么这个 Ruby 方法返回“空值表达式”错误？

我有这个简单的方法 def is palindrome sentence raise ArgumentError new expected string unless sentence is a String safe sentence s
如何在 Ruby on Rails 中不使用 eval 将字符串转换为哈希值？ [复制]

这个问题在这里已经有答案了这里是string需要转换成hash status gt label gt Status collection gt return misc definitions project status 我们不能使用ev
如何阻止与 RSpec 和 Capybara 的外部连接？

在我的 Rails 项目中我想编写非理想条件的测试例如缺乏互联网连接或超时例如我正在使用 gem 来联系 API 并且希望确保在我的应用程序和外部 API 之间存在连接问题时能够正确处理错误我已经可以通过用录像机制作固定装置并从
SSL_connect 返回=1 errno=0 状态=SSLv3 读取服务器证书 B：证书验证仅在代理时失败

这篇文章几乎重复了许多其他帖子包括Rails 4 和 Ruby 2 Net HTTP SSL 请求 OpenSSL SSL SSLError SSL connect returned 1 errno 0 state SSLv2 v3 re
Ruby 中多维数组的帮助

我有以下代码将字符串拆分为 3 个字节的组 str hello ix 0 iy 0 bytes tby str each byte do c if iy 3 iy 0 bytes ix tby each index do i bytes i
Rails 中的 PDF 导出

我需要将包含一些图表的 HTML 页面导出为 PDF 有哪些好的 gem 可以做到这一点 PDFKit http railscasts com episodes 220 pdfkit http railscasts com episodes
如何在 Rails 控制器中调用通道方法？

我有一个订阅用户的 ActionCable 方法如果启动新的 convo 我也希望用户订阅新频道我无法找出在控制器中调用通道方法的正确语法更新问题是消息在发送时附加到聊天框但是当发送第一条消息时 Websocket 连接尚未建立
Watir 更改 Mozilla Firefox 首选项

我正在使用 Watir 运行 Ruby 脚本来自动执行一些操作我正在尝试自动将一些文件保存到某个目录因此在我的 Mozilla 设置中我将默认下载目录设置为桌面并选择自动保存文件然而当我开始运行脚本时这些更改并未反映出来似乎
如何计算带有偏移量的异或？

我想用不同的偏移量进行异或计算以在计算中列出例子 key 0 1 0 text 0 1 0 1 0 1 0 1 1 1 异或计算 key 0 text 0 key 1 text 1 key 2 text 2 key 0 text 3 ke
ruby 中的 #encode 和 #force_encoding 有什么区别？

我真的不明白之间的区别 encode and force encoding在 Ruby 中String班级我明白那个 kam force encoding UTF 8 将迫使 kam 是UTF 8编码但是怎么样 encode encod
使用 attr_accessor 动态创建类属性

在Ruby中有没有办法动态地将实例变量添加到类中例如 class MyClass def initialize create attribute name end def create attribute name attr acces
REXML - 如何提取单个元素

我正在用 ruby 编写一些验收测试其中涉及断言响应 XML 中值的存在我的 XML 是这样的
在 ruby 中下载多个 FTP 文件，如 d*.txt

我需要连接到 ftp 站点并下载一堆名为 D txt 的文件最多 6 个你能帮我用 Ruby 编写这个代码吗下面的代码只是 ftp Net FTP new ftp server site ftp login user pwd ftp
在 Ruby 中创建一个空文件：相当于“touch”？

创建一个的最佳方式是什么emptyRuby 中的文件类似于 Unix 命令的东西 touch https en wikipedia org wiki Touch 28Unix 29 touch file txt FileUtils tou

随机推荐

存根/模拟方法的问题进行数据库调用

我在使用 MockitoJUnitRunner 模拟 JDBC 调用时遇到问题不知何故 Mockito 并没有嘲笑实际的调用即使我在测试类中有下面的子行 when readOnlyJdbcTemplate query anyString
使用 PHP 进行地理定位

有没有办法得到lat long into PHP在单个文件解决方案中通常使用JS我会用它来纯粹JS解决方案但现在我需要中的值PHP变量
如何从backbone.js中的模型获取数组元素

我有以下代码 Person new Backbone Model data age 27 name alamin 现在我怎样才能得到这个值 person new Person person get 请给我一个解决方案如果您使用此模型 P
将 BNF 转换为 Parsec 程序有什么技巧吗？

匹配函数调用链的 BNF 如x y z expr term T T expr T EMPTY term expr VAR 将其转换为秒差距程序看起来很棘手 term Parser Term term parens expr lt gt v
通过 docker Volumes 从主机连接到 docker postgres 套接字

我正在使用以下内容docker compose yml file version 3 5 services db image postgres latest volumes tmp postgresql var run postgresql
如何获取postgresql中正在运行的查询的执行计划？

我有一个未优化的查询它在一天中的不同时间运行一系列不同的执行时间从 1 分钟到 14 小时不等 CPU 利用率内存和数据库上的其他并发负载保持不变什么会导致这种变化请注意自动真空过程在午夜运行并且性能在早上显着提高我的断言是
如何在启用 Visual Studio 环境的情况下运行 SublimeText

OVERVIEW 现在我的 Windows 任务栏上有这 2 个程序 SublimeText3 目标 D software SublimeText 3 x64 sublime text exe VS2015 x64 本机工具命令提示符目标
为什么我们可以有未使用的函数，但不能有未使用的变量？

未使用的变量会阻止编译这是一件好事但编译器并不真正关心未使用的函数有解释吗变量和函数之间的行为似乎是一致的即使未使用两者都允许在包级范围内使用此代码片段编译没有任何问题 package main var v int unuse
我可以在 Spring 应用程序中同时使用 GlobalMethodSecurityConfiguration 和 WebSecurityConfigurerAdapter

我的应用程序同时具有 GlobalMethodSecurityConfiguration 和 WebSecurityConfigurerAdapter 配置类我的实现如下 My 全局方法安全配置实现 Configuration Enabl
EventGrid 与 EventHub

我正在开发一个服务结构应用程序想要从此应用程序发布一些事件并在另一个应用程序中订阅或处理这些发布事件我尝试过 EventGrid 概念并观察到发布和处理事件时存在延迟所以现在我正在寻找其他替代方案例如 EventHub 或队列
当返回值绑定到调用函数中的 const 引用时，它的生命周期如何扩展到调用函数的范围？

如果从函数返回一个值而不是引用然后将其绑定到调用函数中的 const 引用则其生命周期将扩展到调用函数的范围所以情况A const BoundingBox Player GetBoundingBox void return Bou
在 iOS 8 UITableView heightForHeaderInSection 中不是可选的

我刚刚注意到在 iOS 8 中以编程方式定义的 tableview 必须定义节内标题高度另外viewForHeaderInSection 否则默认高度将为 0 并且部分标题不会出现在 iOS 7 中即使在部分标题下出现节内标题高度没
Jersey 客户端的 URL 编码问题

我需要拨打这样的服务电话我遇到的问题是 value1 和 value2 最终被编码这使得服务调用失败例如 value1 类似于 a b b c 2 它基本上包含特殊字符我猜测这是服务需要解决的问题正确处理解码编码字符我认为它目前
SimpleHTTPServer 和 SocketServer

我创建了一个处理程序 Python 脚本如下所示 import SimpleHTTPServer import SocketServer PORT 8000 Handler SimpleHTTPServer SimpleHTTPRequ
在python中独立运行多个while true循环

本质上我有 2 while True 在我的代码中循环两个循环都在最后但是当我运行代码时只有第一个循环while True 循环开始运行第二个循环被忽略例如 while True print hi while True prin
在 PostgreSQL 中，我们如何判断表的每个索引是否是聚簇的？ [复制]

这个问题在这里已经有答案了在 PostgreSQL 中我们如何判断表的每个索引是否是聚簇的这对应于在MySQL中我们如何判断表的索引是否是聚集索引 https stackoverflow com questions 51182951
我可以动态重命名oozie作业名称吗

我们有一个 Hadoop 服务其中有多个应用程序我们需要通过重新执行相同的工作流程来处理每个应用程序的数据这些计划在一天的同一时间执行问题是当这些作业运行时很难知道作业正在为哪个应用程序运行失败成功当然我可以打开作业配置
CSS中如何结合粗体和斜体？

此 W3Schools 教程 http www w3schools com cssref pr font font style asp教我如何使用CSSfont style属性使文本变为粗体相当于
Intellij：提交之前：运行 git hooks

我想在提交之前启用运行 git hooks 我知道这是可能的因为我启用了它一次在一个项目中如下所示但我不记得弄清楚如何在另一个项目中做到这一点你能帮忙吗 thanks 引用自IJ论坛 https intellij suppor
使用 libxml-ruby 逐块处理大型 XML 文件

我想读一本大书XML http dblp uni trier de xml 包含超过一百万个小书目记录的文件例如

使用 libxml-ruby 逐块处理大型 XML 文件

使用 libxml-ruby 逐块处理大型 XML 文件 的相关文章

随机推荐

热门标签

使用 libxml-ruby 逐块处理大型 XML 文件的相关文章