加载巨大的 XML 文件并处理 MemoryError

2024-04-11

我有一个非常大的 XML 文件（准确地说是 20GB，是的，我需要全部）。当我尝试加载该文件时，收到此错误：

Python(23358) malloc: *** mmap(size=140736680968192) failed (error code=12)
*** error: can't allocate region
*** set a breakpoint in malloc_error_break to debug
Traceback (most recent call last):
  File "file.py", line 5, in <module>
    code = xml.read()
MemoryError

这是我当前读取 XML 文件的代码：

from bs4 import BeautifulSoup
xml = open('pages_full.xml', 'r')
code = xml.read()
xml.close()
soup = BeautifulSoup(code)

现在，我将如何消除这个错误并能够继续处理脚本。我会尝试将文件拆分为单独的文件，但由于我不知道这会如何影响 BeautifulSoup 以及 XML 数据，所以我不想这样做。

（XML 数据是来自我志愿参与的 wiki 的数据库转储，使用它导入不同时间段的数据，使用来自许多页面的直接信息）

Do not使用BeautifulSoup来尝试解析这么大的XML文件。使用元素树API http://docs.python.org/2/library/xml.etree.elementtree.html反而。具体来说，使用iterparse()功能 http://docs.python.org/2/library/xml.etree.elementtree.html#xml.etree.ElementTree.iterparse将文件解析为流，在收到元素通知时处理信息，然后delete再次元素：

from xml.etree import ElementTree as ET

parser = ET.iterparse(filename)

for event, element in parser:
    # element is a whole element
    if element.tag == 'yourelement'
         # do something with this element
         # then clean up
         element.clear()

通过使用事件驱动的方法，您永远不需要持有whole内存中的 XML 文档，您只提取需要的内容并丢弃其余的。

See the iterparse()教程和文档 http://effbot.org/zone/element-iterparse.htm.

或者，您也可以使用lxml库 http://lxml.de/;它以更快、功能更齐全的方式提供相同的 API。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

xml

beautifulsoup

mediawiki

加载巨大的 XML 文件并处理 MemoryError 的相关文章

如何获取右侧数据框中不在左侧数据框中的数据

我有两个数据帧我正在尝试输出其中一个数据帧中的数据而不是另一个数据帧中的数据我可以使用第一个数据帧中的数据但不能使用第二个数据帧中的数据 only new old merge new outer on Employee ID Ben
matplotlib：在次要标签下绘制主要刻度标签

这看起来应该很容易但我不知道该怎么做我有一个 X 轴上有时间的图我想设置两组刻度小刻度显示一天中的小时大刻度显示日月所以我这样做 set date ticks to something sensible xax ax get
使用记事本打开文本文件作为python中的帮助文件？

我想为我的简单程序的用户提供打开帮助文件的机会以指导他们如何充分利用我的程序理想情况下我希望在 GUI 上有一个蓝色的小帮助链接可以随时单击该链接从而在本机文本编辑器例如记事本中打开 txt 文件有没有一种简单的方法可以做到
参数太少错误，同时未使用参数占位符

我尝试使用 PYODBC 在 Access 数据库中执行 SQL 查询但出现以下错误 pyodbc Error 07002 07002 Microsoft ODBC Microsoft Access 驱动程序参数太少预期为 1 301
Emacs：在缓冲区求值期间将参数传递给下级 Python shell

最近我开始使用 Emacs 作为 Python IDE 它不太直观我现在遇到的问题是当使用 C c C c 评估缓冲区时如何将命令行参数传递给下级 python shell 感谢帮助这似乎并不容易实现管理的劣质流程python el模
在我的 Mac 上以 root 身份运行 pip 时出现“权限被拒绝”

我开始使用我的 Mac 来安装 Python 包就像我在工作中使用 Windows PC 一样然而在我的 Mac 上我经常遇到没有权限写入日志文件或站点包时出错于是我想到了跑步pip install
如何在 ASP.NET MVC 中将 XML 文件发送到客户端

在 ASP NET MVC 中我有一个数据库表我想在某个视图页面上有一个按钮如果某个用户单击该按钮我的应用程序将生成包含数据库中所有行的 XML 文件然后应将包含 XML 的文件发送到客户端以便用户看到下载弹出窗口同样我希
配置 Flask 以正确加载 Bootstrap js 和 css 文件

如何使用 Flask 中的 url for 指令来正确设置以便使用 Bootstrap 和 RGraph 的 html 页面可以正常工作假设我的 html 页面看起来像这样部分片段
Django - 该进程无法访问该文件，因为该文件正在被另一个进程使用

我正在尝试在 Windows 10 上运行 Django 我是 Django 的新手我正在使用 Compressor Toolkit 我的问题是我可以运行 manage py 但本地主机说 base html 第 9 行出错该进程无法访
如何避免在matplotlib中调用latex（输出到pgf）

我使用 matplotlib 及其 pgf 后端来生成包含在 LaTeX 投影仪文档中的绘图当我使用未定义的乳胶命令时我遇到了麻烦但对于我的应用程序我不需要 matplotlib 来使用 Latex 生成标签或注释我只想要正确的
通过API更新Twitter背景

我在通过 Twitter 的 API 更新背景时遇到了一些问题 target url http www google com logos 11th birthday gif ch curl init curl setopt ch CURLO
检测反射 DLL 注入

在过去的几年中恶意软件以及一些渗透测试工具如 Metasploit 的 meterpreter 负载已经开始使用反射 DLL 注入 PDF http www harmonysecurity com files HS P005 Ref
Google App Engine self.redirect() POST 方法

在 GAE Python 中使用 webApp 框架调用 self redirect some url 通过 GET 方法将用户重定向到该 URL 是否也可以通过带有一些参数的 POST 方法进行重定向如果可以的话怎样做 Than
Django admin.py 未知命令：'collectstatic'

我已经从 django 1 2 7 升级到 django 1 5 1我正在使用 python 2 6 6当我尝试跑步时python manage py collectstatic i get 未知命令 collectstatic 从我的设置
出于安全目的，您是否有理由不执行自己的算法来打乱 ID？

我计划实现我自己的非常简单的哈希公式为具有多个用户的应用程序添加一层安全性我目前的计划如下用户创建一个帐户此时后端会生成一个 ID ID 通过公式运行假设 ID 57 8926 36 7 或同样随机的东西然后我将新的用户
在Python中通过sys.stdout写入unicode字符串

暂时假设一个人无法使用print 从而享受自动编码检测的好处所以这给我们留下了sys stdout 然而 sys stdout太蠢了不做任何合理的编码 http bugs python org issue4947 现在人们阅读 Pytho
使用 pyspark 计算所有可能的单词对

我有一个文本文档我需要找到整个文档中重复单词对的可能数量例如我有下面的word文档该文档有两行每行用分隔文档 My name is Sam My name is Sam My name is Sam My name is Sa
*Python 内的 Kaggle API 文档？

我想写一个python从 Kaggle com 下载公共数据集的脚本 Kaggle API 是用 python 编写的但是我能找到的几乎所有文档和资源都是关于如何在命令行中使用该 API 的而关于如何使用kaggle图书馆内python
Pandas：合并多个数据框并控制列名称？

我想将九个 Pandas 数据帧合并到一个数据帧中对两列进行联接控制列名称这可能吗我有九个数据集它们都有以下列 org name items spend 我想将它们加入到具有以下列的单个数据框中 org name items df
如何测试send_file烧瓶

我有一个小型烧瓶应用程序它需要上传一些图像并将它们转换为多页 tiff 没什么特别的但是如何测试多个文件的上传和文件下载呢我的测试客户端 class RestTestCase unittest TestCase def setUp s

随机推荐

玩具外壳管道不正确

我不会撒谎这是一个家庭作业问题然而就我而言积分已经消失了现在我只是在寻找答案因为我想我可能疯了该程序的目标是执行命令ps A grep inputstring wc l其方式与 shell 的操作方式类似因此我生成进程
如何使用 UserManager 在 IdentityUser 上加载导航属性

我已经延长了IdentityUser包含用户地址的导航属性但是当让用户使用UserManager FindByEmailAsync 导航属性未填充 ASP NET Identity Core 是否有某种方法来填充导航属性例如实体框架的导
Java - 二维数组检查对角线数字板

目前我正在开发一个在 8x8 2D 阵列板中生成随机 0 和 1 的程序我要做的是检查对角线上的所有数字是否相同从角开始而不仅仅是任何对角线 example int array 0 0 0 0 0 0 0 1 0 0 1 0 1 0
VS Code 无法正确设置断点

我正在尝试调试一个小项目但无法让 Chrome 扩展调试器完全工作当我放置断点时它会移到我想要调试的函数之外我正在使用 webpack babel 我的项目托管在 Net 平台特别是 DNN 上包 json name disab
InputDispatcher：由于输入调度被禁用而丢弃事件

我正在为 Android 开发 ui 自动化平台由于某种原因有时非常罕见点击事件可能会被删除当它发生时我在日志中看到 I InputDispatcher 2707 Dropped event because input dispa
VS2010，F5 - 构建但不运行（WPF）

我们刚刚将 WPF 应用程序转换为 VS2010 当我按 F5 时解决方案会构建但随后不会运行如果我执行 CNTL F5 无需调试即可启动应用程序运行得很好有任何想法吗谢谢杰夫不知道那是什么删除 suo文件关闭VS201
根据显示器分辨率缩放网站？

我正在寻找一个 JavaScript 来根据浏览者的屏幕分辨率更改网站的缩放我在桌面上制作了 1920x1080p 的网站 html moz transform scale 0 75 0 75 zoom 0 75 zoom 75 我在我的
无法通过 JNDI 查找 OSGI 服务

我正在使用 JBossAS7 我的应用程序有一些 OSGI 模块和大型非 OSGI 部分我尝试通过 JNDI 在非 osgi 子系统中查找 osgi 服务但它们不存在于 JNDI 上下文中我发现类似的问题JBOSS 7 JNDI 树中
在程序集中搜索所有子类型？

我想找到从基接口继承的所有类型有人有一个好的方法来做到这一点吗有想法吗我知道这是一个奇怪的请求但我仍然在玩它使用 Assembly GetTypes 获取所有类型并使用 Type IsAssignableFrom 检查继承如
通过 Android Intent 共享位图

在我的 Android 应用程序中我有一个位图比如 b 和一个按钮现在当我单击按钮时我想共享位图我正在使用下面的代码onClick 为了达成这个 Intent intent new Intent Intent ACTION SE
Bash 脚本 - 自动填写答案

我有一个 bash 脚本其中有几个问题是否可以自动填写答案 script sh install 按顺序回答y 2 1 n n 我怎样才能在 bash 中做到这一点编辑是否可以只通过第一个答案 echo y install 并让用户选
C++ - 重复使用 istringstream

我有一个代码用于读取在线存储的浮点数文件如下所示 3 34 2 3409 1 0001 1 1 我想使用 istringstream 阅读它们但它并不像我预期的那样工作 string row string strNum istrings
ios8 中 iphone 的 UIPopoverController 显示白屏

在 iphone 中使用 ios8 0 以下的 UIPopovercontroller 可以正常使用此代码但在ios8中却显示白屏 Code pickerController UIViewController alloc init UIV
CSS 伪元素上的事件侦听器，例如 ::after 和 ::before？

我有一个div带有 CSS 伪元素的元素 before用作关闭按钮而不是使用实际按钮如何应用事件侦听器only伪元素 HTML div div CSS box before background image url close png
在 Eclipse 中更改概览标尺颜色

如何更改概览规则背景Eclipse 3 4 0 I20080617 2000 中的颜色编辑窗口右侧的垂直条带有一些注释常规 gt 编辑器 gt 文本编辑器 gt 注释仅允许更改标记本身的颜色而不是整个栏的背景看来我的网络搜索能力越
Laravel afterFind 回调事件

laravel 中是否有像 cakePHP 中那样的 afterFind 模型事件以便我可以在任何搜索查询后格式化数据或任何其他方式来做到这一点 Thanks 它不是一个事件而是一个可以在模型中设置的变异器您只需在模型中创建一个名为
导出 eclipse 可部署插件和片段时出错

我有一个 Eclipse 插件在 Eclipse 环境中运行良好我想将其导出为 jar 文件因此我选择了导出 gt 可部署插件和片段我可以得到一个jar文件但是报告了一个错误打开日志文件它报告我有 1242 个问题 191 个
从顶部裁剪图像

通过设置从底部左侧或右侧裁剪图像非常容易overflow hidden图像容器的属性 div class img container img class img src img jpg div 有没有办法从顶部裁剪图像如果正在调整窗口大
如何为react-big-calendar（fullcalendar.js）设置momentLocalizer（moment.js）？

我在用着反应大日历 https github com intljusticemission react big calendar并需要帮助来实现所需的本地化来自 git 的示例 import BigCalendar from react
加载巨大的 XML 文件并处理 MemoryError

我有一个非常大的 XML 文件准确地说是 20GB 是的我需要全部当我尝试加载该文件时收到此错误 Python 23358 malloc mmap size 140736680968192 failed error code 12

加载巨大的 XML 文件并处理 MemoryError

加载巨大的 XML 文件并处理 MemoryError 的相关文章

随机推荐

热门标签