如何调试Python内存故障？

2024-02-27

编辑：非常感谢在查找错误方面的帮助 - 但由于它可能很难找到/重现，任何一般的调试帮助也将不胜感激！帮助我帮助我自己！ =)

编辑2：缩小范围，注释掉代码。

编辑3：看来lxml可能不是罪魁祸首，谢谢！完整的脚本是here http://pastebin.com/iar4MhY6。我需要仔细检查一下，寻找参考资料。他们看起来怎么样？

编辑 4：实际上，脚本在此停止（100%） parse_og 一部分。所以编辑 3 是错误的 - 它一定是 lxml 不知何故。

编辑 5 主要编辑：正如下面 David Robinson 和 TankorSmash 的建议，我发现了一种data将发送的内容lxml.etree.HTML( data )在疯狂的循环中。（我粗心地忽略了它，但发现我的罪孽得到了救赎，因为我付出了额外两天调试的代价！；）一个有效的崩溃脚本在这里。 http://pastebin.com/0kCPQz3N （还提出了一个新问题。） https://stackoverflow.com/questions/15367001/how-to-prevent-lxml-etree-html-data-from-crashing-on-certain-type-of-data

编辑 6：事实证明这是 lxml 版本 2.7.8 及以下版本的一个错误（位于至少）。更新至lxml 2.9.0 ftp://xmlsoft.org/libxml2/，bug 就消失了。也感谢这里的好人这个后续问题。 https://stackoverflow.com/questions/15367001/how-to-prevent-lxml-etree-html-data-from-crashing-on-certain-type-of-data

我不知道如何调试我遇到的这个奇怪的问题。下面的代码可以正常运行大约五分钟，此时 RAM 突然完全填满（在 100% 期间从 200MB 到 1700MB - 然后当内存已满时，它会进入蓝色等待状态）。

这是由于下面的代码，特别是前两行。这是肯定的。但到底是怎么回事呢？什么可以解释这种行为？

def parse_og(self, data):
    """ lxml parsing to the bone! """
    try:
        tree = etree.HTML( data ) # << break occurs on this line >>
        m = tree.xpath("//meta[@property]")

        #for i in m:
        #   y = i.attrib['property']
        #   x = i.attrib['content']
        #   # self.rj[y] = x  # commented out in this example because code fails anyway


        tree = ''
        m = ''
        x = ''
        y = ''
        i = ''

        del tree
        del m
        del x
        del y
        del i

    except Exception:
        print 'lxml error: ', sys.exc_info()[1:3]
        print len(data)
        pass

你可以试试使用 GDB 进行低级 Python 调试 http://grapsus.net/blog/post/Low-level-Python-debugging-with-GDB。 Python 解释器或 lxml 库中可能存在错误，如果没有额外的工具很难找到它。

当 CPU 使用率达到 100% 时，您可以中断在 gdb 下运行的脚本并查看堆栈跟踪。它可能有助于理解脚本内部发生的事情。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何调试Python内存故障？的相关文章

JavaScript 相当于 Python 的参数化 string.format() 函数

这是 Python 示例 gt gt gt Coordinates latitude longitude format latitude 37 24N longitude 115 81W Coordinates 37 24N 115 81W
从Python中的字符串中提取货币金额

我正在制作一个程序从字符串中获取货币并将其转换为其他货币例如如果字符串是 the car cost me 13 250 我需要得到 and 13250 我已经有了这个正则表达式 1 确实如此但是该字符串很有可能有多个价格并且全部使
Kivy - 文本换行工作错误

我正在尝试在 Kivy 1 8 0 应用程序中换行文本当没有太多文字时一切正常但如果文本很长并且窗口不是很大它只是剪切文本这是示例代码 vbox BoxLayout orientation vertical size hint y
for 循环如何评估其参数

我的问题很简单 Does a for循环评估它每次使用的参数 Such as for i in range 300 python 是否会为此循环的每次迭代创建一个包含 300 个项目的列表如果是的话这是避免这种情况的方法吗 lst ra
使用 Django Rest 保存 Base64ImageField 类型会将其保存为原始图像。如何将其转换为普通图像

我的模型中有 5 个图像字段 imageS imageS imageS imageS 和 imageE 我正在尝试按以下方式保存图像图像的类型Base64ImageField images imageA imageB imageC ima
如何在 PyCharm 4.5.2 中使用 PyPy 作为标准/默认解释器？

如何在 PyCharm 4 5 2 中使用 PyPy 作为标准默认解释器一切都在 Ubunutu 14 10 下运行并且 pypy 已经安装您可以在项目的设置下进行配置这个官方文档直接涵盖了 https www jetbrains
当我在 Pandas 中使用 df.corr 时，我的一些列丢失了

这是我的代码 import numpy as np import pandas as pd import seaborn as sns import matplotlib pyplot as plt data pd read csv dea
当单词以“|”分隔时如何读取文件（埃因霍温）？

在Python中我有一个文件其中的单词由例如 city state zipcode 我的文件阅读器无法区分单词另外我希望我的文件阅读器从第 2 行而不是第 1 行开始如何让我的文件阅读器分隔单词 import os import
更改 Altair 中的构面标题位置？

如何将方面标题在本例中为年份移动到每个图的上方默认值似乎位于图表的一侧这可以轻易改变吗 import altair as alt from vega datasets import data df data seattle weat
PySide6.1 与 matplotlib 3.4 不兼容

当我只安装PySide6时 GUI程序运行良好但是一旦我安装了matplotlib及其依赖包包括pyqt5 则GUI程序将无法运行并输出以下错误消息 This application failed to start because no
Pandas 滚动窗口 Spearman 相关性

我想使用滚动窗口计算 DataFrame 两列之间的 Spearman 和或 Pearson 相关性我努力了df corr df col1 rolling P corr df col2 P为窗口尺寸但我似乎无法定义该方法添加meth
如何使用 Django 项目设置 SQLite？

我已阅读 Django 文档仅供参考 https docs djangoproject com en 1 3 intro tutorial01 https docs djangoproject com en 1 3 intro tutor
与 while 循环一样，如何跳过 for 循环中的步骤？

我尝试像 while 循环一样跳过 for 循环中的几个步骤在 while 循环中步骤根据特定条件进行调整如下面的代码所示 i 0 while i lt 10 if i 3 i 5 else print i i i 1 result
Python多处理错误“ForkAwareLocal”对象没有属性“连接”

下面是我的代码我面临着多处理问题我看到这个问题之前已经被问过我已经尝试过这些解决方案但它似乎不起作用有人可以帮我吗 from multiprocessing import Pool Manager Class X def init
如何使用 paramiko 查看（日志）文件传输进度？

我正在使用 Paramiko 的 SFTPClient 在主机之间传输文件我希望我的脚本打印文件传输进度类似于使用 scp 看到的输出 scp my file user host user host password my file 1
解析根元素内元素之间的 XML 文本

我正在尝试用 Python 解析 XML 以下是 XML 结构的示例 a aaaa1 b bbbb b aaaa2 a
如何使用eclipse调试JSP tomcat服务？

我想使用 Eclipse IDE 调试器来调试单独运行的 JSP Struts Tomcat Hibernate 应用程序堆栈如何设置 java JVM 和 eclipse 以便设置断点监视变量值并查看当前正在执行的代码我刚刚用谷歌搜
如何循环遍历字典列表并打印特定键的值？

我是 Python 新手有一个问题我知道这是一个非常简单的问题运行Python 3 4 我有一个需要迭代并提取特定信息的列表以下是列表称为部分的示例已截断数千个项目 state DEAD id phwl type name
长/宽数据到宽/长

我有一个数据框如下所示 import pandas as pd d decil 1 decil 1 decil 2 decil 2 decil 3 decil 3 decil kommune AA BB AA BB AA BB 2010
缓存 Flask-登录 user_loader

我有这个 login manager user loader def load user id None return User query get id 在我引入 Flask Principal 之前它运行得很好 identity loa

随机推荐

Python + Selenium：我无法从 div 获取打印文本

Python Selenium 我无法从此 div 获取打印文本 div class modal content div SignUp Failed Please Try Again div div 我试过这个 resp browser f
R-莱曼素性测试中的模数警告

我花了一点时间破解莱曼素性测试的 R 实现我借鉴的功能设计http davidkendal net articles 2011 12 lehmann primality test http davidkendal net articles
根据另一个下拉列表填充一个下拉列表

我有两个下拉菜单如下所示
SQLiteDatabase - 如何使用where子句？

public Cursor fetchTimetable return mDb query DATABASE TABLE TIMETABLE new String TIMETABLE ROWID TIMETABLE MODULECODE T
使用分类器更改工件的 Maven 依赖关系

使用 maven jar 插件我构建了两个 jar bar 1 0 0 jar 和 bar 1 0 0 client jar 实际上在我的 POM 中我有以下依赖项
是“|”推荐的语义 URL 分隔符？

研究了Google和SO之后似乎对此有矛盾的意见我们在使用 Google Chrome 替代品时遇到了问题分隔符为 7C 而 Firefox 和 Safari 则没有这是一个例子 http www example com page1
Spark 集群和 Cassandra 的 JanusGraph 的设置和配置

我正在一台机器上运行 JanusGraph 0 1 0 和 Spark 1 6 1 我按照描述进行了配置here https stackoverflow com questions 40105047 setup and configurat
SonarLint Eclipse：它是否也分析“src/test”中的源代码？

在我的公司我们目前正在使用SonarLint Eclipse 版本 3 1 中连接模式到 SonarQube 服务器版本 5 6 使用 SonarJava 版本 4 7 1 我们有一些插件和一些测试插件想要从 SonarLint Ecl
复制整数数组与布尔指针数组

我正在开发一个程序需要将数组复制数千数百万次现在我有两种表示数组中数据的方法整数数组 int someArray 8 8 where someArray a b 值可以为 0 1 或 2 或者指向布尔值的指针数组 bool som
是否可以根据条件添加运行时参数 - Azure Devops Pipeline

我当前的天蓝色管道如下所示 parameters name Deploy type Boolean default false name Stages type string values Stg A Stg B Stg C Stg D S
django admin/inline 中的只读字段

I use 这个片段 http www djangosnippets org snippets 937 将我的管理后端中的几个字段显示为只读但正如评论中所注意到的它在 stackedinline tabularinline 上不起作用
为什么要导入React

我的代码仅在导入 React 后才起作用但我没有在任何地方使用 React 而是使用 ReactDom import ReactDOM from react dom import React Component from react cl
如何在 k8s 中手动触发 kubernetes 作业（而不是 cron）

我有示例 k8s 作业只要您执行 kubectl apply 作业就会被触发并创建 pod 如何控制Pod的创建 apiVersion batch v1 kind Job metadata name pi with timeout spe
带有烧杯会话中间件和检查登录的瓶子钩子

我正在使用烧杯会话中间件编写一个瓶子应用程序我的代码是这样的 bottle route def slash try beaker session request environ beaker session except redirect
如何阻止nginx解析upstream到ip？

我想将 nginx 配置为反向代理以将 HTTP 请求转发到外部 Cloud API 这个nginx 但我收到连接拒绝错误 29 09 19 02 error 7 7 2 connect failed 111 Connection ref
Oracle SQL。我应该使用什么语句

给出的数据 inventory num id inventory group id num code 9681066 100003894 211 E 9679839 100003894 212 E 9687165 100003894 213
Android 中为什么有这么多内部类？

我是Android开发的新鱼在阅读书籍和Android源代码时我发现Android应用程序中有很多内部类为什么Android需要这么多内部类我对这些内部类感到困惑它们通常是实现设计的最有效的方式内部类可以访问包含它的类的私有成员
Linq 上下文对象未注册为 System.IDisposable 对象类型

我正在尝试在 using 语句中使用我的上下文对象它适用于一个项目但在另一个项目上我收到以下错误 using 语句中使用的类型必须是隐式可转换的到 System IDisposable 当我提到上下文对象时我指的是使用 L
.NET 4 ObjectCache - 我们可以挂钩“缓存过期”事件吗？

我有一个简单的对象被缓存如下所示 myCache Add someKey someObj policy Where myCache被声明为ObjectCache 但通过 DI 注入MemoryCache Default someObj是我
如何调试Python内存故障？

编辑非常感谢在查找错误方面的帮助但由于它可能很难找到重现任何一般的调试帮助也将不胜感激帮助我帮助我自己编辑2 缩小范围注释掉代码编辑3 看来lxml可能不是罪魁祸首谢谢完整的脚本是here http pastebin c

如何调试Python内存故障？

如何调试Python内存故障？ 的相关文章

随机推荐

热门标签

如何调试Python内存故障？的相关文章