在长时间运行的进程中，numpy tolist() 出现明显的内存泄漏

2023-12-25

我运行一个服务器，充当团队内客户端的数据处理节点。最近我们一直在重构服务器内的遗留代码以利用numpy对于一些过滤/转换作业。

由于我们必须将这些数据提供给远程客户端，因此我们使用以下方法将 numpy 数据转换为各种形式：numpy.tolist()作为中间步骤。

每个查询都是无状态的，没有全局变量，因此在查询之间不维护任何引用。

在一个特定步骤中，我遇到了明显的内存泄漏，我一直试图通过内存分析器。此步骤涉及将大型（>4m 条目）浮点数 ndarray 转换为 python 列表。我第一次发出查询时， tolist() 调用分配 120m 内存，然后在释放 numpy 数组时释放 31m 内存。第二次（以及随后的几次）我发出相同的查询，分配/释放是 31m。我发出的每个不同查询都具有相同的模式，但绝对值不同。

我已经拆解了我的代码，并出于说明目的强行输入了一些 del 命令。下面的输出来自内存分析器.profile

第一期查询：

Line #    Mem usage    Increment   Line Contents
================================================
   865    296.6 MiB      0.0 MiB           p = ikeyData[1]['value']
   866    417.2 MiB    120.6 MiB           newArr = p.tolist()
   867    417.2 MiB      0.0 MiB           del p
   868    385.6 MiB    -31.6 MiB           del ikeyData[1]['value']
   869    385.6 MiB      0.0 MiB           ikeyData[1]['value'] = newArr

同一查询的第二个（及后续）实例：

Line #    Mem usage    Increment   Line Contents
================================================
   865    494.7 MiB      0.0 MiB           p = ikeyData[1]['value']
   866    526.3 MiB     31.6 MiB           newArr = p.tolist()
   867    526.3 MiB      0.0 MiB           del p
   868    494.7 MiB    -31.6 MiB           del ikeyData[1]['value']
   869    494.7 MiB      0.0 MiB           ikeyData[1]['value'] = newArr

正如您可以想象的那样，在具有高度可变查询的长期运行过程中，这些分配会迫使我们定期跳动服务器。

有人对这里可能发生的事情有想法吗？

在你的情况下，Python 可能已经释放了内存。

这并不意味着内存分配器一定会返回内存到操作系统。memory_profiler使用系统调用来找出当前已使用的内存量。所以你的代码可能没有问题。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python27

NumPy

在长时间运行的进程中，numpy tolist() 出现明显的内存泄漏的相关文章

从文本文件中删除特定字符

我对 Python 和编码都很陌生我当时正在做一个小项目但遇到了一个问题 44 1 6 23 2 7 49 2 3 53 2 1 68 1 6 71 2 7 我只需要从每行中删除第三个和第六个字符或者更具体地说从整个文件中删除字符
稀有对象的 python 类型注释，例如 psycopg2 对象

我了解内置类型但是我如何指定稀有对象例如数据库连接对象 def get connection and cursor gt tuple psycopg2 extensions cursor psycopg2 extensions conn
在python中将数据库表写入文件的最快方法

我正在尝试从数据库中提取大量数据并将其写入 csv 文件我正在尝试找出最快的方法来做到这一点我发现在 fetchall 的结果上运行 writerows 比下面的代码慢 40 with open filename a as f writ
反编译Python 3.9.2的PYC文件[重复]

这个问题在这里已经有答案了目前我有一个 3 9 2 版本的 python 的 PYC 文件 P S 这适用于所有 3 9 及更高版本我正在尝试反编译 PYC 文件但它显示错误因为 uncompyle6 或者更确切地说新版本 de
创建上下文后将 jar 文件添加到 pyspark

我正在笔记本上使用 pyspark 并且不处理 SparkSession 的创建我需要加载一个包含一些我想在处理 rdd 时使用的函数的 jar 您可以使用 jars 轻松完成此操作但在我的特定情况下我无法做到这一点有没有办法访问sp
使用python从gst管道抓取帧到opencv

我在用着OpenCV http opencv org 和GStreamer0 10 我使用此管道通过自定义套接字通过 UDP 接收 MPEG ts 数据包sockfd由 python 提供并显示它xvimagesink 而且效果很好以下命
Python Tkinter 模块不显示输出

我正在尝试学习 Python 并尝试使用 Python 中的 GUI 并遇到了这个 Tkinter 模块我的代码运行但运行时窗口没有出现我的代码如下 from Tkinter import to create a root windo
Spark 和 Python 使用自定义文件格式/生成器作为 RDD 的输入

我想问一下 Spark 中输入的可能性我可以看到从http spark apache org docs latest programming guide html http spark apache org docs latest pro
查找 Pandas DF 行中的最短日期并创建新列

我有一个包含多个日期的表有些日期将为 NaN 我需要找到最旧的日期所以一行可能有 DATE MODIFIED WITHDRAWN DATE SOLD DATE STATUS DATE 等因此对于每一行一个或多个字段中都会有一个日期
如何查找或安装适用于 Python 的主题 tkinter ttk

过去 3 个月我一直在制作一个机器人仅用代码就可以完美运行现在我的下一个目标是为它制作一个 GUI 但是我发现了一些障碍主要的一个是能够看起来不像一个 30 年前的程序我使用的是 Windows 7 我仅使用 Python 3 3
Ubuntu systemd 自定义服务因 python 脚本而失败

希望获得有关 Ubuntu 中的 systemd 守护进程服务的一些帮助我写了一个 python 脚本来禁用 Dell XPS 上的触摸屏这更像是一个问题而不是一个有用的功能该脚本可以工作但我不想一直启动它这就是为什么我想到编写
Python 中维基百科 API 中的 DisambiguationError 和 GuessedAtParserWarning

我想获得维基百科与搜索词相关的可能且可接受的名称列表在这种情况下是电晕当输入以下内容时 print wikipedia summary Corona 这给出了以下输出 home virej local lib python3 8 si
如何指示 urwid 列表框的项目数多于当前显示的项目数？

有没有办法向用户显示 urwid 列表框在显示部分上方下方有其他项目我正在考虑类似滚动条的东西它可以显示条目的数量或者列表框顶部底部的单独栏如果这个行为无法实现有哪些方法可以实现这个通知在我的研究过程中我发现这个问题 ht
检测是否从psycopg2游标获取？

假设我执行以下命令 insert into hello username values me 我跑起来就像 cursor fetchall 我收到以下错误 psycopg2 ProgrammingError no results to fe
如何在亚马逊 EC2 上调试 python 网站？

我是网络开发新手这可能是一个愚蠢的问题但我找不到可以帮助我的确切答案或教程我工作的公司的网站用 python django 构建托管在亚马逊 EC2 上我想知道从哪里开始调试这个生产站点并检查存储在那里的日志和数据库我有帐户信
如何将带有参数的Python装饰器实现为类？

我正在尝试实现一个接受一些参数的装饰器通常带有参数的装饰器被实现为双重嵌套闭包如下所示 def mydecorator param1 param2 do something with params def wrapper fn def
如何获取pandas中groupby对象中的组数？

我想知道有多少个独特的组需要执行计算给定一个名为 groupby 的对象dfgroup 我们如何找到组的数量简单快速 Pandaic ngroups 较新版本的 groupby API pandas gt 0 23 提供了此未记录的
将 Keras 集成到 SKLearn 管道？

我有一个 sklearn 管道对异构数据类型布尔分类数字文本执行特征工程并想尝试使用神经网络作为我的学习算法来拟合模型我遇到了输入数据形状的一些问题我想知道我想做的事情是否可能或者我是否应该尝试不同的方法我尝试了几种不
用于插入或替换 URL 参数的 Django 模板标签

有人知道 Django 模板标签可以获取当前路径和查询字符串并插入或替换查询字符串值吗例如向 some custom path q how now brown cow page 3 filter person 发出请求电话 urlpar
无法安装最新版本的 Numpy (1.22.3)

我正在尝试安装最新版本的 numpy 即 1 22 3 但看起来 pip 无法找到最后一个版本我知道我可以从源代码本地安装它但我想了解为什么我无法使用 pip 安装它 PS 我有最新版本的pip 22 0 4 ERROR Could n

随机推荐