跨多处理Python共享pandas数据帧字典

2024-04-09

我有一本 python pandas 数据帧字典。这本词典的总大小约为2GB。然而，当我在 16 个多处理中共享它时（在子进程中我只读取字典的数据而不修改它），它需要 32GB 内存。所以我想问我是否可以在多处理中共享这本字典而不复制它。我尝试将其转换为 manager.dict()。但似乎需要太长时间。实现这一目标的最标准方法是什么？谢谢。

我发现的最佳解决方案（它仅适用于某些类型的问题）是使用 Python 的 BaseManager 和 SyncManager 类进行客户端/服务器设置。为此，您首先设置一个为数据提供代理类的服务器。

数据服务器.py

#!/usr/bin/python
from    multiprocessing.managers import SyncManager
import  numpy

# Global for storing the data to be served
gData = {}

# Proxy class to be shared with different processes
# Don't put big data in here since that will force it to be piped to the
# other process when instantiated there, instead just return a portion of
# the global data when requested.
class DataProxy(object):
    def __init__(self):
        pass

    def getData(self, key, default=None):
        global gData
        return gData.get(key, None)

if __name__ == '__main__':
    port  = 5000

    print 'Simulate loading some data'
    for i in xrange(1000):
        gData[i] = numpy.random.rand(1000)

    # Start the server on address(host,port)
    print 'Serving data. Press <ctrl>-c to stop.'
    class myManager(SyncManager): pass
    myManager.register('DataProxy', DataProxy)
    mgr = myManager(address=('', port), authkey='DataProxy01')
    server = mgr.get_server()
    server.serve_forever()

运行上面一次并让它运行。下面是您用来访问数据的客户端类。

数据客户端.py

from   multiprocessing.managers import BaseManager
import psutil   #3rd party module for process info (not strictly required)

# Grab the shared proxy class.  All methods in that class will be availble here
class DataClient(object):
    def __init__(self, port):
        assert self._checkForProcess('DataServer.py'), 'Must have DataServer running'
        class myManager(BaseManager): pass
        myManager.register('DataProxy')
        self.mgr = myManager(address=('localhost', port), authkey='DataProxy01')
        self.mgr.connect()
        self.proxy = self.mgr.DataProxy()

    # Verify the server is running (not required)
    @staticmethod
    def _checkForProcess(name):
        for proc in psutil.process_iter():
            if proc.name() == name:
                return True
        return False

下面是使用多处理来尝试此操作的测试代码。

测试MP.py

#!/usr/bin/python
import time
import multiprocessing as mp
import numpy
from   DataClient import *    

# Confusing, but the "proxy" will be global to each subprocess, 
# it's not shared across all processes.
gProxy = None
gMode  = None
gDummy = None
def init(port, mode):
    global gProxy, gMode, gDummy
    gProxy  = DataClient(port).proxy
    gMode  = mode
    gDummy = numpy.random.rand(1000)  # Same as the dummy in the server
    #print 'Init proxy ', id(gProxy), 'in ', mp.current_process()

def worker(key):
    global gProxy, gMode, gDummy
    if 0 == gMode:   # get from proxy
        array = gProxy.getData(key)
    elif 1 == gMode: # bypass retrieve to test difference
        array = gDummy
    else: assert 0, 'unknown mode: %s' % gMode
    for i in range(1000):
        x = sum(array)
    return x    

if __name__ == '__main__':
    port   = 5000
    maxkey = 1000
    numpts = 100

    for mode in [1, 0]:
        for nprocs in [16, 1]:
            if 0==mode: print 'Using client/server and %d processes' % nprocs
            if 1==mode: print 'Using local data and %d processes' % nprocs                
            keys = [numpy.random.randint(0,maxkey) for k in xrange(numpts)]
            pool = mp.Pool(nprocs, initializer=init, initargs=(port,mode))
            start = time.time()
            ret_data = pool.map(worker, keys, chunksize=1)
            print '   took %4.3f seconds' % (time.time()-start)
            pool.close()

当我在我的机器上运行这个时，我得到......

Using local data and 16 processes
   took 0.695 seconds
Using local data and 1 processes
   took 5.849 seconds
Using client/server and 16 processes
   took 0.811 seconds
Using client/server and 1 processes
   took 5.956 seconds

这在您的多处理系统中是否适用取决于获取数据的频率。每次传输都会产生少量开销。如果您减少迭代次数，您可以看到这一点x=sum(array)环形。在某些时候，您花在获取数据上的时间会多于处理数据的时间。

除了多处理之外，我还喜欢这种模式，因为我只需在服务器程序中加载一次大数组数据，并且它会一直保持加载状态，直到我终止服务器。这意味着我可以针对数据运行一堆单独的脚本，并且它们执行速度很快；无需等待数据加载。

虽然这里的方法有点类似于使用数据库，但它的优点是可以处理任何类型的 python 对象，而不仅仅是简单的字符串和整数数据库表等。我发现使用数据库速度更快一些这些简单的类型，但对我来说，它往往更多地以编程方式工作，并且我的数据并不总是轻松移植到数据库。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

跨多处理Python共享pandas数据帧字典的相关文章

在 django ORM 中查询时如何将 char 转换为整数？

最近开始使用 Django ORM 我想执行这个查询 select student id from students where student id like 97318 order by CAST student id as UNSIG
将html数据解析成python列表进行操作

我正在尝试读取 html 网站并提取其数据例如我想查看公司过去 5 年的 EPS 每股收益基本上我可以读入它并且可以使用 BeautifulSoup 或 html2text 创建一个巨大的文本块然后我想搜索该文件我一直在使用
用枢轴点拟合曲线 Python

我有下面的图我想用 2 条线来拟合它使用 python 我设法适应上半部分 def func x a b x np array x return a x b popt pcov curve fit func up x up y 我想用另
Python zmq SUB 套接字未接收 MQL5 Zmq PUB 套接字

我正在尝试在 MQL5 中设置一个 PUB 套接字并在 Python 中设置一个 SUB 套接字来接收消息我在 MQL5 中有这个 include
在Python中连接反斜杠

我是 python 新手所以如果这听起来很简单请原谅我我想加入一些变量来生成一条路径像这样 AAAABBBBCCCC 2 2014 04 2014 04 01 csv Id TypeOfMachine year month year
如何在 Python 中解析和比较 ISO 8601 持续时间？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个 Python v2 库它允许我解析和比较 ISO 8601 持续时间may处于不同单
如何使用 Mysql Python 连接器检索二进制数据？

如果我在 MySQL 中创建一个包含二进制数据的简单表 CREATE TABLE foo bar binary 4 INSERT INTO foo bar VALUES UNHEX de12 然后尝试使用 MySQL Connector P
如何使用python在一个文件中写入多行

如果我知道要写多少行我就知道如何将多行写入一个文件但是当我想写多行时问题就出现了但是我不知道它们会是多少我正在开发一个应用程序它从网站上抓取并将结果的链接存储在文本文件中但是我们不知道它会回复多少行我的代码现在如下 r
在 Sphinx 文档中*仅*显示文档字符串？

Sphinx有一个功能叫做automethod从方法的文档字符串中提取文档并将其嵌入到文档中但它不仅嵌入了文档字符串还嵌入了方法签名名称参数我如何嵌入only文档字符串不包括方法签名 ref http www sphinx do
Numpy - 根据表示一维的坐标向量的条件替换数组中的值

我有一个data多维数组最后一个是距离另一方面我有距离向量r 例如 Data np ones 20 30 100 r np linspace 10 50 100 最后我还有一个临界距离值列表称为r0 使得 r0 shape Dat
javascript 是否有等效的 __repr__ ？

我最接近Python的东西repr这是 function User name password this name name this password password User prototype toString function r
Jupyter Notebook 找不到 Python 模块

不知道发生了什么但每当我使用 ipython 氢原子或 jupyter 笔记本时都找不到任何已安装的模块我知道我安装了 pandas 但笔记本说找不到我应该补充一点当我正常运行脚本时 python script py 它确实导入
从 NumPy ndarray 中选择行

我只想从 a 中选择某些行NumPy http en wikipedia org wiki NumPy基于第二列中的值的数组例如此测试数组的第二列包含从 1 到 10 的整数 gt gt gt test numpy array nump
如何在 Windows 命令行中使用参数运行 Python 脚本

这是我的蟒蛇hello py script def hello a b print hello and that s your sum sum a b print sum import sys if name main hello sys
Python：XML 内所有标签名称中的字符串替换（将连字符替换为下划线）

我有一个格式不太好的 XML 标签名称内有连字符我想用下划线替换它以便能够与 lxml objectify 一起使用我想替换所有标签名称包括嵌套的子标签示例 XML
如何解决 PDFBox 没有 unicode 映射错误？

我有一个现有的 PDF 文件我想使用 python 脚本将其转换为 Excel 文件目前正在使用PDFBox 但是存在多个类似以下错误 org apache pdfbox pdmodel font PDType0Font toUnico
如何应用一个函数 n 次？ [关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案假设我有一个函数它接受一个参数并返回相同类型的结果 def increment x return x 1 如何制作高阶函数repeat可以
Pandas 每周计算重复值

我有一个Dataframe包含按周分组的日期和 ID df date id 2022 02 07 1 3 5 4 2022 02 14 2 1 3 2022 02 21 9 10 1 2022 05 16 我想计算每周有多少 id 与上周重
在 JavaScript 函数的 Django 模板中转义字符串参数

我有一个 JavaScript 函数它返回一组对象 return Func id name 例如我在传递包含引号的字符串时遇到问题 Dr Seuss ABC BOOk 是无效语法 I tried name safe 但无济于事有什么解
Kivy - 单击按钮时编辑标签

我希望 Button1 在单击时编辑标签 etykietka 但我不知道如何操作你有什么想法吗 class Zastepstwa App def build self lista WebOps getList layout BoxLayo

随机推荐

如何使用 php 列出目录以在文件夹中导航，而不使用 javascript？ [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我正在寻找这个 PHP 函数列出目
android.view.InflateException：使用自定义视图时的二进制 XML 文件行

例外情况 gt 10 13 11 47 32 151 E AndroidRuntime 618 FATAL EXCEPTION main gt gt 10 13 11 47 32 151 E AndroidRuntime 618 andro
如何从Oracle数据库获取自增PK？ [复制]

这个问题在这里已经有答案了可能的重复 PLSQL JDBC 如何获取最后一行ID https stackoverflow com questions 3552260 plsql jdbc how to get last row id 我已
ASP.NET Core Identity - LoginPartial 在脚手架身份后损坏

我从 VS 2017 模板具有个人用户帐户的 Web 应用程序创建了一个新项目这会将 ASP NET Core Identity 添加为默认 UI 使用 nuget 中的 UI services AddDefaultIdentity
如何在功能上处理来自外部系统的状态？

我最近进入了函数式编程并且学习了几种以引用透明的方式处理某些副作用的方法国家单子 http apocalisp wordpress com 2011 03 20 towards an effect system in scala par
如何将 XSL 嵌入到 XML 中

我正在寻找一种将 XSL 嵌入 XML 的解决方案这样只有 1 个 XML 文件发送到浏览器我在这里尝试了 Dimitre Novatchev 提出的解决方案将 xsl 嵌入到 XML 文件中 https stackoverflow
创建显示上一张和下一张图像的一部分的图像滑块

我正在尝试使用 jQuery 创建幻灯片类似于jquery 滚动水平 http jquery malsup com cycle scrollhv html 但我希望部分显示上一张和下一张图像现在我拥有的是一个 div 隐藏了溢出其中
使用Python从sql server数据库检索数据

我正在尝试执行以下脚本但没有得到所需的结果也没有得到错误消息 import pyodbc cnxn pyodbc connect Driver SQL Server Native Client 11 0 Server mySRVERNA
从 Ajax 调用 Django View

我正在使用 Ajax 以及 Django 在按钮单击时执行一些操作我成功调用了 javascript 函数但无法调用 Django 视图没有错误但我认为打印语句没有打印 urls py urlpatterns patterns po
访问结构体中的位域

我对位字段概念很陌生我正在尝试访问结构中的元素但它显示错误aa v像这样 error incompatible types when assigning to type cc from type long unsigned int 如果
启动设置活动以获得结果

在我的应用程序中我正在检查用户设备上是否启用了 GPS 如果没有我想将他发送到设置以让他将其打开 Intent intent new Intent Settings ACTION LOCATION SOURCE SETTINGS s
使用（独立）模块化项目安装多个 Composer

我正在尝试找到使用 Composer 实现模块化结构的最佳方法假设我有这个框架树 cms site addons 假设开发人员可以使用插件来添加他们的项目composer json安装喜欢 site addons MyNewFeatur
delphi中枚举注册表子项

我试图根据服务器上安装的 MySQL 版本在客户端计算机上安装驱动程序为此我想通过注册表项检查服务器上的版本也就是说我需要枚举的子项HKEY LOCAL MACHINE SOFTWARE MySQL AB 该键下通常只有一个键其形式
使用 imageio 和 Python 当帧率太低时视频是黑色的

我有以下示例代码 import numpy as np writer imageio get writer test mp4 fps 1 max 800 resolution 256 for idx in range 1 max img n
无法使用适用于 IOS 的 facebook sdk 和适用于 facebook 的图 api 获取电子邮件地址

我正在尝试从用户那里获取电子邮件地址他登录我请求访问电子邮件的权限他选择确定然后我使用 facebook 的图形 API 来访问电子邮件地址 void fbDidLogin btnLogin isLoggedIn TRUE btn
我应该为 mgo 中的每个操作复制会话吗？

我想要upsert一个记录列表所以我有两种选择一种只使用一个会话另一种为每条记录复制一个会话所以按照我的观点第一种方法可能比第二种方法慢但是第一种方法会导致创建太多会话吗 1 使用一个会话 func this CvStoreS
想法：如何隐藏右边距中的 VCS 更改标记

我试图隐藏 intellij idea 右边缘的标记条纹我尝试过 settings gt Editor gt Colors and Fonts gt General 但无法在添加行或修改行中勾选取消勾选错误条纹标记我还尝试将
将带有回调的 Python 函数转换为 asyncio 可等待的函数

我想使用PyAudio异步上下文中的库但该库的主要入口点只有一个基于回调的 API import pyaudio def callback in data frame count time info status Do something
jqGrid - 是否可以过滤 colModel 中 jsonmap 的值

我正在使用 jqGrid 想知道 jqGrid 的 colModel 中的 jsonmap 的值是否可以具有过滤值 ColModel colModel name fname index action jsonmap cells cell c
跨多处理Python共享pandas数据帧字典

我有一本 python pandas 数据帧字典这本词典的总大小约为2GB 然而当我在 16 个多处理中共享它时在子进程中我只读取字典的数据而不修改它它需要 32GB 内存所以我想问我是否可以在多处理中共享这本字典而不复制它我尝

跨多处理Python共享pandas数据帧字典

跨多处理Python共享pandas数据帧字典 的相关文章

随机推荐

热门标签

跨多处理Python共享pandas数据帧字典的相关文章