Python 多处理:同步类文件对象

2024-03-05

我正在尝试创建一个类似对象的文件,该对象在测试期间分配给 sys.stdout/sys.stderr 以提供确定性输出。它并不意味着快速,只是可靠。到目前为止我所拥有的almost有效,但我需要一些帮助来消除最后几个边缘情况错误。

这是我当前的实现。

try:
    from cStringIO import StringIO
except ImportError:
    from StringIO import StringIO

from os import getpid
class MultiProcessFile(object):
    """
    helper for testing multiprocessing

    multiprocessing poses a problem for doctests, since the strategy
    of replacing sys.stdout/stderr with file-like objects then
    inspecting the results won't work: the child processes will
    write to the objects, but the data will not be reflected
    in the parent doctest-ing process.

    The solution is to create file-like objects which will interact with
    multiprocessing in a more desirable way.

    All processes can write to this object, but only the creator can read.
    This allows the testing system to see a unified picture of I/O.
    """
    def __init__(self):
        # per advice at:
        #    http://docs.python.org/library/multiprocessing.html#all-platforms
        from multiprocessing import Queue
        self.__master = getpid()
        self.__queue = Queue()
        self.__buffer = StringIO()
        self.softspace = 0

    def buffer(self):
        if getpid() != self.__master:
            return

        from Queue import Empty
        from collections import defaultdict
        cache = defaultdict(str)
        while True:
            try:
                pid, data = self.__queue.get_nowait()
            except Empty:
                break
            cache[pid] += data
        for pid in sorted(cache):
            self.__buffer.write( '%s wrote: %r\n' % (pid, cache[pid]) )
    def write(self, data):
        self.__queue.put((getpid(), data))
    def __iter__(self):
        "getattr doesn't work for iter()"
        self.buffer()
        return self.__buffer
    def getvalue(self):
        self.buffer()
        return self.__buffer.getvalue()
    def flush(self):
        "meaningless"
        pass

...和一个快速测试脚本:

#!/usr/bin/python2.6

from multiprocessing import Process
from mpfile import MultiProcessFile

def printer(msg):
    print msg

processes = []
for i in range(20):
    processes.append( Process(target=printer, args=(i,), name='printer') )

print 'START'
import sys
buffer = MultiProcessFile()
sys.stdout = buffer

for p in processes:
    p.start()
for p in processes:
    p.join()

for i in range(20):
    print i,
print

sys.stdout = sys.__stdout__
sys.stderr = sys.__stderr__
print 
print 'DONE'
print
buffer.buffer()
print buffer.getvalue()

这在 95% 的情况下都可以正常工作,但它存在三个边缘情况问题。我必须在快速 while 循环中运行测试脚本才能重现这些。

  1. 3% 的情况下,父进程的输出没有完全反映。我认为这是因为数据在队列刷新线程赶上之前就被消耗了。我还没有想到一种方法来等待线程而不死锁。
  2. 0.5% 的时间,有来自 multiprocess.Queue 实现的回溯
  3. .01% 的时间,PID 会回绕,因此按 PID 排序会给出错误的顺序。

在最坏的情况下(几率:七千万分之一),输出将如下所示:

START

DONE

302 wrote: '19\n'
32731 wrote: '0 1 2 3 4 5 6 7 8 '
32732 wrote: '0\n'
32734 wrote: '1\n'
32735 wrote: '2\n'
32736 wrote: '3\n'
32737 wrote: '4\n'
32738 wrote: '5\n'
32743 wrote: '6\n'
32744 wrote: '7\n'
32745 wrote: '8\n'
32749 wrote: '9\n'
32751 wrote: '10\n'
32752 wrote: '11\n'
32753 wrote: '12\n'
32754 wrote: '13\n'
32756 wrote: '14\n'
32757 wrote: '15\n'
32759 wrote: '16\n'
32760 wrote: '17\n'
32761 wrote: '18\n'

Exception in thread QueueFeederThread (most likely raised during interpreter shutdown):
Traceback (most recent call last):
  File "/usr/lib/python2.6/threading.py", line 532, in __bootstrap_inner
  File "/usr/lib/python2.6/threading.py", line 484, in run
      File "/usr/lib/python2.6/multiprocessing/queues.py", line 233, in _feed
<type 'exceptions.TypeError'>: 'NoneType' object is not callable

在 python2.7 中,异常略有不同:

Exception in thread QueueFeederThread (most likely raised during interpreter shutdown):
Traceback (most recent call last):
  File "/usr/lib/python2.7/threading.py", line 552, in __bootstrap_inner
  File "/usr/lib/python2.7/threading.py", line 505, in run
  File "/usr/lib/python2.7/multiprocessing/queues.py", line 268, in _feed
<type 'exceptions.IOError'>: [Errno 32] Broken pipe

我如何摆脱这些边缘情况?


解决方案分为两部分。我已经成功运行测试程序 20 万次,输出没有任何变化。

最简单的部分是使用 multiprocessing.current_process()._identity 对消息进行排序。这不是已发布 API 的一部分,但它是每个进程的唯一、确定性标识符。这解决了 PID 环绕并给出错误的输出顺序的问题。

解决方案的另一部分是使用 multiprocessing.Manager().Queue() 而不是 multiprocessing.Queue。这解决了上面的问题#2,因为管理器位于一个单独的进程中,因此可以避免在所属进程中使用队列时出现一些不良的特殊情况。 #3 已修复,因为队列已完全耗尽,并且供给线程在 python 开始关闭并关闭 stdin 之前自然死亡。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Python 多处理:同步类文件对象 的相关文章

随机推荐

  • mysql相关字段

    这4个字段是相互关联的 I want it to output it as In my query SELECT users firstname users lastname users screenname posts post id p
  • PHP:从关联数组中删除重复值并返回包含重复值的关联数组

    我有如下所示的关联数组 arr 1 gt 0 2 gt 1 3 gt 1 4 gt 2 我想从初始数组中删除重复值并将这些重复值作为新数组返回 所以我最终会得到类似的东西 arr 1 gt 0 4 gt 2 new arr 2 gt 1 3
  • 如何修复 React Native 中的“translatex 键的转换必须是数字”错误?

    我正在尝试在 React Native 中制作翻译动画 这是我的代码 const scrollX React useRef new Animated Value 0 current
  • git:克隆没有引入所有文件?

    我刚刚创建了名为的目录website 这有几个图像 index html 页面等 我跑了 git bare init shared 0777 现在 它成功创建了一个空的共享存储库 我现在尝试通过进入来克隆这个项目 developers de
  • 如何检测WP8中是否正在播放背景音乐?

    如果有人开发过 WP 应用 你就会知道 如果你的应用在未经用户同意的情况下停止当前正在播放的音乐 你就无法通过认证 我确实看到了这个问题here https stackoverflow com questions 7034205 how t
  • Jquery日期比较

    您好 我使用以下代码将输入的日期与当前日期进行比较 但它不起作用 change function var date val var arrDate date split var today new Date var useDate new
  • Android:有没有办法获取国家/地区名称的时区?

    有没有办法让时区指定国家 地区名称 我用getCountryName 在地图中获取国家 地区的名称 考虑到一些国家跨越多个时区 这似乎很困难
  • 如何立即查看IntelliJ Idea项目树中的编译错误?

    我想知道是否可以配置 IntelliJ Idea 以立即显示项目树中的类文件的编译错误 目前 如果无法编译类 我需要手动触发重新编译以查看类上的错误标记 从 IntelliJ 12 开始 有一个选项可以根据源代码更改自动构建项目 在 设置
  • 在powershell中将字符串转换为日期时间

    我正在尝试使用以下行解析文件名 字符串 并将它们转换为 powershell 中的日期 datetime ParseExact DirName BaseName yyyyMMdd null 问题是 并非该目录中的所有文件夹都遵循该命名约定
  • Pytesseract 对于实时 OCR 来说非常慢,有什么方法可以优化我的代码吗?

    我正在尝试使用 python 创建实时 OCRmss and pytesseract 到目前为止 我已经能够捕获整个屏幕 其 FPS 稳定为 30 如果我想捕获大约 500x500 的较小区域 我已经能够获得 100 FPS 然而 一旦我包
  • Laravel 5 路由前缀

    我想要一条以国家 地区为前缀的路线 像这样 us shop ca shop fr shop 我的想法是这样做
  • 排列未排序

    我知道一种算法 可以在网上找到 对排列进行排名 即给定一个排列 将整数索引返回到按字典顺序排序的排列列表中 但我不知道unrank执行相反操作的算法 给定索引 i 返回按字典顺序排列的第 i 个排列 由于我找不到任何内容 有人可以透露一些信
  • IIS Web.Config 301 重定向查询字符串参数 (?)

  • javafx-TableView 作为组合框弹出窗口(尝试并能够部分实现。需要进一步帮助)

    我需要的 需要一个可编辑的组合框 它可以在键入时过滤弹出窗口上的数据 并且第一个匹配的项目应突出显示 并应在按 Enter 键时设置为组合中的文本 弹出窗口应该是一个包含 2 或 3 列的表格视图 附有屏幕截图 在图像中 它是一个文本字段
  • 使 高度适合页面

    考虑一个包含三行且高度分别为 10 10 的表格 我希望中间的单元格足够高以垂直适应页面 不幸的是 height 100 在 table tr 或 td 级别不起作用 可能是由于标准的原因 即使它恰好有效 我也不想要 100 我想要 100
  • Google Protocol Buffers:根据我的请求设置日期值时,c.toArray 不是函数

    我正在尝试构建一个创建请求grpc web 我已经生成了协议缓冲区 并且可以成功获取信息 但在创建请求时遇到问题 Eg const request new PricingMethodRequest request setCurrencyId
  • 我的 Windows 窗体应用程序大小在不同笔记本上发生变化

    我的项目编码进展顺利 但今天我注意到一个问题 我的主笔记本电脑具有全高清 1920x1080 分辨率 我正在此处编写我的项目 当我将主笔记本电脑的分辨率更改为 1280x1024 1280x800 或 1024x768 时 没有问题 我的应
  • git - 服务器主机密钥未缓存

    我尝试将更改从本地存储库推送到远程存储库 当我输入 git push origin 我收到以下错误 The server s host key is not cached in the registry You have no guaran
  • Django - 没有名为 app 的模块

    我一直在尝试让 django 编写的应用程序正常工作 但它根本不工作 我也已经工作了一段时间 它在开发服务器上完美运行 但我无法放入生产环境 apahce 我的项目名称是 apstat 应用程序名称是 basic 我尝试按以下方式访问它 块
  • Python 多处理:同步类文件对象

    我正在尝试创建一个类似对象的文件 该对象在测试期间分配给 sys stdout sys stderr 以提供确定性输出 它并不意味着快速 只是可靠 到目前为止我所拥有的almost有效 但我需要一些帮助来消除最后几个边缘情况错误 这是我当前