无法将函数并行映射到 tarfile 成员

2023-12-29

我有一个包含 bz2 压缩文件的 tar 文件。我想应用该功能clean_file到每个 bz2 文件，并整理结果。在系列中，使用循环很容易：

import pandas as pd
import json
import os
import bz2
import itertools
import datetime
import tarfile
from multiprocessing import Pool

def clean_file(member):
    if '.bz2' in str(member):

        f = tr.extractfile(member)

        with bz2.open(f, "rt") as bzinput:
            dicts = []
            for i, line in enumerate(bzinput):
                line = line.replace('"name"}', '"name":" "}')
                dat = json.loads(line)
                dicts.append(dat)

        bzinput.close()
        f.close()
        del f, bzinput

        processed = dicts[0]
        return processed

    else:
        pass


# Open tar file and get contents (members)
tr = tarfile.open('data.tar')
members = tr.getmembers()
num_files = len(members)


# Apply the clean_file function in series
i=0
processed_files = []
for m in members:
    processed_files.append(clean_file(m))
    i+=1
    print('done '+str(i)+'/'+str(num_files))

但是，我需要能够并行执行此操作。我正在尝试使用的方法Pool像这样：

# Apply the clean_file function in parallel
if __name__ == '__main__':
   with Pool(2) as p:
      processed_files = list(p.map(clean_file, members))

但这会返回一个 OSError：

Traceback (most recent call last):
  File "/Users/johnfoley/opt/anaconda3/envs/racing_env/lib/python3.6/multiprocessing/pool.py", line 119, in worker
    result = (True, func(*args, **kwds))
  File "parse_data.py", line 19, in clean_file
    for i, line in enumerate(bzinput):
  File "/Users/johnfoley/opt/anaconda3/envs/racing_env/lib/python3.6/bz2.py", line 195, in read1
    return self._buffer.read1(size)
  File "/Users/johnfoley/opt/anaconda3/envs/racing_env/lib/python3.6/_compression.py", line 68, in readinto
    data = self.read(len(byte_view))
  File "/Users/johnfoley/opt/anaconda3/envs/racing_env/lib/python3.6/_compression.py", line 103, in read
    data = self._decompressor.decompress(rawblock, size)
OSError: Invalid data stream
"""

The above exception was the direct cause of the following exception:

Traceback (most recent call last):
  File "parse_data.py", line 53, in <module>
    processed_files = list(tqdm.tqdm(p.imap(clean_file, members), total=num_files))
  File "/Users/johnfoley/opt/anaconda3/envs/racing_env/lib/python3.6/site-packages/tqdm/std.py", line 1167, in __iter__
    for obj in iterable:
  File "/Users/johnfoley/opt/anaconda3/envs/racing_env/lib/python3.6/multiprocessing/pool.py", line 735, in next
    raise value
OSError: Invalid data stream

所以我猜这种方式无法正确访问 data.tar 或其他内容中的文件。如何并行应用该功能？

我猜这适用于任何包含 bz2 文件的 tar 存档，但这是我重现错误的数据：https://github.com/johnf1004/reproduct_tar_error https://github.com/johnf1004/reproduce_tar_error

您没有指定您正在运行的平台，但我怀疑它是 Windows，因为您有...

if __name__ == '__main__':
    main()

...这对于在使用操作系统功能的平台上创建进程的代码是必需的spawn用于创建新流程。但这也意味着当创建一个新进程（例如您正在创建的进程池中的所有进程）时，每个进程都会从程序的最顶部重新执行源程序。这意味着每个池进程正在执行以下代码：

tr = tarfile.open('data.tar')
members = tr.getmembers()
num_files = len(members)

但是，我不明白为什么这本身会导致错误，但我不能确定。然而，问题可能是，这是在调用工作函数之后执行的，clean_file正在被调用，所以tr尚未设置。如果这段代码前面clean_file它可能有效，但这只是一个猜测。当然提取成员members = tr.getmembers()在每个池进程中都是浪费的。每个进程都需要打开 tar 文件，最好只打开一次。

但很明显，您发布的堆栈跟踪与您的代码不匹配。你展示：

Traceback (most recent call last):
  File "parse_data.py", line 53, in <module>
    processed_files = list(tqdm.tqdm(p.imap(clean_file, members), total=num_files))

然而你的代码没有任何参考tqdm或使用方法imap。现在，当您发布的代码与产生异常的代码不太匹配时，分析您的实际问题变得更加困难。

如果您在 Mac 上运行，它可能正在使用fork要创建新进程，当主进程创建了多个线程（您不一定会看到，也许是通过tarfile模块），然后创建一个新进程，我已指定代码以确保spawn用于创建新流程。无论如何，下面的代码should工作。它还引入了一些优化。如果没有，请发布新的堆栈跟踪。

import pandas as pd
import json
import os
import bz2
import itertools
import datetime
import tarfile
from multiprocessing import get_context

def open_tar():
    # open once for each process in the pool
    global tr
    tr = tarfile.open('data.tar')

def clean_file(member):
    f = tr.extractfile(member)

    with bz2.open(f, "rt") as bzinput:
        for line in bzinput:
            line = line.replace('"name"}', '"name":" "}')
            dat = json.loads(line)
            # since you are returning just the first occurrence:
            return dat

def main():
    with tarfile.open('data.tar') as tr:
        members = tr.getmembers()
    # just pick members where '.bz2' is in member:
    filtered_members = filter(lambda member: '.bz2' in str(member), members)
    ctx = get_context('spawn')
    # open tar file just once for each process in the pool:
    with ctx.Pool(initializer=open_tar) as pool:
        processed_files = pool.map(clean_file, filtered_members)
        print(processed_files)

# required for when processes are created using spawn:
if __name__ == '__main__':
    main()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

无法将函数并行映射到 tarfile 成员的相关文章

如何在Python中选择要写入(.csv)的列

import csv f csv reader open lmt csv r open input file for reading Date Open Hihh mLow Close Volume zip f s plit it into
使用应用程序脚本将 MS Word 文件（保存在云端硬盘中）转换为 Google 文档

我被某些事情困住了找不到解决办法有没有办法使用文件 url 或 id 将存储在 Google Drive 中的 MS Word 文件转换为 Google 文档我目前有一个电子表格其中包含文件的网址或者也可以使用 python 脚
Python GTK + webkit - 在 gtk.main() 之后插入 JavaScript

我在终端中尝试了这个一切正常但是如果我在脚本内运行这个我无法在 gtk main 之后插入 JavaScript import gtk import webkit w gtk Window b webkit WebView w add
最小二乘法拟合直线 python 代码

我有一个由 X 和 Y 坐标组成的散点图我想使用直线的最小二乘拟合来获得最佳拟合线直线最小二乘拟合是指如果 x 1 y 1 x n y n 是测量数据对则最佳直线是y A Bx 这是我的Python代码 number of poin
Pandas 连接问题：列重叠但未指定后缀

我有以下数据框 print df a mukey DI PI 0 100000 35 14 1 1000005 44 14 2 1000006 44 14 3 1000007 43 13 4 1000008 43 13 print df b
组和平均 NumPy 矩阵

假设我有一个任意的 numpy 矩阵如下所示 arr 6 0 12 0 1 0 7 0 9 0 1 0 8 0 7 0 1 0 4 0 3 0 2 0 6 0 1 0 2 0 2 0 5 0 2 0 9 0 4 0 3 0 2 0 1 0
类型错误：float() 参数必须是字符串或数字，而不是“列表”python

我的 Python 有问题这是我的代码 def calcola a input b float a 0 split c float a 0 split d float a 0 split e float a 0 split j float
使用多级解决方案计算二维网格中的最近邻

我有一个问题在 x y 大小的网格中我提供了一个点并且我需要找到最近的邻居在实践中我试图在 pygame 中找到距离光标最近的点该点跨越颜色距离阈值计算如下 sqrt rgb1 0 rgb2 0 2 rgb1 1 rgb2 1
如何使用 i18n 切换器将“LANGUAGE_CODE”保存到数据库，以便在 Django 中的不同浏览器中语言不会更改？

有什么办法可以改变它的值LANGUAGE CODE单击按钮发送请求时 settings py 中的变量会动态变化吗我希望用户设置自己的默认语言他们的帐户现在用户可以使用下拉列表选择他们的首选语言并且网站会得到完美的翻译并且
通用详细视图 ProfileView 必须使用对象 pk 或 slug 调用

我是 Django 2 0 的新手在访问我的个人资料页面视图时收到此错误它适用于像这样的网址path users
Django 不会以奇怪的错误“AttributeError: 'module' object has no attribute 'getargspec'”启动

我对 Django 的内部结构有点缺乏经验所以我现在完全陷入困境它昨天起作用了但我不记得我改变过任何重要的东西当我转身时DEBUG True任何恰好位于列表中第一个的模块上都有堆栈跟踪 Traceback most recent c
张量流和线程

下面是来自 Tensorflow 网站的简单 mnist 教程即单层 softmax 我尝试通过多线程训练步骤对其进行扩展 from tensorflow examples tutorials mnist import input dat
scikit-learn 和tensorflow 有什么区别？可以一起使用它们吗？

对于这个问题我无法得到满意的答案据我了解 TensorFlow是一个数值计算库经常用于深度学习应用而Scikit learn是一个通用机器学习框架但它们之间的确切区别是什么 TensorFlow 的目的和功能是什么我可以一起使用它
Pandas groupby apply 执行缓慢

我正在开发一个涉及大量数据的程序我正在使用 python pandas 模块来查找数据中的错误这通常工作得非常快然而我当前编写的这段代码似乎比应有的速度慢得多我正在寻找一种方法来加快速度为了让你们正确测试它我上传了一段相当大的
为什么 __instancecheck__ 没有被调用？

我有以下 python3 代码 class BaseTypeClass type def new cls name bases namespace kwd result type new cls name bases namespace p
在 matplotlib 中绘制多边形的并集[重复]

这个问题在这里已经有答案了我正在尝试绘制几个多边形的并集matplotlib 具有一定的 alpha 水平我当前的代码在交叉点处颜色较深有没有办法让交叉路口与其他地方的颜色相同 import matplotlib pyplot as
如何使用 os.chdir 转到减去最后一步的路径？

例如一个方法传递了一个路径作为参数这个路径可能是 C a b c d 如果我想使用 os chdir 更改为 C a b 怎么办 c 没有最后一个文件夹 os chdir 可以接受命令吗 os chdir 可以采取作为论点是的然
在 Python 中访问 argparse 的参数值

我正在尝试为我的程序设置一些简单的标志参数但无法弄清楚如何访问它们我有 argparser parser argparse ArgumentParser description Simple PostScript Interpreter
如何使用 Python 3 正确显示倒计时日期

我正在尝试获取将显示的倒计时基本上就像一个世界末日时钟哈哈有人可以帮忙吗 import os import sys import time import datetime def timer endTime datetime datet
使用 SERVER_NAME 时出现 Flask 404

在我的 Flask 配置中我将 SERVER NAME 设置为 app example com 之类的域我这样做是因为我需要使用url for with external网址如果未设置 SERVER NAME Flask 会认为服务器

随机推荐

添加自定义 DLL 搜索路径@应用程序启动

我正在绞尽脑汁试图想出一个优雅的解决方案来解决 DLL 加载问题我有一个应用程序静态链接到加载 DLL 的其他 lib 文件我没有直接加载 DLL 我希望在可执行文件所在的文件夹之外的另一个文件夹中拥有一些 DLL 例如 working
RabbitMQ：快速生产者和慢速消费者

我有一个应用程序它使用 RabbitMQ 作为消息队列在两个组件发送者和接收者之间发送接收消息发送者以非常快的方式发送消息接收方收到消息后会做一些非常耗时的工作主要是数据量非常大的数据库写入由于接收方需要很长时间才能完成任务
方法 JPQL 的查询验证失败

我正在实现一个查询该查询返回自定义对象中的输出通过我的实现我收到一个错误方法公共抽象java util List org degs repository ConsolidateresponseRepository transacti
可与类型索引中的和和积合并

Haskell 中是否有类似于以下类型类的内容 class Mergeable f Type gt Type gt Type where merge f a b gt f c d gt f a c Either b d 特别是想象有一个S
在使用 VBA 填充列表的 Excel 中输入下拉列表时自动完成

我正在使用下面的代码将数据从另一张表插入到下拉列表中当用户从另一个下拉列表中选择某个选项时即可实现这一点 lstRow Sheets Data Sheet Range D Rows Count End xlUp Row Sheets D
如何使用 grep 查找单词列表

我有一个文件 A 其中有 100 个单词并用换行符分隔我想搜索文件 B 以查看文件 A 中的任何单词是否出现在其中我尝试了以下方法但对我不起作用 grep F A B 您需要使用该选项 f grep f A B 选项 F进行固定字符
Protractor - 当 DOM 元素更改时，页面对象不会更新

我正在测试使用 angular js 构建的 SPA 并使用页面对象模式来编写我的测试在应用程序中我们有许多将要更新的列表例如有一个附件列表当添加删除附件时该列表将会更新要添加附件我们有一个模式窗口当我们上传文件并单击
Python/Matplotlib - 调整绘图边缘与 x 轴之间的间距

如何调整 x 轴和绘图窗口边缘之间的间距我的 x 轴标签是垂直方向的它们超出了 Matplotlib 绘制的窗口的边缘这是一些示例代码 import matplotlib pyplot as plt x 1 2 3 4 5 y 1 2
GStreamer 插件搜索路径？

我可以以某种方式告诉 GStreamer 在指定目录中查找插件吗 Use the GST PLUGIN PATH环境变量指向您想要的目录或者以编程方式调用 GstRegistry registry registry gst registr
Oracle 使用代理模式创建数据库链接

所以我想在 oracle 中创建一个数据库链接我的用户名是 jefferson 我想通过 opms 连接所以我被告知这样做 create database link tmpp connect to jefferson opms iden
使用 PHP 在菜单项上设置活动类

我有一个简单的菜单 ul li 元素和一个class active 来标记当前页面一个变量被传递 get 通过 url 选择特定页面 pg PAGE 我对 php 相当陌生仍在学习中这工作得很好但我觉得应该有一个更简单更短的方法
在 Javascript 中反转数字而不使其成为字符串[重复]

这个问题在这里已经有答案了谁能告诉我我的代码哪里出错了我正在尝试反转数字而不将其更改为字符串我一直在搜索谷歌并浏览了之前提出的有关该主题的问题从我可以看到我的代码反映了其他答案我只能找到不使用 to string 方法的 Java
Android中如何声明全局变量？

我正在创建一个需要登录的应用程序我创建了主要活动和登录活动在主要活动中onCreate方法我添加了以下条件 public void onCreate Bundle savedInstanceState super onCreate sa
使用反射获取属性的字符串名称

有大量的反射示例可以让您获得一个类中的所有属性单个属性前提是您知道字符串名称有没有一种方法使用反射 TypeDescriptor 或其他方式在运行时获取类中属性的字符串名称前提是我拥有的只是类和属性的实例我有一个类的实例
如何将数据推送到 iPhone 应用程序？

我是 iPhone 应用程序开发新手我无法弄清楚如何将数据推送到应用程序具体来说我试图找到一种方法将新数据用户帖子从服务器推送到应用程序而无需用户刷新下拉刷新有可能吗有一个接近的解决方案使用Apple推送通知服务它允许
连接字符串无法按预期工作[关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我知道这是一个常见问题但在寻找参考
aws_iam_policy 和 aws_iam_role_policy 之间的区别

我有一个aws iam role我想添加一个策略通常我会创建一个策略aws iam role并将其附加到角色上aws iam role policy attachment 但是我看过一些使用的文档aws iam role policy
如何从另一个分支获取更改

我目前正在研究featurex分支我们的主分支被命名为our team 自从我开始工作以来featurex 对分支进行了更多更改our team 我在本地完成此操作是为了获取所有最新更改our team git checkout our
将 PEM 证书解析为 JSON

我有 PEM 证书并且正在使用openssl查看其内容是否可以将输出解析为 JSON 格式也许有一个 Java 库或 Bash 脚本可以做到这一点命令 openssl x509 in sample cer noout text out
无法将函数并行映射到 tarfile 成员

我有一个包含 bz2 压缩文件的 tar 文件我想应用该功能clean file到每个 bz2 文件并整理结果在系列中使用循环很容易 import pandas as pd import json import os import

无法将函数并行映射到 tarfile 成员

无法将函数并行映射到 tarfile 成员 的相关文章

随机推荐

热门标签

无法将函数并行映射到 tarfile 成员的相关文章