Python 多线程在 IO 任务中没有任何好处？

2024-02-27

我正在尝试用 python 读取数千小时的 wav 文件并获取它们的持续时间。这本质上需要打开 wav 文件，获取帧数并考虑采样率。下面是代码：

def wav_duration(file_name):
    wv = wave.open(file_name, 'r')
    nframes = wv.getnframes()
    samp_rate = wv.getframerate()
    duration = nframes / samp_rate
    wv.close()
    return duration


def build_datum(wav_file):
    key = "/".join(wav_file.split('/')[-3:])[:-4]
    try:
        datum = {"wav_file" : wav_file,
                "labels"    : all_labels[key],
                "duration"  : wav_duration(wav_file)}

        return datum
    except KeyError:
        return "key_error"
    except:
        return "wav_error"

按顺序执行此操作将花费太长时间。我的理解是多线程应该在这里有所帮助，因为它本质上是一个 IO 任务。因此，我这样做：

all_wav_files = all_wav_files[:1000000]
data, key_errors, wav_errors = list(), list(), list()

start = time.time()

with concurrent.futures.ThreadPoolExecutor(max_workers=1) as executor:
    # submit jobs and get the mapping from futures to wav_file
    future2wav = {executor.submit(build_datum, wav_file): wav_file for wav_file in all_wav_files}
    for future in concurrent.futures.as_completed(future2wav):
        wav_file = future2wav[future]
        try:
            datum = future.result()
            if datum == "key_error":
                key_errors.append(wav_file)
            elif datum == "wav_error":
                wav_errors.append(wav_file)
            else:
                data.append(datum)
        except:
            print("Generated exception from thread processing: {}".format(wav_file))

print("Time : {}".format(time.time() - start))

然而令我沮丧的是，我得到了以下结果（以秒为单位）：

Num threads | 100k wavs | 1M wavs
1           | 4.5       | 39.5
2           | 6.8       | 54.77
10          | 9.5       | 64.14
100         | 9.07      | 68.55

这是预期的吗？这是 CPU 密集型任务吗？多重处理有帮助吗？我怎样才能加快速度？我正在从本地驱动器读取文件，并且它在 Jupyter 笔记本上运行。 Python 3.5。

EDIT：我知道 GIL。我只是假设打开和关闭文件本质上是 IO。人们的分析 https://medium.com/@bfortuner/python-multithreading-vs-multiprocessing-73072ce5600b已经表明，在 IO 情况下，使用多处理可能会适得其反。因此我决定改用多重处理。

我想现在的问题是：这个任务是IO绑定的吗？

编辑编辑：对于那些想知道的人，我认为这是 CPU 限制（核心达到 100%）。这里的教训是不要对任务做出假设并亲自检查。

按类别检查的一些事项：

Code

wave.open 的效率如何？当它可以简单地读取头信息时，它是否将整个文件加载到内存中？
为什么 max_workers 设置为 1 ？
你有没有尝试过使用cProfile https://docs.python.org/3/library/profile.html#module-cProfile甚至timeit https://docs.python.org/3.5/library/timeit.html了解代码的哪个特定部分花费了更多时间？

Hardware

重新运行您现有的设置，并进行一些硬盘活动、内存使用情况和 CPU 监控，以确认硬件不是您的限制因素。如果您看到硬盘以最大 IO 运行、内存已满或所有 CPU 核心都达到 100% - 其中之一可能已达到极限。

全局解释器锁 (GIL)

如果没有明显的硬件限制，您很可能会遇到 Python 全局解释器锁 (GIL) 的问题，如中所述这个答案 https://stackoverflow.com/a/4496918/5196274。如果您的代码仅限于在单核上运行或者运行线程中没有有效的并发性，则这种行为是可以预料到的。在这种情况下，我肯定会改为多重处理 https://docs.python.org/3/library/multiprocessing.html，首先为每个 CPU 核心创建一个进程，运行该进程，然后将硬件监控结果与上一次运行进行比较。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python 多线程在 IO 任务中没有任何好处？的相关文章

希伯来语中的稀疏句子标记化错误

尝试对希伯来语使用稀疏句子标记 import spacy nlp spacy load he doc nlp text sents list doc sents I get Warning no model found for he Onl
使用 Django Rest 保存 Base64ImageField 类型会将其保存为原始图像。如何将其转换为普通图像

我的模型中有 5 个图像字段 imageS imageS imageS imageS 和 imageE 我正在尝试按以下方式保存图像图像的类型Base64ImageField images imageA imageB imageC ima
如何在 PyCharm 4.5.2 中使用 PyPy 作为标准/默认解释器？

如何在 PyCharm 4 5 2 中使用 PyPy 作为标准默认解释器一切都在 Ubunutu 14 10 下运行并且 pypy 已经安装您可以在项目的设置下进行配置这个官方文档直接涵盖了 https www jetbrains
更新 Sqlalchemy 中的多个列

我有一个在 Flask 上运行的应用程序并使用 sqlalchemy 与数据库交互我想用用户指定的值更新表的列我正在使用的查询是 def update table value1 value2 value3 query update T
查找模块中显式定义的函数 (python)

好的我知道您可以使用 dir 方法列出模块中的所有内容但是有什么方法可以仅查看该模块中定义的函数吗例如假设我的模块如下所示 from datetime import date datetime def test return Thi
python是带有字符串的运算符行为[重复]

这个问题在这里已经有答案了我无法理解以下行为我正在创建 2 个字符串并使用 is 运算符来比较它对于第一种情况它的工作方式有所不同对于第二种情况它按预期工作当我使用逗号或空格时它显示是什么原因False与比较is当没有使用
python 中的 Johansen 协整检验

我找不到任何有关在处理统计和时间序列分析 pandas 和 statsmodel 的 Python 模块中执行 Johansen 协整检验的功能的参考有谁知道是否有一些代码可以执行时间序列之间的协整测试现在这已在 Python 的 s
Python多处理错误“ForkAwareLocal”对象没有属性“连接”

下面是我的代码我面临着多处理问题我看到这个问题之前已经被问过我已经尝试过这些解决方案但它似乎不起作用有人可以帮我吗 from multiprocessing import Pool Manager Class X def init
乘以行并按单元格值附加到数据框

考虑以下数据框 df pd DataFrame X a b c d Y a b d e Z a b c d 1 2 1 3 df 我想在列中附加数字大于 1 的行并在该行中的数字减 1 df 最好应该然后看起来像这样或者它可能看起来
PyTorch DataLoader 对并行运行的批次使用相同的随机种子

有一个bug https tanelp github io posts a bug that plagues thousands of open source ml projects 在 PyTorch Numpy 中当并行加载批次时Da
Python 类型安全吗？

根据维基百科 https en wikipedia org wiki Type system Type safety and memory safety 如果一种语言不允许违反类型系统规则的操作或转换计算机科学家就认为该语言是类型安全的
如何将回溯/sys.exc_info() 值保存在变量中？

我想将错误名称和回溯详细信息保存到变量中这是我的尝试 import sys try try print x except Exception ex raise NameError except Exception er print 0 s
如何使用 Keras ImageDataGenerator 预测单个图像？

我已经训练 CNN 对图像进行 3 类分类在训练模型时我使用 keras 的 ImageDataGenerator 类对图像应用预处理功能并重新缩放它现在我的网络在测试集上训练得非常准确但我不知道如何在单图像预测上应用预处理功能如
检测 IDLE 的存在/如何判断 __file__ 是否未设置

我有一个脚本需要使用 file 所以我了解到 IDLE 没有设置这个有没有办法从我的脚本中检测到 IDLE 的存在 if file not in globals file is not set 如果你想做一些特别的事情 file 未设置
处理大文件的最快方法？

我有多个 3 GB 制表符分隔文件每个文件中有 2000 万行所有行都必须独立处理任何两行之间没有关系我的问题是什么会更快逐行阅读 with open as infile for line in infile 将文件分块读入内存
如何使用 matplotlib 为圆柱体的每个单独面添加颜色

我正在尝试为圆柱体的每个面着色但是我不确定如何进行我尝试了以下方法 for i in range 10 col append for i in range 10 for j in range 20 col i append plt cm
在 virtualenvwrapper 中激活环境

我安装了virtualenv and virtualenvwrapper用这个命令我创建了一个环境 mkvirtualenv cv 它有效创建后我就处于新环境中现在我重新启动了我的电脑我想activate又是那个环境但是怎么样我使
更改 Python Cmd 模块处理自动完成的方式

我有一个 Cmd 控制台设置为自动完成 Magic the Gathering 收藏管理系统的卡牌名称它使用文本参数在数据库中查询卡片并使用结果自动完成建议卡片然而这些卡片名称有多个单词 Cmd 会从last到行尾的空间例如
Django 模型：如何使用 mixin 类来覆盖 django 模型以实现 save 等功能

我想在每次保存模型之前验证值所以我必须重写保存函数代码几乎是一样的我想把它写在 mixin 类中但失败了我不知道如何写 super func 我英语不好抱歉 class SyncableMixin object def sav
使用 urllib 编码时保持 url 参数有序

我正在尝试用 python 模拟 get 请求我有一个参数字典并使用 urllib urlencode 对它们进行 urlencode 我注意到虽然字典的形式是 k1 v1 k2 v2 k3 v3 urlencoding 后参数的顺序切

随机推荐

如何匹配 Typescript 中的嵌套键

我创建了一个简单的nameOf与打字稿一起使用的助手 function nameOf
如何在 Android 4 中获取 webview 比例

WebView getScale 已弃用但仍然可用获取 webview 比例的推荐方法是使用 WebViewClient onScaleChanged http developer android com reference andro
Magento：如何加载产品及其在管理中使用的所有数据

我正在尝试获取捆绑选项数据使用这个 product gt getBundleOptionsData我需要使用它因为我正在尝试以编程方式更改数据并且我想以与 admin 中使用的方式尽可能接近的方式进行操作但是当我 var dump
jQuery .prop("disabled", false) 未启用输入

在页面加载上禁用输入后我在重新启用输入时遇到问题我使用两个输入来接受两个日期但我希望在第一个输入有值之前不启用第二个输入 div div
为什么此模式生成关系 n:m

我有这个 schema yml 文件只是相关部分 SdrivingMaquina actAs Timestampable columns idmaquina type integer 8 autoincrement true notnul
仅在打开的文件中搜索和替换 (netbeans)

有人知道是否可以在 netbeans 中搜索和替换所有打开的文件吗如果有的话似乎找不到这个选项我正在使用 Netbeans 6 9 PHP IDE CTRL SHIFT H 这将打开在项目中替换您可以在其中搜索和替换所有打开的项目
如何在atom包内设置断点？

我想弄清楚为什么这个原子包https github com AtomLinter linter elixirc https github com AtomLinter linter elixirc 行为不端它的作者说我应该在包的某些函数中
Asp .Net Core 2 + SignalR (1.0.0-alpha2-27025) + /signalr/negotiate 404 错误

我将 SignalR 添加到 ASP Net Core 2 应用程序 packages Microsoft AspNetCore All 版本 2 0 0 Microsoft AspNetCore SignalR 版本 1 0 0 alph
ES6 导出对象的所有值

假设我有一个模块 my module js 有一个对象该对象应该是它的返回值 let values a 1 b 2 c 3 export values results in SyntaxError Unexpected token 所以我
FParsec 只解析括号之间的 expr

我正在编写一个解析器用于学习 pourpuses 我希望它能够解析类似的结构 let myVar be 40 plus 2 and let myVar be 40 plus 2 没有问题但我的解析器不理解前者它看到的是40并认为
Apache Netbeans 版本 11.1 使用 OpenJDK 11 构建错误

我有一个使用 JDK 8 和 NB 8 2 创建的项目我想使用 OpenJDK 11 将该项目迁移到 NB 11 1 环境是 Windows 10 上的 NB 11 1 全新安装使用 OpenJDK 11 0 2 我将所有源代码和库 j
updatepanel 回发后调用 javascript

我将以下 javascript 代码内联放置但在 updatepanel 完成回发后它不会触发 function EndRequestHandler sender args alert this should work Sys WebFo
Jquery 选项卡，在 Firefox 中重新加载 jQuery HTML 后，未格式化的列表会闪烁

我正在使用最新的 jQuery 选项卡并且我的所有选项卡以及它们上面的其他内容都位于包含 Div 中其中一个选项卡中有一个表单当表单提交时通过 AJAX 对其进行处理然后返回的 HTML 替换整个包含的 Div 返回的 HTM
反射应该使用到什么程度？

我们在项目中遇到了一个非常棘手的场景我们在项目中使用了很多反射我们有由属性和反射驱动的验证框架使用属性和反射将 DataRow 转换为实体对象的扩展方法反之亦然我们对 DataTable 和 EntityCollections
统计PHP页面中所有HTML标签

我花了时间在正则表达式上解决这个问题但没有结果我尝试使用 PHP 5 3 解决这个问题诸如在页面中重复的次数以及有关页面中所有标签的信息等信息不幸的是您的问题目前的形式几乎无法理解请尝试更新并更具体如果你想计算页面中所有 HT
Intl.DateTimeFormat 选项哈希：使用“2 位数字”获取前导零

Intl DateTimeFormat en US weekday long year numeric month long day 2 digit hour 2 digit minute 2 digit second 2 digit fo
如何使用 d3.js 将填充部分添加到 SVG 圆圈

我正在使用 d3 js 生成一些 SVG 圆圈我能够生成它们但我不知道如何将它们分成 4 个相等的部分并为每个部分填充颜色我正在使用 d3 js 版本 4 这是我的小提琴中的 javascript 片段 var nodes type
无法通过curl或Postman访问docker url

我可以使用以下路径在浏览器中访问我的网站 my dash docker localhost 8000 我正在尝试编写一个API端点但无法通过Postman或curl访问该网站 curl my dash docker localhost 8
将数据存储到 DOM - 元素值与数据属性

要将值存储在 DOM 元素中我们可以通过data属性 abc data item 1 检索做 abc data item 但今天我了解到我们也可以这样做 abc 0 item 1 检索做 abc 0 item 它们之间有什么区别哪一个更
Python 多线程在 IO 任务中没有任何好处？

我正在尝试用 python 读取数千小时的 wav 文件并获取它们的持续时间这本质上需要打开 wav 文件获取帧数并考虑采样率下面是代码 def wav duration file name wv wave open file nam

Python 多线程在 IO 任务中没有任何好处？

Python 多线程在 IO 任务中没有任何好处？ 的相关文章

随机推荐

热门标签

Python 多线程在 IO 任务中没有任何好处？的相关文章