如何使用线程并行压缩迭代器？

2023-11-23

说我有N生成项目流的生成器gs = [..] # list of generators.

我可以轻松地zip它们一起从每个各自的生成器中获得元组生成器gs: tuple_gen = zip(*gs).

这调用next(g)在各个g依次在gs并将结果收集在一个元组中。但是，如果每个项目的生产成本都很高，我们可能希望并行化next(g)在多个线程上。

我怎样才能实现pzip(..)是这样的吗？

您所要求的可以通过创建一个产生结果的生成器来实现apply_async-调用线程池。

仅供参考，我对这种方法进行了基准测试pandas.read_csv- 通过指定获得的迭代器chunksize范围。我创建了 1M 行大小的 csv 文件的八个副本，并指定 chunksize=100_000。

其中四个文件是使用您提供的顺序方法读取的，四个文件是使用mt_gen下面的函数，使用四个线程池：

单线程 ~ 3.68 s

多线程 ~ 1.21 s

但这并不意味着它会改善每个硬件和数据设置的结果。

import time
import threading
from multiprocessing.dummy import Pool  # dummy uses threads


def _load_sim(x = 10e6):
    for _ in range(int(x)):
        x -= 1
    time.sleep(1)


def gen(start, stop):
    for i in range(start, stop):
        _load_sim()
        print(f'{threading.current_thread().name} yielding {i}')
        yield i


def multi_threaded(gens):
    combi_g = mt_gen(gens)
    for item in combi_g:
        print(item)


def mt_gen(gens):
    with Pool(N_WORKERS) as pool:
        while True:
            async_results = [pool.apply_async(next, args=(g,)) for g in gens]
            try:
                results = [r.get() for r in async_results]
            except StopIteration:  # needed for Python 3.7+, PEP 479, bpo-32670
                return
            yield results


if __name__ == '__main__':

    N_GENS = 10
    N_WORKERS = 4
    GEN_LENGTH = 3

    gens = [gen(x * GEN_LENGTH, (x + 1) * GEN_LENGTH) for x in range(N_GENS)]
    multi_threaded(gens)

Output:

Thread-1 yielding 0
Thread-2 yielding 3
Thread-4 yielding 6
Thread-3 yielding 9
Thread-1 yielding 12
Thread-2 yielding 15
Thread-4 yielding 18
Thread-3 yielding 21
Thread-1 yielding 24
Thread-2 yielding 27
[0, 3, 6, 9, 12, 15, 18, 21, 24, 27]
Thread-3 yielding 7
Thread-1 yielding 10
Thread-2 yielding 4
Thread-4 yielding 1
Thread-3 yielding 13
Thread-1 yielding 16
Thread-4 yielding 22
Thread-2 yielding 19
Thread-3 yielding 25
Thread-1 yielding 28
[1, 4, 7, 10, 13, 16, 19, 22, 25, 28]
Thread-1 yielding 8
Thread-4 yielding 2
Thread-3 yielding 11
Thread-2 yielding 5
Thread-1 yielding 14
Thread-4 yielding 17
Thread-3 yielding 20
Thread-2 yielding 23
Thread-1 yielding 26
Thread-4 yielding 29
[2, 5, 8, 11, 14, 17, 20, 23, 26, 29]

Process finished with exit code 0

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用线程并行压缩迭代器？

python

Multithreading

parallelprocessing

Iterator

Generator

如何使用线程并行压缩迭代器？的相关文章

为什么 .setGeometry() 不改变 QWidget 实例的大小？

一次将Python dict的内容分配给多个变量？

如何确定非阻塞套接字是否真正连接？

Python 3 getattribute 与点访问行为

Paramiko - 使用私钥连接 - 不是有效的 OPENSSH 私钥/公钥文件

错误：permission_manager_qt.cpp(82) 不支持的权限类型：13

定义函数后对其进行修饰？

如何在 Python 中将彩色输出打印到终端？

matplotlib matshow 标签

如何在python中检索aws批处理参数值？

更改 pandas 中多个日期时间列的时区信息

select() 可以在 Windows 下使用 Python 中的文件吗？

将一个列表的元素除以另一个列表的元素

Flask WTForms 使用变量自动填充 StringField

Python - 如何查询定义方法的类？

张量流：注册 numpy bfloat16 扩展

如何在sphinx中启用数学？

如何使用线程并行压缩迭代器？

如何使用线程并行压缩迭代器？ 的相关文章

如何使用线程并行压缩迭代器？的相关文章