仅当有免费工人可用时如何生成未来

2023-12-02

我正在尝试将从大文件行中提取的信息发送到某个服务器上运行的进程。

为了加快速度，我想并行地使用一些线程来执行此操作。

使用 Python 2.7 向后移植并发期货我试过这个：

f = open("big_file")
with ThreadPoolExecutor(max_workers=4) as e:
    for line in f:
        e.submit(send_line_function, line)
f.close()

然而，这是有问题的，因为所有 future 都会立即提交，因此我的机器会耗尽内存，因为完整的文件会加载到内存中。

我的问题是，是否有一种简单的方法可以仅在有免费工人可用时提交新的 future。

您可以使用迭代文件的块

for chunk in zip(*[f]*chunksize):

（这是一个应用程序石斑鱼食谱，它从迭代器收集项目f分成不同大小的组chunksize。注意：这不会立即消耗整个文件，因为zip返回 Python3 中的迭代器。）

import concurrent.futures as CF
import itertools as IT
import logging

logger = logging.getLogger(__name__)
logging.basicConfig(level=logging.DEBUG,
                    format='[%(asctime)s %(threadName)s] %(message)s',
                    datefmt='%H:%M:%S')

def worker(line):
    line = line.strip()
    logger.info(line)

chunksize = 1024
with CF.ThreadPoolExecutor(max_workers=4) as executor, open("big_file") as f:
    for chunk in zip(*[f]*chunksize):
        futures = [executor.submit(worker, line) for line in chunk]
        # wait for these futures to complete before processing another chunk
        CF.wait(futures)

现在，您在评论中正确地指出这不是最佳选择。可能有一些工人需要很长时间，并且占据了整个工作岗位。

通常，如果每次对工作人员的调用都花费大致相同的时间，那么这并不是什么大问题。然而，这里有一种按需推进文件句柄的方法。它使用一个threading.Condition通知sprinkler前进文件句柄。

import logging
import threading
import Queue

logger = logging.getLogger(__name__)
logging.basicConfig(level=logging.DEBUG,
                    format='[%(asctime)s %(threadName)s] %(message)s',
                    datefmt='%H:%M:%S')
SENTINEL = object()

def worker(cond, queue):
    for line in iter(queue.get, SENTINEL):
        line = line.strip()
        logger.info(line)
        with cond:
            cond.notify()
            logger.info('notify')

def sprinkler(cond, queue, num_workers):
    with open("big_file") as f:
        for line in f:
            logger.info('advancing filehandle') 
            with cond:
                queue.put(line)
                logger.info('waiting')
                cond.wait()
        for _ in range(num_workers):
            queue.put(SENTINEL)

num_workers = 4
cond = threading.Condition()
queue = Queue.Queue()
t = threading.Thread(target=sprinkler, args=[cond, queue, num_workers])
t.start()

threads = [threading.Thread(target=worker, args=[cond, queue])]
for t in threads:
    t.start()
for t in threads:
    t.join()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Multithreading

concurrentfutures

仅当有免费工人可用时如何生成未来的相关文章

如何并行安装/编译 pip 要求（使 -j 等效）

我的 pip 要求中有很多软件包需要安装我想并行处理它们我知道例如如果我想要n并行作业来自make我必须写make j n 是否有满足 pip 要求的等效命令 Thanks 有时 pip 使用 make 来构建依赖项如果在开始之前
如何获取Python对象父级？

所以我试图获取自定义对象内部的对象这是一个例子假设 o 是一个对象无论是什么类型它都可以存储变量 o Object class Test def init self self parent o This is where I
Daphne Django 文件上传大小限制

我使用 Daphne 进行套接字和 http 连接我正在运行 4 个工作容器并且现在在 docker 容器中本地运行所有内容如果我尝试上传 400MB 的文件我的 daphne 服务器会失败它适用于最大 15MB 的小文件我的
Python 的 pack("

我不太了解 python 但从文档中可以看出代码 str AAAA str pack

Django 视图集没有属性“get_extra_actions”

我第一次使用 Django 我正在尝试构建一个 API 我正在遵循一些教程和示例它工作正常但在安装所有要求和项目后我现在正在 Raspberry Pi 中运行该项目失败并出现以下错误 Performing system checks
java：为什么主线程等待子线程完成

我有一个简单的java程序主线程 main 创建并启动另一个线程t class T extends Thread Override public void run while true System out println Inside
JFrame 在连续运行代码时冻结

我在使用时遇到问题JFrame 它会冻结连续运行代码下面是我的代码点击时btnRun 我调用了该函数MainLoop ActionListener btnRun Click new ActionListener Override pu
无法启动 Windows 快捷方式

我正在尝试使用 python 启动 Windows 我已经尝试了 os system subprocess call os startfile 等多种方法但总是收到错误消息指出路径不存在我知道路径是正确的因为我尝试在 CMD EXE
增加 sigmoid 预测输出值？

我创建了一个用于文本分类的 Conv1D 模型当在最后一个密集处使用 softmax sigmoid 时它产生的结果为 softmax gt 0 98502016 0 0149798 sigmoid gt 0 03902826 0 00
使用unittest时如何知道每次测试花费的时间？

Unittest 仅显示运行所有测试所花费的总时间但不单独显示每个测试所花费的时间使用unittest时如何添加每个测试的计时我想目前不可能 http bugs python org issue4080 http bugs pyth
谷歌colab录音，如何实现更精确的方式告诉用户开始对着麦克风说话

我正在尝试创建一个为机器学习项目录制音频的程序我想使用 google colab 这样人们就不必在他们的系统上安装或运行任何东西我在网上找到了这个录制和播放音频的示例单元格 1 包含用于录制音频的 js 代码和用于将其转换为字节对象的
在 Django(Python) 中向用户提供 Excel(xlsx) 文件下载

我正在尝试使用 Django 创建和提供 Excel 文件我有一个 jar 文件它获取参数并根据参数生成 excel 文件并且它可以正常工作但是当我尝试获取生成的文件并将其提供给用户下载时文件损坏了它的大小为 0kb 这是我用
如何重写一个列表列表，使值的“孤岛”彼此唯一？

假设我有一个列表列表或更概念上准确的二维数组 list 1 1 0 0 0 1 1 2 0 0 0 2 2 2 0 0 0 0 2 0 0 0 0 1 0 我想识别具有相同值的不同区域并重写列表以便每个区域都有唯一的值如下所示 lis
使用缓存时计算“页面浏览量”或“点击量”

我有一个叫做show board 在其中除其他外我增加了一个字段Board views每次运行时加 1 以计算页面浏览量问题是当我在该视图上使用 cache page 装饰器时 Board views仅在每次生成新的缓存视图时才会增加
XCode std::thread C++

对于学校的一个小项目我需要创建一个简单的客户端服务器结构它将在路由器上运行使用 openWRT 并且我试图在这个应用程序中使用线程做一些事情我的 C 技能非常有限所以我在internet https stackoverflow
DataFrame 对象没有属性“sort_values”

dataset pd read csv dataset csv fillna 100 dataset Id 0 dataset i 0 dataset j 0 entries dataset dataset Id 0 print type
具有默认参数的Python类构造函数[重复]

这个问题在这里已经有答案了可能的重复 Python 中的最不令人惊讶可变默认参数 https stackoverflow com questions 1132941 least astonishment in python the m
子进程调用，它们是并行完成的吗？

我一直在谷歌搜索这个问题的答案但似乎没有一个答案谁能告诉我如果subprocess模块是否并行调用 Python 文档建议它可用于生成新进程但没有提及它们是否并行如果它们可以并行完成您能否给我举一个例子或将我链接到一个例子这取决
与仅调用依赖函数/类相比，在 FastAPI 中使用 Depends 有哪些优点？

FastAPI 提供了way https fastapi tiangolo com tutorial dependencies 通过其自己的依赖关系解析机制来管理依赖关系例如数据库连接它类似于一个pytest夹具系统简而言之您在函数
评估 df 每行中的日期时间函数是否落在另一个 df 中的日期时间范围内

我是 python 新手需要一些帮助来解决有关日期时间函数的问题 I have df a其中有一列标题为time 我正在尝试创建一个新专栏id在这个df a 我想要id根据时间是否包含在某个时间范围内来确定的列df b date 和 da

随机推荐

如何在 Fortran 中的 do 循环中跳过一些迭代

例如我想以 2 的增量从 1 循环到 500 但是对于每 8 个循环我想跳过接下来的 18 个循环使 do 变量增加 18 我怎么做我的代码是 event 0 do i 1 500 2 event event 1 if event
为什么总是调用超类构造函数[重复]

这个问题在这里已经有答案了我有以下2个课程 public class classA classA System out println A class classB extends classA classB System out pri
创建一个安全的 Lua 沙箱..？

现在我正在做很多事情 local env print print setfenv 函数环境然后使用元方法来锁定实例上的属性但它确实效率低下并且有很多绕过我用谷歌搜索了它我发现的一切都与此相同不起作用在 Lua 5 1 中沙箱
尝试将 $element 注入 ng-view 会导致未知提供者错误

我想知道这是否是一个错误或记录在某处似乎将 element 注入 ng view 指令附加的控制器失败这是一个例子脚本 js controller MainCtrl route routeParams location element
MongoDB 游标内存泄漏（OutOfMemory）？

这就是我读取大型 MongoDB 表的方式每个对象的属性中都有非常大的数据块 DBCursor cursor collection find my query while cursor hasNext DBObject object cu
Google Sheet API 值批量更新，正文中范围数量的限制

https developers google com sheets api reference rest v4 spreadsheets values batchUpdate 这里的文档没有说明一次调用可以一次更新主体中的多少个范围有人
ThreeJS - 绕对象自身轴旋转

我试图围绕它自己的轴旋转对象但没有任何效果我尝试了文档中的所有函数欧拉函数等但它根本不想旋转您可以使用如下所示的模式在其自身局部轴上旋转对象 var axis new THREE Vector3 x y z normalize
IOS 中的自定义字体未反映在设备上

我跟着这个tutorial自定义字体显示在我的故事板上但是当我执行我的应用程序在模拟器或设备上时字体没有反映出来谁能帮忙这就是我所做的 1 downloaded a ttf file and copied it to my pr
监控 JQuery 发出的所有 AJAX 请求？

有没有办法监视页面上使用 JQuery 发出的所有 ajax 请求并使用每个请求的结果调用回调函数例如我发出 ajax 请求 get foo foo bar get bar bar foo 然后每次完成这些 ajax 请求时我都会调
Robolectric：“未找到 AndroidManifest.xml”和“无法找到资源 ID #0x7f09001b”

我正在使用 Robolectric 进行一些测试但遇到了一个无法解决的问题当我运行测试时 AndroidManifest 出现以下错误警告在 AndroidManifest xml 中找不到清单文件仅回退到 Android 操作系
获取 iPhone 中的运营商详细信息

如何获取 iPhone 当前使用的运营商详细信息如 Airtel 或 Idea 等是否有可能获得这些详细信息或者有什么方法可以识别我们当前正在使用哪个运营商我正在开发一个基于运营商的应用程序如果用户更改他的 SIM 运营商那么该
如何将 symfony yaml 配置文件转换为 xml 格式？

我想要将 Symfony 配置文件作为 XML 文件我知道 symfony 书中有很多代码示例但并未显示所有配置类型有没有办法将 Symfony 演示项目提供的现有 YAML 文件转换为 XML 文件以使用这些文件作为基础我发现了一
无法确定何时隐藏和显示使用 JQuery 的加载动画

我有一个加载动画最初隐藏在我的 application js 文件中 loading field hide 我有一个自动完成字段我希望动画在用户开始输入时出现并在自动完成建议结果出现时消失下面是我的 jquery ui 自动完成插件
如何将 BitArray 转换为单个 int？

我怎样才能转换BitArray到一个单一的int private int getIntFromBitArray BitArray bitArray if bitArray Length gt 32 throw new ArgumentExc
x86 操作码有模式吗？（方向和大小位除外）

许多重要的 x86 指令例如 MOV 和 ADD 的操作码部分将最后两位标准化为方向位和数据大小位此处灰色显示的操作码部分是否有任何模式例如对于 ADD 某些指令使用代码 000000 而其他指令则使用代码 100000 None
在 Android 中使用 SQLCipher 加密/解密现有数据库

我使用下面的代码来加密和解密我能够加密的数据库但是当我尝试解密时我收到以下异常我引用了这个文档 and 测试用例太仍然面临同样的问题例外 sqlite returned error code 26 msg file is encry
将图像保存到小程序中的文件中？

所以事情是这样的我正在尝试为网页游戏做一个小程序来生成自定义头像这个头像是针对一个国家的军队的所以头像取决于用户选择的图像并且图片上的框架也代表用户所属的四边形所以我的计划是让他们从计算机上的文件中进行选择然后他们选择他们所
在 CakePHP 3 中按关联模型的条件查找

我有两张桌子orders and sub orders 他们的协会是 orders gt hasMany SubOrders foreignKey gt order id 两个表都有invoice no and sub invoice中的列
Postgresql 是否在事务中隐式包装 select 语句？

PostgreSQL 实际上将每个 SQL 语句都视为在事务中执行如果您不发出 BEGIN 命令则每个单独的语句都有一个隐式的 BEGIN 和如果成功 COMMIT 围绕它 From 教程交易这是否意味着即使 select 语句也会
仅当有免费工人可用时如何生成未来

我正在尝试将从大文件行中提取的信息发送到某个服务器上运行的进程为了加快速度我想并行地使用一些线程来执行此操作使用 Python 2 7 向后移植并发期货我试过这个 f open big file with ThreadPoolExec

仅当有免费工人可用时如何生成未来

仅当有免费工人可用时如何生成未来 的相关文章

随机推荐

热门标签

仅当有免费工人可用时如何生成未来的相关文章