如何在Python多处理中的所有进程之间共享数据？

2024-06-28

我想在给定文章中搜索预定义的关键字列表，如果在文章中找到关键字，则分数加 1。我想使用多重处理，因为预定义的关键字列表非常大 - 10k 个关键字，文章数量为 100k。

我碰到this https://stackoverflow.com/questions/35157367/how-to-share-data-between-python-processes问题，但它没有解决我的问题。

我尝试过这个实现但是得到None结果。

keywords = ["threading", "package", "parallelize"]

def search_worker(keyword):
    score = 0
    article = """
    The multiprocessing package also includes some APIs that are not in the threading module at all. For example, there is a neat Pool class that you can use to parallelize executing a function across multiple inputs."""

   if keyword in article:
        score += 1
    return score

我尝试了下面两种方法，但得到了三种None结果。

Method1:

 pool = mp.Pool(processes=4)
 result = [pool.apply(search_worker, args=(keyword,)) for keyword in keywords]

Method2:

result = pool.map(search_worker, keywords)
print(result)

实际输出：[没有，没有，没有]

预期输出： 3

我考虑向工作人员发送预定义的关键字列表和文章，但我不确定我是否朝着正确的方向前进，因为我没有多处理的经验。

提前致谢。

这是一个使用的函数Pool。您可以传递文本和keyword_list，它就会起作用。你可以使用Pool.starmap传递元组(text, keyword)，但是你需要处理一个有 10k 个引用的迭代text.

from functools import partial
from multiprocessing import Pool

def search_worker(text, keyword):
    return int(keyword in text)

def parallel_search_text(text, keyword_list):
    processes = 4
    chunk_size = 10
    total = 0
    func = partial(search_worker, text)
    with Pool(processes=processes) as pool:
        for result in pool.imap_unordered(func, keyword_list, chunksize=chunk_size):
            total += result

    return total

if __name__ == '__main__':
    texts = []  # a list of texts
    keywords = []  # a list of keywords
    for text in texts:
        print(parallel_search_text(text, keywords))

创建工作人员池会产生开销。可能值得针对简单的单进程文本搜索功能进行测试。可以通过创建一个实例来加快重复调用的速度Pool并将其传递到函数中。

def parallel_search_text2(text, keyword_list, pool):
    chunk_size = 10
    results = 0
    func = partial(search_worker, text)

    for result in pool.imap_unordered(func, keyword_list, chunksize=chunk_size):
        results += result
    return results

if __name__ == '__main__':
    pool = Pool(processes=4)
    texts = []  # a list of texts
    keywords = []  # a list of keywords
    for text in texts:
        print(parallel_search_text2(text, keywords, pool))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python3x

python27

multiprocessing

pythonmultiprocessing

如何在Python多处理中的所有进程之间共享数据？的相关文章

Django 3.1：带有异步生成器的 StreamingHttpResponse

Django 3 1 文档 https docs djangoproject com en 3 1 topics async async views 7E text The 20main 20benefits 20are 20the 20a
替换 pytest 中的测试用例继承？

背景在 Python 中unittest https docs python org 3 library unittest html在框架中在一组基本测试上使用继承来将整套测试应用于新问题并且偶尔添加其他测试是一种相当常见的习惯用法
从 git 安装时，我可以强制 pip 进行浅表签出吗？

以下命令从 git 存储库安装 Python 包 pip install git ssh email protected cdn cgi l email protection username repo git Collecting git
一个类的多个实例

我正在尝试用 python 编写各种动物的生活模拟不可能命名我将要使用的类的每个实例因为我无法知道会有多少个实例所以我的问题是如何自动为对象命名我正在考虑创建一个 Herd 类它可以是该类型的所有动物同时存活嗯通常您只需
Python中字典转小写

我希望这样做但为了一本字典 My string lower 是否有内置函数或者我应该使用循环您将需要使用循环或列表生成器理解如果你想将所有的键和值都小写你可以这样做 dict k lower v lower for k v in
如何获取 Tkinter 标签文本？

我正在制作一个用户将从中选择的地址列表并且将返回地址文本我需要使用Tkinter Label因为Tkinter Listbox不允许换行关键是没有 get Label 类中的类似方法我知道我可以做类似的事情 v StringVar
在进程之间共享列表的正确方法？

我想设置两个子流程其中subprocess1不断生成数据类型为list and subprocess2负责处理发来的数据subprocess1 I used multiprocessing Manager list 创建共享列表但这是
使用 PyQt5/Pyside2 设置重复的 SVG 图案作为主窗口/Qwidget 背景

我已经通过生成了 SVG css 代码http www heropatterns com http www heropatterns com 我正在尝试使用它作为我的主窗口 Qwidget 的背景我希望背景随着窗口变大或缩小而调整大小我
使用 ctypes 的 python 枚举模块

之前enum模块已存在 c int或相关类型经常被用作替代枚举但这没有也没有检查类型现在 python 有一个enum模块有没有办法直接使用它ctypes 是的我们可以轻松创建自己的 CEnum 类这要归功于 ctypes 允许我
可视化链接攻击的最佳方式是什么

我有一个如下图所示的 Networkx 图我执行边缘攻击并观察结果子图的节点处的值的变化例子如果我攻击边 a 2 边 a 2 和 2 1 将被移除解释一下当边 a 2 受到攻击时节点 2 的度数将上述攻击会产生一个子图每一条
如何在条形图上添加值标签

我正在创建一个条形图但我不知道如何在条形图上添加值标签在条形图的中心或正上方我相信解决方案是使用文本或注释但我 a 不知道该使用哪一个一般来说还没有弄清楚何时使用哪一个 b 无法看到任何一个来呈现值标签这是我的代码 im
在pyspark中将RDD转换为Dataframe

我正在尝试将 RDD 转换为 pyspark 中的 Dataframe My RDD abc 1 2 0 def 4 6 7 1 我想要 Dataframe 形式的 RDD Index Name Number 0 abc 1 2 1 def
激活虚拟环境不起作用

我创建了两个 virtualenv 并安装了两个不同版本的 django 现在我在激活两个环境时遇到问题我喜欢这样 source Django1 6 bin activate 然后我看到环境被激活了然后我这样做 pip install
启动robotframework-RIDE（机器人框架IDE）时出错

我已经安装了Robot Framework并安装了wxPython 然后安装了Ride 当我通过执行启动它时python ride py 它会遇到如下错误我相信这与wxPython版本有关不确定有一系列UnreprError像这样
pandas 支持 DataFrame 的哪些绘图后端？

pandas 确实允许与第三方一起绘图绘制后端 https pandas pydata org pandas docs stable development extending html plotting backends 我知道matpl
无法在 BeautifulSoup 中获得正确的链接

我正在尝试解析一些 HTML 并且想提取与特定模式匹配的链接我正在使用find使用正则表达式的方法但它没有给我正确的链接这是我的片段有人可以告诉我我做错了什么吗 from BeautifulSoup import Beautiful
调用exe中定义的函数

我需要知道一种从 python 脚本调用 exe 中定义的函数的方法我知道如何从 py 文件调用整个 exe 除非您的 EXE 是 COM 对象或者像 dll 那样专门导出某些函数否则这是不可能的对于 COM 方法请查看以下资源
使用具有阿拉伯字符的 json.dumps 将字典转换为 json [重复]

这个问题在这里已经有答案了我有一本包含阿拉伯语单词的字典例如 data name name print json dumps data file open data json a encoding utf 8 Output name u
在Python中使用argparse解析整个JSON

我正在尝试使用 ARGPARSE 库在一个简单的参数中解析整个 Json 问题是当它遇到儿子内部的不同元素例如和时它会突然停止这是测试代码 parse py import argparse parser argparse Argu
从 pexpect 中提取 stderr

我的问题很简单我可以吗 expect 使用 pexpect 查看 stderr 上的某些输出它似乎pexpect spawn 只能用于期望 stdout 上的输出乌托邦的例子 import pexpect child pexpect

随机推荐

android中单例的问题

我有一个 Android 应用程序其中有几个活动每个活动都会下载一个 xml json 提要对其进行解析并将其推送到一个单例通常作为数组列表然而在经历了各种活动之后单例似乎正在消亡并且大多数早期下载的数组列表现在都是空的为
如何将变量从命令行传递到 CMake Toolhain 文件？

有没有办法在调用 cmake 时将变量传递给工具链文件例如我有以下工具链文件 message FOO FOO 我尝试过以下方法但没有成功该变量未在工具链文件中设置 cmake
pytest 在参数化中使用固定装置作为参数

我想使用固定装置作为参数pytest mark parametrize或者会产生相同结果的东西例如 import pytest import my package pytest fixture def dir1 fixture retu
如何自定义 django 管理更改页面以返回到“保存”时的特定 URL

我想使用 django contrib admin 页面来编辑我的模型但从我自己的视图中调用单独的更改页面然后在用户单击保存后返回那里理想情况下这应该通过将返回 URL 附加到管理页面的 url 来实现如 return url
Flask多参数从一个url查询数据库的多列时如何避免多个if语句

我正在尝试使用 Flask 作为前端来构建一个会计数据库主页是分类帐有九列日期描述借方贷方金额帐户参考日记帐和年份我需要能够每次查询一次两个已有超过 8000 个条目并且还在不断增加到目前为止我的代码显示了
AngularJS - 从 run 方法访问 ng-init 变量

1 我在 ng init 中初始化了变量例如 ng init password Mightybear 2 我想从 run方法访问它例如 anguar module ngApp run function Access password h
检查行是否存在，Laravel

我有以下数据库结构 items id name user id users table id name user favorites table id user id item id 在我的项目永久链接页面上我有一个添加到收藏夹按钮
asset_host 和相关协议 URL 更改为 http

我的应用程序 Rails 4 0 0 的某些元素可通过 http 和 https 连接使用因此我已将 asset host 配置为使用相对协议 url 这应该允许浏览器进行切换它希望从中获取资产的协议 config action cont
实现导航抽屉后通知栏呈灰色

我正在尝试学习 Android 中导航抽屉的实现在一项活动中我将导航抽屉置于状态栏透明下方和应用栏上方一切正常左屏幕截图在同一应用程序的另一个活动中我试图创建在应用程序栏下方拉起的导航抽屉但在这里状态栏由于某种原因变成灰
std::ofstream，写入前检查文件是否存在

我正在实现文件保存功能Qt使用 C 的应用程序我正在寻找一种方法来检查所选文件在写入之前是否已存在以便我可以向用户提示警告我正在使用一个std ofstream我并不是在寻找Boost解决方案这是我最喜欢的隐藏功能之一我随身携带以
在 React 中使用内联样式和纯 CSS 字符串

我正在ReactJS中重写一个基于AngularJS的现有应用程序在应用程序中用户可以提供 CSS 样式字符串来设置某些元素的样式在 AngularJS 中这没有问题我只是将 style 属性设置为给定的字符串在 ReactJS
自动将 c++ dll 包装到 c# 中

我想在 C 项目中使用 C 库是否有任何包装工具可以自动导入所有类 SWIG http www swig org 可以帮助创建一个由两部分组成的包装器一侧为 C 一侧为 C 不过设置正确的生成文件需要一些工作另一种需要更多手动编码的
如何使用 SQL 语法更改主键约束？

我有一个表其主键约束中缺少一列我不想通过 SQL Server 对其进行编辑而是想将其放入脚本中以将其添加为更新脚本的一部分我可以使用什么语法来执行此操作我必须删除并重新创建关键约束吗是的唯一的方法是使用 Alter 表删除约
如何重置anaconda根环境

如何重置anaconda的root环境必须有一个简单的 conda Reset 命令来执行此操作我不想再次重新安装 anaconda 我有其他不想覆盖的 virtualenv 如果我再次安装 anaconda 就会发生这种情况 See
无法加载资源：加载 .mp3 文件时出错

我正在使用以下命令向我的应用程序添加声音audioplayers包但在第一次构建时没有播放声音加载文件时热重启面团后我收到此异常 E flutter 32175 ERROR flutter lib ui ui dart state c
GCM 注册 ID 已更改

我开发了一个使用 GCM 技术的应用程序一切正常我观察到设备的注册 ID 一段时间后发生了变化这导致我的应用程序出现问题因为我的应用程序依赖于注册 ID 那么如何为客户获取固定的Reg ID呢我读完了这两个原因here http
Angular 6 不赞成同时使用 formControlName 和 ngModel

我有 Angular 6 项目我一起使用 ngModel 和 formControlName 但角度在下面给了我警告例如当我从网格中的按钮打开更新弹出窗口时我可以轻松地自动绑定更新弹出窗口中的输入但 Angular 7 表示删除
C# 是“??”吗？运算符线程安全吗？

大家都知道这不是线程安全的 public StringBuilder Builder get if builder null builder new StringBuilder return builder 那这个呢 public Stri
错误：找不到模块：错误：无法解析“@angular/cdk/scrolling”

我遇到了错误找不到模块错误无法解析 angular cdk scrolling 一旦我在 app module ts 中添加 import TableModule from primeNG 为什么会抛出这个错误我没有看到 prime
如何在Python多处理中的所有进程之间共享数据？

我想在给定文章中搜索预定义的关键字列表如果在文章中找到关键字则分数加 1 我想使用多重处理因为预定义的关键字列表非常大 10k 个关键字文章数量为 100k 我碰到this https stackoverflow com quest

如何在Python多处理中的所有进程之间共享数据？

如何在Python多处理中的所有进程之间共享数据？ 的相关文章

随机推荐

热门标签

如何在Python多处理中的所有进程之间共享数据？的相关文章