Scipy：ipython 笔记本中的并行计算？

2024-01-04

我正在做一个kernel density estimation数据集（点的集合）。

The estimation process没关系，问题是，当我试图获得density value对于每个点，速度都很慢：

from sklearn.neighbors import KernelDensity
# this speed is ok
kde = KernelDensity(bandwidth=2.0,atol=0.0005,rtol=0.01).fit(sample) 
# this is very slow
kde_result = kde.score_samples(sample)

样本由以下部分组成300,000 (x,y) points.

我想知道是否可以让它并行运行，这样速度会更快？

例如，也许我可以划分sample分成较小的集合并运行score_samples每组同时进行？具体来说：

我不熟悉parallel computing根本不。所以我想知道它是否适用于我的情况？
如果这确实可以加快进程，我该怎么办？我只是运行脚本ipython notebook，并且没有这方面的经验，对于我的案例有什么好的和简单的例子吗？

我正在阅读http://ipython.org/ipython-doc/dev/parallel/parallel_intro.html http://ipython.org/ipython-doc/dev/parallel/parallel_intro.html now.

UPDATE:

import cProfile
cProfile.run('kde.score_samples(sample)')

        64 function calls in 8.653 seconds

   Ordered by: standard name

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        1    0.000    0.000    8.653    8.653 <string>:1(<module>)
        2    0.000    0.000    0.000    0.000 _methods.py:31(_sum)
        2    0.000    0.000    0.000    0.000 base.py:870(isspmatrix)
        1    0.000    0.000    8.653    8.653 kde.py:133(score_samples)
        4    0.000    0.000    0.000    0.000 numeric.py:464(asanyarray)
        2    0.000    0.000    0.000    0.000 shape_base.py:60(atleast_2d)
        2    0.000    0.000    0.000    0.000 validation.py:105(_num_samples)
        2    0.000    0.000    0.000    0.000 validation.py:126(_shape_repr)
        6    0.000    0.000    0.000    0.000 validation.py:153(<genexpr>)
        2    0.000    0.000    0.000    0.000 validation.py:268(check_array)
        2    0.000    0.000    0.000    0.000 validation.py:43(_assert_all_finite)
        6    0.000    0.000    0.000    0.000 {hasattr}
        4    0.000    0.000    0.000    0.000 {isinstance}
       12    0.000    0.000    0.000    0.000 {len}
        2    0.000    0.000    0.000    0.000 {method 'append' of 'list' objects}
        1    0.000    0.000    0.000    0.000 {method 'disable' of '_lsprof.Profiler' objects}
        2    0.000    0.000    0.000    0.000 {method 'join' of 'str' objects}
        1    8.652    8.652    8.652    8.652 {method 'kernel_density' of 'sklearn.neighbors.kd_tree.BinaryTree' objects}
        2    0.000    0.000    0.000    0.000 {method 'reduce' of 'numpy.ufunc' objects}
        2    0.000    0.000    0.000    0.000 {method 'sum' of 'numpy.ndarray' objects}
        6    0.000    0.000    0.000    0.000 {numpy.core.multiarray.array}

这是一个使用并行化的简单示例多处理内置模块 https://docs.python.org/3.4/library/multiprocessing.html?highlight=process :

import numpy as np
import multiprocessing
from sklearn.neighbors import KernelDensity

def parrallel_score_samples(kde, samples, thread_count=int(0.875 * multiprocessing.cpu_count())):
    with multiprocessing.Pool(thread_count) as p:
        return np.concatenate(p.map(kde.score_samples, np.array_split(samples, thread_count)))

kde = KernelDensity(bandwidth=2.0,atol=0.0005,rtol=0.01).fit(sample) 
kde_result = parrallel_score_samples(kde, sample)

从上面的代码可以看出，multiprocessing.Pool允许您映射正在执行的工作进程池kde.score_samples在您的样本的子集上。
如果您的处理器有足够的内核，加速将非常显着。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

parallelprocessing

scipy

scikitlearn

jupyternotebook

Scipy：ipython 笔记本中的并行计算？的相关文章

Python 3.4.3 tkinter - 程序在声明 IntVar 或任何其他 tkinter 数据类型时冻结

上一主题 Python 3 4 tkinter checkbutton变量处理不起作用响应 https stackoverflow com questions 33711472 python 3 4 tkinter checkbutton
从终端调用时 uvicorn 不工作

我尝试通过 pip3 在系统上安装 uvicorn 这有效但是我无法从命令行运行相同的命令有关如何解决此问题的任何指示 Requirement already satisfied uvicorn in home vhawk19 loca
出现导入错误：无法从“随机”导入名称“随机”[重复]

这个问题在这里已经有答案了我在我的计算机上多次运行我的代码但没有出现此错误但突然间这个来了 File e Python 3 8 0 lib site packages comtypes client code cache py lin
对 Python DataFrame 进行子集化

我正在从 R 过渡到 Python 我刚刚开始使用 Pandas 我有一个可以很好地子集化的 R 代码 k1 lt subset data Product p id Month lt mn Year yr select c Time Pro
计算温度的偏导数（温度的水平平流）

我想知道哪种方法计算x和y方向温度的偏导数温度的水平平流最正确第二个代码使用温度纬向风和经向风的数据矩阵提取温度 T 纬向风分量 u 和经向风分量 v 的数据 import matplotlib pyplot as plt imp
如何最好地将包含列表或元组的 Pandas 列提取到多个列中[重复]

这个问题在这里已经有答案了我不小心用错误重复的链接关闭了这个问题这是正确的 Pandas 将列表的列拆分为多列 https stackoverflow com questions 35491274 pandas split column
在 Windows 上将 NumPy 与 BLAS 链接

我正在尝试在 Windows 系统上安装 Theano 并且需要安装 BLAS 和 LAPACK 我的 System32 文件夹中有这些的 dll 文件当我运行 numpy config来自 Anaconda 的 show 库的路径正确显
按字段名称对命名元组列表进行排序的 Pythonic 方法

我想对命名元组列表进行排序而不必记住字段名的索引我的解决方案看起来相当尴尬希望有人能有一个更优雅的解决方案 from operator import itemgetter from collections import namedtu
在 Ubuntu 上使用 Python 获取显示器分辨率

对于 Ubuntu win32api 中是否有与 GetSystemMetrics 相当的代码我需要获取显示器的宽度和高度以像素为单位我可以建议一些可以使用的方法不过我还没有使用过 xlib 版本 1 xlib Python 程序的
Python argparse store_true 并将可选选项存储在一个参数中[重复]

这个问题在这里已经有答案了我需要识别是否单独给出参数或带有可选字符串或两者都没有 parser add argument options parser parse args so prog py arg 应该存储进入选项 arg pro
将 csv 文件按多列拆分为 panda 数据框

我有一个包含多列的 tsv 文件有 10 多列但对我来说重要的列是名称为 user name shift id url id 的列我想创建一个数据框首先根据用户名分隔整个 csv 文件即只有具有相同用户名的行才会分组在一起从该块
图像堆栈的最大强度投影

我正在尝试重新创建该功能 max array 3 来自 MatLab 它可以获取 N 个图像的 300x300px 图像堆栈我在这里说图像因为我正在处理图像实际上这只是一个大的双数组 300x300xN 并创建一个 300x300
不重复的Python组合

我有一个数字列表我想从中进行组合如果我有清单 t 2 2 2 2 4 c list itertools combinations t 4 结果是 2 2 2 2 2 2 2 4 2 2 2 4 2 2 2 4 2 2 2 4 但我想得到
在 (i)python 脚本中从 jupyter 内核获取输出

我想从单个 ipython 会话中打开多个内核在这些内核上运行代码然后收集结果但我不知道如何收集结果甚至不知道如何查看 stdout stderr 我怎样才能做这些事情呢到目前为止我所得到的我已经使用如下代码管理了前两个步骤打
sklearn 中组件解释的偏最小二乘方差

我正在尝试使用 sklearn 中的代码执行 PLSRegression 并且我想保留那些解释一定程度方差的组件例如 PCA 中的组件有没有办法知道 PLS 中每个分量解释了多少方差我也有计算每个组件的解释方差的相同要求我是 PLS
多线程写入文件

前几天刚开始使用 python 对多线程的整个概念还很陌生我在多线程时写入文件时遇到问题如果我按照常规方式执行此操作它会不断覆盖正在写入的内容使用 5 个线程写入文件的正确方法是什么不降低性能的最佳方法是在所有线程之间使用队列每
在 Django/python 中，如何将内存缓存设置为无限时间？

cache set key value 9999999 但这并不是无限的时间 def get memcache timeout self timeout Memcached deals with long gt 30 days timeou
避免在列表理解中计算相同的表达式两次[重复]

这个问题在这里已经有答案了我在列表理解中使用一个函数和一个 if 函数 new list f x for x in old list if f x 0 令我恼火的是这个表达f x 在每个循环中计算两次有没有办法以更清洁的方式做到这一点
安排 Asyncio 任务每 X 秒执行一次？

我正在尝试创建一个 python 不和谐机器人它将每隔 X 秒检查一次活跃会员并根据会员的在线时间奖励积分我正在使用 asyncio 来处理聊天命令这一切都正常我的问题是找到一种方法来安排每隔 X 秒异步检查一次活动成员我已经阅
在字典理解中为 locals() 添加下标失败并出现 KeyError [重复]

这个问题在这里已经有答案了我对 Python 的奇怪行为感到困惑locals 基本上我想从字典中获取一个项目locals 在字典理解中但它失败了这是一个非常基本的事情所以 gt gt gt foo 123 gt gt gt bar

随机推荐

如何获取使用“文本数字”的字体的升序或降序高度

我对文本数字有疑问参见维基百科 http en wikipedia org wiki Text figures 在使用以下命令创建的 PDF 文档中itextsharp 基线和数字最低点之间的距离例如9 与字体的正常下降高度不同使用下
验证多态关联模型中的范围唯一性

是的所以我有一个多态关联允许收藏不同的对象类型所以一个人可以喜欢一个产品一个人或者其他什么我想要做的是防止有人使用验证收藏夹模型中的唯一性来复制收藏夹 class Favorite lt ActiveRecord Base be
XMLHttpRequest 与 HttpRequest

有谁知道什么是XMLHttpRequest使网页能够执行普通网页无法完成的操作HttpRequest XMLHttpRequest http en wikipedia org wiki XMLHttpRequest是一个标准的 javas
如何使用 Pandas 的时间戳按小时对数据帧进行分组

我有以下使用时间戳索引的数据帧结构 neg neu norm pol pos date time 1520353341 0 000 1 000 0 0000 0 000000 0 000 1520353342 0 121 0 879 0 2
使用 iText 在横向模式下绘制线条

这是我用来画线的代码 double lineArray annotation getAsArray PdfName L asDoubleArray double x1 lineArray 0 rect getAsNumber 0 doubl
对某一部分贪婪的正则表达式，对其他部分不贪婪的正则表达式

我在 R 中使用正则表达式但我希望它对左侧部分贪婪对右侧部分非贪婪假设我想提取单词 left 和 right 之间的文本但我希望它是贪婪的并继续在文本中查找单词 left 直到找到最后一次出现但是我也希望它不贪婪于正确并在
将 SpatialPolygonsDataFrame 导出为 R 中的 geojson 或 topojson

我正在尝试将伦敦地方当局的 geojson 转换为六角形图表其中每个六边形代表一个地方当局它在 R 中工作但是当我尝试将生成的十六进制网格导出为 geojson 或 topojson 时出现以下错误 Error in sp Spat
实体框架 4.1 检索自引用数据

我首先使用 Entity Framework 4 1 代码和 ASP NET MVC 3 并且我正在努力正确设置自引用我有一个类别类它必须是自我引用的当表中ParentCategoryId为空时类别可以是父类别如果某个类别具有带值
直接从 Outlook 拖放到 Web 表单

我在网上搜索了一下大部分答案都是无法完成我的情况有点不同因为我们正在开发的应用程序仅用于内部目的并且可以允许浏览器中的任何安全级别它也是基于内部网的我还尝试查看是否有现成的 ActiveX 控件但无法找到一个允许直接从 Out
Sympy - 改变绘图的 y 轴范围

使用 Sympy 如何设置 y 轴的范围 plot x 2 2 我想让 y 轴从 0 到 7 当你绘图时你可以使用 kwargsxlim and ylim设置轴限制例如 gt gt gt plot x 2 2 xlim 3 3 ylim
使用 Delphi 在运行时创建 TWebBrowser

我有一个 TWebBrowser 对象它在运行时创建并在后台使用即不可见问题是像 OnDocumentComplete 这样的事件在 Delphi2009 中不起作用或不会被触发有什么建议吗 procedure TfrmMain F
将文件写入通用应用程序数据文件夹被拒绝

我使用以下函数将数据写入用户应用程序文件夹 private void WriteToLog string source string method string msg string LogFile Environment GetFolde
对一系列门票进行排序[关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案这是问题陈述您有一叠包含出发地和目的地的车票您将获得出发城市和目的地城市你如何从堆栈中找到你的路线这是我的解决方
哪个更好的Javascript对象模式[关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
使用“catch,when”捕获异常

我在 C 中发现了这个新功能它允许在满足特定条件时执行 catch 处理程序 int i 0 try throw new ArgumentNullException nameof i catch ArgumentNullException
在 python 函数中使用 *args、**kwargs 时“获得关键字参数的多个值”

传递命名参数时request通过 kwargs 我收到一个错误 Traceback most recent call last File testKwargs py line 9 in
Python re.findall

我试图检索包含名称字段的所有标签然后处理整个句子加上名称这是我的测试代码 sourceCode
无法将 4/23/12 12:00 AM 类型类 java.util.Date 转换为类 java.sql.Date

我正在将我的项目从 WebSphere 7 迁移到 WebSphere 8 并且使用 JSF 1 2 我遇到了 IBM JSF html extended 标签和标准转换器的问题这些转换器主要是 JSF 1 2 核心组件我还将我的 Ja
在R中绘制网络（控制边缘厚度加上不重叠的边缘）

我需要使用 R 绘制一个具有 5 个节点和 20 个有向边连接每 2 个节点的边的网络但我需要存在两个功能能够控制每个边缘的厚度边缘不重叠即从 A 到 B 的边缘不绘制在从 B 到 A 的边缘之上我花了几个小时寻找解决方案
Scipy：ipython 笔记本中的并行计算？

我正在做一个kernel density estimation数据集点的集合 The estimation process没关系问题是当我试图获得density value对于每个点速度都很慢 from sklearn neighb

Scipy：ipython 笔记本中的并行计算？

Scipy：ipython 笔记本中的并行计算？ 的相关文章

随机推荐

热门标签

Scipy：ipython 笔记本中的并行计算？的相关文章