对于相同的数据，为什么 scipy.stats.gaussian_kde() 比 seaborn.kde_plot() 慢？

2024-02-06

在 python 3.7 中，我有这个 numpy 数组，其形状=(2, 34900)。该数组是一个坐标列表，其中索引 0 表示 X 轴，索引 1 表示 y 轴。

当我使用 seaborn.kde_plot() 来可视化该数据的分布时，在 i5 第七代上运行时，我能够在大约 5-15 秒内获得结果。

但是当我尝试运行以下代码时：

#Find the kernel for 
k = scipy.stats.kde.gaussian_kde(data, bw_method=.3)
#Define the grid
xi, yi = np.mgrid[0:1:2000*1j, 0:1:2000*1j]
#apply the function
zi = k(np.vstack([xi.flatten(), yi.flatten()]))

它找到该数据的高斯核并将其应用于我定义的网格，这需要更多时间。我无法运行完整的数组，但在大小为 140 的切片上运行时，大约需要 40 秒才能完成。

140 大小的切片确实产生了一个有趣的结果，我可以使用它来可视化plt.pcolormesh().

我的问题是我在这里缺少什么。如果我正确理解发生了什么，我正在使用scipy.stats.kde.gaussian_kde()创建由数据定义的函数的估计。然后我将该函数应用于 2D 空间并获取它的 Z 分量作为结果。然后我绘制 Z 分量。但这个过程与seaborn.kde_plot()这使得代码需要更长的时间。

Scipy 的实现只是通过每个点来执行此操作：

for i in range(self.n):
    diff = self.dataset[:, i, newaxis] - points
    tdiff = dot(self.inv_cov, diff)
    energy = sum(diff*tdiff,axis=0) / 2.0
    result = result + exp(-energy)

Seaborn 通常有两种方法来计算二元 kde。如果可用，它使用statsmodels，如果不是，则回落到scipy.

scipy 代码与问题中显示的类似。它用scipy.stats.gaussian_kde https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.gaussian_kde.html#scipy.stats.gaussian_kde。 statsmodels 代码使用statsmodels.nonparametric.api.KDEMultivariate http://www.statsmodels.org/dev/generated/statsmodels.nonparametric.kernel_density.KDEMultivariate.html#statsmodels.nonparametric.kernel_density.KDEMultivariate.

然而，为了公平比较，我们需要对两种方法采用相同的网格大小。 Seaborn 的标准网格大小是 100 点。

import numpy as np; np.random.seed(42)
import seaborn.distributions as sd

N = 34900
x = np.random.randn(N)
y = np.random.randn(N)
bw="scott"
gridsize=100
cut=3
clip = [(-np.inf, np.inf), (-np.inf, np.inf)]

f = lambda x,y : sd._statsmodels_bivariate_kde(x, y, bw, gridsize, cut, clip)
g = lambda x,y : sd._scipy_bivariate_kde(x, y, bw, gridsize, cut, clip)

如果我们对这两个函数进行计时，

# statsmodels
%timeit f(x,y)  # 1 loop, best of 3: 16.4 s per loop
# scipy
%timeit g(x,y)  # 1 loop, best of 3: 8.67 s per loop

因此，Scipy 的速度是 statsmodels（seaborn 默认值）的两倍。问题中的代码花费这么长时间的原因是使用大小为 2000 的网格而不是大小为 100 的网格。

看到这些结果，人们实际上会想使用 scipy 而不是 statsmodels。不幸的是它不允许选择使用哪一个。因此需要手动设置相应的标志。

import seaborn.distributions as sd
sd._has_statsmodels = False
# plot kdeplot with scipy.stats.kde.gaussian_kde
sns.kdeplot(x,y)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

对于相同的数据，为什么 scipy.stats.gaussian_kde() 比 seaborn.kde_plot() 慢？的相关文章

numpy python 中的“AttributeError：'matrix'对象没有属性'strftime'”错误

我有一个维度为 72000 1 的矩阵该矩阵涉及时间戳我想使用 strftime 如下所示 strftime d m y 为了得到像这样的输出 11 03 02 我有这样一个矩阵 M np matrix timestamps 我使用了
NumPy linalg.eig

我有这个烦人的问题但我还没有弄清楚我有一个矩阵我想找到特征向量所以我写 val vec np linalg eig mymatrix 然后我得到了 vec 我的问题是当我小组中的其他人对相同的矩阵 mymatrix 做同样的事情时
在Python中如何获取字典的部分视图？

是否有可能获得部分视图dict在Python中类似于pandasdf tail df head 说你有很长一段时间dict 而您只想检查某些元素开头结尾等 dict 就像是 dict head 3 To see the first 3
无故运行测试时 PyCharm 抛出“AttributeError: 'module' object has no attribute”

因此我有一个 Django REST Framework 项目有一天它无法在 PyCharm 中运行测试从命令行我可以使用它们来运行它们paver or the manage py直接地曾经有一段时间当我们没有在文件顶部导入类的超
cv2.drawContours() - 取消填充字符内的圆圈（Python，OpenCV）

根据 Silencer的建议我使用了他发布的代码here https stackoverflow com questions 48244328 copy shape to blank canvas opencv python 482465
Python 是解释型的还是编译型的，或者两者兼而有之？

据我了解 An 解释的语言是由解释器将高级语言转换为机器代码然后执行的程序实时运行和执行的高级语言它一次处理一点程序 A compiled语言是一种高级语言其代码首先由编译器将高级语言转换为机器代码的程序转换为机器代码然后由执
PyTorch 给出 cuda 运行时错误

我对我的代码做了一些小小的修改以便它不使用 DataParallel and DistributedDataParallel 代码如下 import argparse import os import shutil import time
ImportError：运行 jupyter Notebook 时没有名为 IPython.paths 的模块？

我通过以下方式安装了 jupyter usr local opt python bin python2 7 m pip install jupyter 这将安装 ipython 版本 4 1 2 但是当我运行 jupyter Notebo
Python中列表中两个连续元素的平均值

我有一个偶数个浮点数的列表 2 34 3 45 4 56 1 23 2 34 7 89 我的任务是计算 1 和 2 个元素 3 和 4 5 和 6 等元素的平均值在 Python 中执行此操作的快捷方法是什么 data 2 34 3 45
更改 x 轴比例

我使用 Matlab 创建了这个图使用 matplotlib x 轴绘制大数字例如 100000 200000 300000 我想要 1 2 3 和 10 5 之类的值来指示它实际上是 100000 200000 300000 有没有一
将 numpy 代码点数组与字符串相互转换

我有一个很长的 unicode 字符串 alphabet range 0x0FFF mystr join chr random choice alphabet for in range 100 mystr re sub W mystr 我想
编辑 Jupyter Notebook 时 VS Code 中缺少“在选择中查找”

使用 Jupyter Notebook 时 VSCode 中缺少在选择中查找按钮它会减慢开发速度所以我想请问有人知道如何激活它吗第一张图显示了在 python 文件中的搜索替换第二张图显示了笔记本电脑中缺少的按钮 Python
Pandas：如何将数据框插入 Clickhouse

我正在尝试将 Pandas 数据框插入 Clickhouse 这是我的代码 import pandas import sqlalchemy as sa uri clickhouse default localhost default ch
对使用 importlib.util 导入的对象进行酸洗

我在使用Python的pickle时遇到了一个问题我需要通过将文件路径提供给 importlib util 来加载一些 Python 模块如下所示 import importlib util spec importlib util sp
如何从 JSON 响应重定向？

所以我尝试使用 Flask 和 Javascript 上传器 Dropzone 上传文件并在上传完成后重定向文件上传正常但在烧瓶中使用传统的重定向 return redirect http somesite com 不执行任何操作页面
Python对象初始化性能

我只是做了一些快速的性能测试我注意到一般情况下初始化列表比显式初始化列表慢大约四到六倍这些可能是错误的术语我不确定这里的行话例如 gt gt gt import timeit gt gt gt print timeit timeit
PIL - 需要抖动，但限制调色板会导致问题

我是 Python 新手正在尝试使用 PIL 来执行 Arduino 项目所需的解析任务这个问题涉及到Image convert 方法以及调色板抖动等选项我有一些硬件能够一次仅显示 16 种颜色的图像但它们可以指定为 RGB 三元
附加两个具有相同列、不同顺序的数据框

我有两个熊猫数据框 noclickDF DataFrame 0 123 321 0 1543 432 columns click id location clickDF DataFrame 1 123 421 1 1543 436 colu
从列表python的单个列表中删除子列表

我已经经历过从列表列表中删除子列表 https stackoverflow com questions 47209786 removing sublists from a list of lists 但当我为我的数据集扩展它时它不适用于我
python 日志记录会刷新每个日志吗？

当我使用标准模块将日志写入文件时logging 每个日志会分别刷新到磁盘吗例如下面的代码会将日志刷新 10 次吗 logging basicConfig level logging DEBUG filename debug log fo

随机推荐

当调用命中缓存时，OutputCache 发送错误的 Vary 标头

我有一个要缓存的操作方法 OutputCache Duration 60 5 Location OutputCacheLocation Any VaryByCustom index public ActionResult Index ret
如何使用 jQuery 获取上一页 URL

如何使用 jQuery 获取上一页 URL 我正在使用以下代码来获取当前页面位置 document ready function var pathname window location pathname 易如反掌 document rea
Android 仅使用电子邮件应用程序发送带附件的电子邮件

The 官方文档 https developer android com guide components intents common Email展示如何发送带有附件的电子邮件 public void composeEmail Strin
无法在 iPhone 设备上加载捆绑包中的笔尖

我正在尝试测试我在 iPhone 上开发的应用程序为此我将 Xcode 上的目标从 Simulator 更改为 Device 应用程序已正确上传到设备并且可以运行显示了主视图但如果我尝试打开辅助视图应用程序就会崩溃在 iPhon
使用 Javascript 获取画布中的最大字体大小

我正在绘制一个画布需要在整个可用屏幕上 100 宽度和高度我使用 JavaScript 设置画布的宽度和高度如下所示 var w window innerWidth var h window innerHeight var canva
以编程方式过滤我的应用程序的 logcat。不为我工作

在 Android 应用程序中我试图获取我的应用程序日志消息并将它们保存到文件中我正在使用下面的代码我为每个班级使用不同的标签并且有多个标签执行 logcat d 给我所有不相关的消息把我的包名写成 logcat d myapp
Javascript 文件在 ajax 导航中出现重复

我遇到了麻烦AJAX导航时问题是加载新内容后加载的 javascript 文件仍保留在浏览器中即使它们不在浏览器中DOM不再他们看起来像VM文件在浏览器控制台中并执行其中的代码我不希望发生这种情况因为当新内容通过时它应该被替换
ICE Faces 和在 WindowScoped 中创建 bean 时出现错误

在一些关于 WindowScoped 的问题和 BalusC 的回答之后我明白我会使用 MyFaces CODI 我应该在重写之前所有的代码之前因为我不能使用 Mojarra 所以我会使用 ICEFaces 因为它也有窗口范围和其他
Groovy 按句点拆分并仅返回第一个值

我的输入为 var primarynode domain local 现在我只需要primarynode从中我正在寻找 split 和 tokenize 但无法用一行代码来完成它有谁知道如何用一行代码做到这一点假设你只想得到第一个单词
仅转换 Scala 列表的第一个元素

有没有一种方法可以只转换列表的第一个元素而不需要做一些超级黑客的事情例如 val head l1 head val tail l1 tail val l2 change head tail updated 看起来它可以工作但并没有太大
为什么我在 Yosemite 上的 Xcode 6 中收到错误“Command /usr/bin/codesign failed with exit code 1”？

我使用的是 Xcode 6 1 OS X Yosemite 预览版 8 在对我的应用程序进行代码签名时遇到以下错误命令 usr bin codesign 失败退出代码 1 在谷歌上阅读它似乎与过期的证书配置文件相关联我删除了所有证
后台工作者从不同的类更新（最好通过事件）

我的 GUI 类中有一个后台工作者 private void bw DoWork object sender DoWorkEventArgs e ProgressClass obj new ProgressClass Importer tr
我们是否应该直接在 asp net mvc 视图中执行 LINQ

浏览我们正在开发的项目 ASP MVC 3 0 我在我的一个 ASPX 视图中看到了这部分代码 var groups Model GroupBy t gt new t OrganizationUnitName t OrganizationU
logging.error() 被调用了多少次？

也许它根本不存在因为我找不到它但是使用 python 的日志记录包有没有办法查询记录器以找出特定函数被调用的次数例如报告了多少错误警告日志记录模块似乎不支持此功能从长远来看您可能最好创建一个新模块并通过对现有日志记录模块
如何发布和订阅非 Mongodb 的数据？

Meteor publish 设置执行一些异步请求例如 API 然后返回要在 React 组件中显示的数据的过程是什么发布是如何工作的以及客户端代码如何访问它如果可能的话我想用 withTracker 函数来做到这一点谢谢本指南
如何将标签或按钮恰好放置在表单的中间？

我找不到将标签或按钮精确放置在表单中间的工具或属性例如在 X 轴上对比 2015 年 Design time 在我的 VisualStudio2010 中我有这 2 个按钮用于水平和垂直居中它位于工具栏布局中如果没有您可以
WebView，将本地 .CSS 文件添加到 HTML 页面？

在 android 中我使用 WebView 来显示我使用 Apache 的 HttpClient 从互联网获取的网页的一部分为了只从 html 中获取我想要的部分我使用 Jsoup String htmlString EntityU
Python 是否存在与素数相关的函数库？

我刚刚实施了米勒拉宾测试 http en wikipedia org wiki Miller E2 80 93Rabin primality test以及一个用于分解数字的简单函数两者都可以做得更好至少米勒拉宾测试是众所周知的那么
如何在 Visual Studio 2015 中使用 clang 编译适用于 Windows 的 C++

据我了解 Visual Studio 2015 附带了 clang 首先我以为这仅适用于 Android 和 iOS 应用程序但根据本文 http blogs msdn com b vcblog archive 2015 05 01 b
对于相同的数据，为什么 scipy.stats.gaussian_kde() 比 seaborn.kde_plot() 慢？

在 python 3 7 中我有这个 numpy 数组其形状 2 34900 该数组是一个坐标列表其中索引 0 表示 X 轴索引 1 表示 y 轴当我使用 seaborn kde plot 来可视化该数据的分布时在 i5 第七代

对于相同的数据，为什么 scipy.stats.gaussian_kde() 比 seaborn.kde_plot() 慢？

对于相同的数据，为什么 scipy.stats.gaussian_kde() 比 seaborn.kde_plot() 慢？ 的相关文章

随机推荐

热门标签

对于相同的数据，为什么 scipy.stats.gaussian_kde() 比 seaborn.kde_plot() 慢？的相关文章