在 Python 中计算稀疏 Gram 矩阵的最快方法是什么？

2024-06-26

格拉姆矩阵是结构矩阵X @ X.T这当然是对称的。当处理稠密矩阵时，numpy.dot产品实现足够智能，可以识别自乘以利用对称性，从而加快计算速度（请参阅this https://stackoverflow.com/a/50734430/1444073）。然而，使用时观察不到这样的效果scipy.sparse矩阵：

random.seed(0)
X = random.randn(5,50)
X[X < 1.5] = 0
X = scipy.sparse.csr_matrix(X)
print(f'sparsity of X: {100 * (1 - X.count_nonzero() / prod(X.shape)):5.2f} %')
# sparsity of X: 92.00 %

%timeit X @ X.T
# 248 µs ± 10.8 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

X2 = X.copy()
%timeit X @ X2.T
# 251 µs ± 9.38 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

所以我想知道：在Python中计算稀疏格拉姆矩阵的最快方法是什么？值得注意的是，仅计算下三角形（或等效的上三角形）就足够了。

我读过多次，使用天际线格式 https://en.wikipedia.org/wiki/Skyline_matrix对于对称矩阵非常有效，但是 scipy 不支持天际线格式。相反，人们把矛头指向pysparse http://pysparse.sourceforge.net/很多次，但似乎pysparse已经停产很久了，并且不支持Python 3。至少，我的Anaconda由于与Python 3的兼容性问题而拒绝安装pysparse。

感谢用户CJR的评论，我找到了一个令人满意的解决方案。事实上，我发现GitHub 上的一个库 https://github.com/flatironinstitute/sparse_dot它包装了 MKL 例程mkl_sparse_spmm对于Python。该例程用于两个稀疏矩阵的快速乘法。所以我所要做的就是扩展库并提供类似的包装器mkl_sparse_syrk。这正是我做了什么 https://github.com/kostrykin/sparse_dot.

我还需要添加一些评论，之后我将向原始项目提交拉取请求。

然而，以下是性能结果，令人印象深刻：

random.seed(0)
X = random.randn(500, 5000)
X[X < 0.8] = 0
X = scipy.sparse.csr_matrix(X)
print(f'X sparsity: {100 * (1 - X.count_nonzero() / prod(X.shape)):5.2f} %')
# X sparsity: 78.80 %

expected_result = (X @ X.T).toarray()
expected_result_triu = expected_result.copy()
expected_result_triu[tril_indices(expected_result.shape[0], k=-1)] = 0

mkl_result1 = sparse_dot_mkl.dot_product_mkl(X, X.T)
allclose(mkl_result1.toarray(), expected_result)
# True

mkl_result2 = sparse_dot_mkl.dot_product_transpose_mkl(X)
allclose(mkl_result2.toarray(), expected_result_triu)
# True

%timeit X @ X.T
# 197 ms ± 5.21 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

%timeit sparse_dot_mkl.dot_product_mkl(X, X.T)
# 70.6 ms ± 593 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)

%timeit sparse_dot_mkl.dot_product_transpose_mkl(X)
# 34.2 ms ± 421 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)

使用 MKL 中的通用点积代替 scipy 中的点积实现会产生加速 279%。使用专门的产品进行 Gram 矩阵计算可以得到加速 576%。这是巨大的。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在 Python 中计算稀疏 Gram 矩阵的最快方法是什么？的相关文章

使用不带引号的块样式的 Python YAML 转储

如何使用 PyYAML 加载和转储 YAML 以便它尽可能地使用原始样式我有 Python 来加载和转储 YAML 数据例如 import sys import yaml def represent dictorder self dat
搜索/替换 xml 内容

我已经成功地使用 xml etree ElementTree 解析 xml 搜索内容然后将其写入不同的 xml 然而我只是处理单个标签内的文本 import os sys glob xml etree ElementTree as ET
使用 setuptools (pip) 时如何打印警告和错误

我正在使用 setuptools 来打包代码以便可以使用以下命令轻松安装它 cd project name pip install 在设置过程中我想警告用户有关预先存在的配置文件的信息并在系统上打印一些安装后说明例如 etc pro
我如何知道Python的unicode函数识别的所有支持的编码

Python 有一个unicode将字节流转换为 unicode 字符串的内置函数我只是希望我能查询所有可用的encoding在我的系统上但如何这个问题的原因是有人使用 MAC OS X 向我发送了一封内容编码为 iso 2022
从 java 代码运行 Python 脚本

这是我第一次在java中尝试python 我正在尝试从我的代码执行 python 脚本如下所示 Process process Runtime getRuntime exec python C Users username Desktop
如何在 dash/plotly 中使用 iframe？（Python/HTML）

我正在创建一个仪表板我想使用这个交互式地图网站链接 https www ons gov uk peoplepopulationandcommunity healthandsocialcare causesofdeath articles
os.walk 无需深入研究下面的目录

我该如何限制os walk只返回我提供的目录中的文件 def dir list self dir name whitelist outputList for root dirs files in os walk dir name for f
Python 中没有名称属性的表单提交

背景在Python中使用urllib和urllib2 您可以进行表单提交您首先创建一个字典 formdictionary search stackoverflow 然后使用 urllib 的 urlencode 方法来转换这个字典 pa
python osmnx - 仅提取一个国家的大型高速公路

我知道可以通过 OSMNX python 包提取城市的道路网络详情请参阅https geoffboeing com 2016 11 osmnx python street networks https geoffboeing com 20
如何向 Jupyter (ipython) 笔记本自动添加扩展？

我已经安装了扩展 calico document tools 我可以使用以下命令从 Jupyter 笔记本中加载它 javascript IPython load extensions calico document tools 如何为每个
如何在我的 GUI 上绘图

我正在设计一个 GUIPyQt当我单击一个按钮来绘制我创建的函数的数据图时我需要显示一个 matplotlib pylab 窗口它就像 Matlab 中使用的运行时每次按下该按钮时我都想将 matplotlib pylab 窗口保留
基于 Pandas 中特殊字符分隔列中的每个项目进行聚合

我输入的数据如下 Date Investment Type Medium 1 1 2000 Mutual Fund Stocks Fixed Deposit Real Estate Own Online Through Agent 1 2
构建wheel失败/“错误：INCLUDE环境变量为空”

我正在使用 Python 2 7 11 并尝试 pip install 模块但是其中一些模块失败了我收到的消息是无法为 X 构建轮子和错误包含环境变量为空我尝试安装 Scrapy LXML 和 Twisted 但都失败了我尝
python请求ssl握手失败

每次我尝试这样做 requests get https url 我收到这条消息 import requests gt gt gt requests get https reviews gethuman com companies Trace
Python - 从一定范围内随机采样，同时避免某些值

我一直在阅读有关random sample 函数在random模块但没有看到任何可以解决我的问题的东西我知道使用random sample range 1 100 5 会给我来自人群的 5 个独特样本我想得到一个随机数range
如何从Python列表中的CSV文件的单个单元格中写入单词集？

dataList cyclone twister thunderstorm supercell wind weatherradar storm waterspout tropicalcyclone hurricane typhoon sno
Python for 循环前瞻

我有一个 python for 循环其中我需要向前查看一项以查看在处理之前是否需要执行某项操作 for line in file if the start of the next line 0 perform pre processing
tkinter 库 treectrl 转换为 exe 安装程序时出现 cx_freeze 错误

我使用的是 python 版本 3 7 我使用了这个名为 treectrl 的外部库当我运行 py 文件时它工作得很好但是当我使用 cx freeze 转换为 exe 文件时它给了我错误 NomodulleFound 名为 tkint
矩阵行列式算法 C++

我是编程新手我一直在寻找一种找到矩阵行列式的方法我在网上找到了这段代码但我很难理解这里的算法我对递归的基础没有问题但继续和主循环我很难理解非常感谢任何可以向我解释该算法的人 int determ int a MAX MAX in
Maya python 连接选择的属性

我一直在尝试制作一个简单的脚本它将采用两个视口选择然后基本上将第二个视口的旋转连接到第一个我不确定如何正确地从视口选择中为对象创建变量这是我的尝试但不起作用 import maya cmds as cmds sel cmds ls

随机推荐

当我尝试在 VS 中添加文件时加载类型库/DLL 时出错（HRESULT：0x80029C4A）

当我尝试在 Web 项目中创建视图时遇到问题这是我的错误消息 There was an error running the selected code generator Error loading type library DLL Ex
I18n C++ 复数形式的 hello world

完整的 C i18n gettext hello world 示例 https stackoverflow com questions 1003360 complete c i18n gettext hello world example
在 CouchDB 1.0 中创建用户时出错

我的系统是 ubuntu 10 04 安装了 CouchDB 1 0 我可以创建管理员或更多管理员以管理员身份登录一切正常从 CouchDB 0 11 开始存在非管理员用户的概念并且可以对数据库拥有细粒度的权限我想创建这样的用户
启用 useLegacyV2RuntimeActivationPolicy 的影响？

对于我当前的项目我们使用一些基于 CLR 2 的混合模式程序集为了在 NET 4 目标程序集中使用这些我知道您必须添加useLegacyV2RuntimeActivationPolicy true to the
使用 Chrome Canary 运行 WebDriver？

有没有办法告诉铬驱动程序 https code google com p chromedriver the 网络驱动程序 https dvcs w3 org hg webdriver raw file default webdriver s
Symfony 表单：如何更改表单生成的默认小部件

我正在为日期字段使用自定义小部件并且我想在所有表单中使用它问题是 symfony 使用默认的 sfWidgetFormDate 我想要的是更改此默认小部件以便使用我的自定义小部件生成表单我不想手动更改生成的所有表单我发现的唯一方法
如何像格式化数组一样使用 monolog 记录多行条目？

我正在尝试记录一个数组monolog in symfony logger this gt get logger logger gt info print R user true 我得到的输出未格式化为 print r 预期的格式它将所有内
java: log4j: jar 可执行文件的问题

当我从命令行运行 java package Main 时我的 log4j 工作正常但是当我使用 java jar myjar jar 等可执行 jar 运行相同的程序时我收到以下错误 log4j WARN No appenders c
类型提示、链式赋值和多重赋值

我想这两个问题是相关的所以我将它们放在一起 1 是否可以在链式赋值中放置类型提示这两次尝试都失败了 gt gt gt def foo a int b int c int a File
Eclipse java - 如何在 Maven 中包含 Jersey 原型？

我正在尝试使用 Maven Jersey 原型创建一个 Web 应用程序但是当我搜索它时它没有给我任何结果如果我需要为此设置任何内容或者如何获得搜索结果请问可以吗 Expected Actual 您需要将 Jersey Maven
在fixture hooks中使用用户代理进行浏览器检测

我有一些测试只需要在移动浏览器中运行目前我有一个客户端功能来检查用户代理 const checkMobile ClientFunction gt iPhone Android i test navigator userAgent 然后我在
PHP从数组中获取键值

当我把print r data 我得到以下内容 Array name gt Cheese 有办法拿到钥匙吗name在它自己的变量中可能有这样的情况name可能email和其他值 Use array keys http php net ma
使用 START WITH 和 CONNECT BY PRIOR 将查询从 oracle 迁移到 postgresql

我正在将一个进程从 oracle 迁移到 postgresql 并且在它们的转换方面遇到了另一个问题我一直在研究如何迁移oracle查询它有 START WITH 和 CONNECT BY PRIOR 我已经对此进行了记录我认为最简单
从构造函数调用中读取参数

Given const anInstance new Plugin a path 你能返回给出的参数吗 anInstance some method a path or someWrapper anInstance a path 限制您无
C++ init-list：使用未初始化的成员来初始化其他成员不会给出警告

g 4 4 和 4 6 clang 3 2 和 coverity 都没有使用 Wall 和 Wextra 其他一些或 Weverything 分别给我以下代码片段的警告 class B char t2 char t public B t
CakePHP 控制器的实际测试？

我正在使用 SimpleTest 1 0 1 用 CakePHP 刚刚发布的 1 2 4 编写一个新应用程序我已经阅读了相关章节Cookbook http book cakephp org view 366 Testing control
仅匹配单词或字符串中的撇号

我正在寻找一个可以匹配的Python正则表达式 didn t 并仅返回紧接在撇号前面的字符例如 t 但不是 d or t 在开始和结束时我努力了 w w 但它只匹配开头的撇号更多示例 I m 应该只匹配 m并不是 I Erick s
MyFaces + CDI 可以在 WebLogic 12c 上使用吗？

我已经尝试让这个设置运行几天了但仍然没有成功这是我一直在使用的测试应用程序 Named RequestScoped public class Test private String test test public String get
如何在 gitolite 中安装钩子

我已阅读全部关于钩子的文档 https github com sitaramc gitolite blob pu doc 2 admin mkd using hooks similar https stackoverflow com que
在 Python 中计算稀疏 Gram 矩阵的最快方法是什么？

格拉姆矩阵是结构矩阵X X T这当然是对称的当处理稠密矩阵时 numpy dot产品实现足够智能可以识别自乘以利用对称性从而加快计算速度请参阅this https stackoverflow com a 50734430 14440

在 Python 中计算稀疏 Gram 矩阵的最快方法是什么？

在 Python 中计算稀疏 Gram 矩阵的最快方法是什么？ 的相关文章

随机推荐

热门标签

在 Python 中计算稀疏 Gram 矩阵的最快方法是什么？的相关文章