查找列表内列表之间的相关性的效率问题

2024-01-05

如果我有两个小列表，我想找到里面每个列表之间的相关性list1里面的每个列表list2，我可以做这个

from scipy.stats import pearsonr

list1 = [[1,2,3],[4,5,6],[7,8,9],[10,11,12]]
list2 = [[10,20,30],[40,50,60],[77,78,79],[80,78,56]]

corrVal = []
for i in list1:
    for j in list2:
        corrVal.append(pearsonr(i,j)[0])

print(corrVal)

OUTPUT: [1.0, 1.0, 1.0, -0.90112711377916588, 1.0, 1.0, 1.0, -0.90112711377916588, 1.0, 1.0, 1.0, -0.90112711377916588, 1.0, 1.0, 1.0, -0.90112711377916588]

效果很好……差不多。（编辑：刚刚注意到我上面的相关输出似乎给出了正确的答案，但它们重复了 4 次。不太确定为什么这样做）

然而，对于列表中包含 1000 个值的较大数据集，我的代码会无限期冻结，不会输出任何错误，因此每次都会强制退出 IDE。有什么想法我在这里滑倒了吗？不确定 pearsonr 函数可以处理的数量是否存在固有限制，或者我的编码是否导致了问题。

scipy 模块scipy.spatial.distance http://docs.scipy.org/doc/scipy/reference/spatial.distance.html包括称为距离函数皮尔逊距离 https://en.wikipedia.org/wiki/Pearson_product-moment_correlation_coefficient#Pearson.E2.80.99s_distance，即 1 减去相关系数。通过使用参数metric='correlation' in scipy.spatial.distance.cdist http://docs.scipy.org/doc/scipy/reference/generated/scipy.spatial.distance.cdist.html，您可以有效计算两个输入中每对向量的 Pearson 相关系数。

这是一个例子。我将修改您的数据，使系数更加多样化：

In [96]: list1 = [[1, 2, 3.5], [4, 5, 6], [7, 8, 12], [10, 7, 10]]

In [97]: list2 = [[10, 20, 30], [41, 51, 60], [77, 80, 79], [80, 78, 56]]

所以我们知道会发生什么，这里是使用计算得出的相关系数scipy.stats.pearsonr:

In [98]: [pearsonr(x, y)[0] for x in list1 for y in list2]
Out[98]: 
[0.99339926779878296,
 0.98945694873927104,
 0.56362148019067804,
 -0.94491118252306794,
 1.0,
 0.99953863896044937,
 0.65465367070797709,
 -0.90112711377916588,
 0.94491118252306805,
 0.93453339271427294,
 0.37115374447904509,
 -0.99339926779878274,
 0.0,
 -0.030372836961539348,
 -0.7559289460184544,
 -0.43355498476205995]

在数组中查看它们更方便：

In [99]: np.array([pearsonr(x, y)[0] for x in list1 for y in list2]).reshape(len(list1), len(list2))
Out[99]: 
array([[ 0.99339927,  0.98945695,  0.56362148, -0.94491118],
       [ 1.        ,  0.99953864,  0.65465367, -0.90112711],
       [ 0.94491118,  0.93453339,  0.37115374, -0.99339927],
       [ 0.        , -0.03037284, -0.75592895, -0.43355498]])

这是使用计算得出的相同结果cdist:

In [100]: from scipy.spatial.distance import cdist

In [101]: 1 - cdist(list1, list2, metric='correlation')
Out[101]: 
array([[ 0.99339927,  0.98945695,  0.56362148, -0.94491118],
       [ 1.        ,  0.99953864,  0.65465367, -0.90112711],
       [ 0.94491118,  0.93453339,  0.37115374, -0.99339927],
       [ 0.        , -0.03037284, -0.75592895, -0.43355498]])

Using cdist is much比打电话更快pearsonr在嵌套循环中。这里我将使用两个数组，data1 and data2，每个大小为 (100, 10000)：

In [102]: data1 = np.random.randn(100, 10000)

In [103]: data2 = np.random.randn(100, 10000)

我会用方便的%timeit命令输入ipython测量执行时间：

In [104]: %timeit c1 = [pearsonr(x, y)[0] for x in data1 for y in data2]
1 loop, best of 3: 836 ms per loop

In [105]: %timeit c2 = 1 - cdist(data1, data2, metric='correlation')
100 loops, best of 3: 4.35 ms per loop

嵌套循环需要 836 毫秒，cdist.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

查找列表内列表之间的相关性的效率问题的相关文章

命令“pip list”显示错误

我想做 python 但我什至无法配置它 D 所以我在 Linux Mint 上安装了 pip 当输入 pip list 时出现错误 Exception Traceback most recent call last File usr li
使用 numpy 和 matplotlib 绘制总和直方图，而不是计数

我有一些每行两列的数据就我而言工作提交时间和区域我使用 matplotlib 的 hist 函数生成一个图表其中 x 轴上按天划分时间 y 轴上按天计数 import numpy as np import matplotlib py
IPython自动开启matplotlib交互模式

我遇到了 IPython 的一些新奇怪行为我只需重新安装我的 miniconda 所以我现在有了新的 IPython 和 Matplotlib 版本事实证明 IPython 会自动将 matplotlib 切换到交互模式这具有令人讨厌
字符串的正则表达式

我想在Python中分割字符串示例字符串大家好这是第一幕场景 1 和场景 2 这是第二幕场景 1 和场景 2 及更多进入以下列表 Hi this is ACT I SCENE 1 and SCENE2 and this is
如何在 PyQt5 GUI 中快速绘制 matplotlib 实时绘图

几年前我已经尝试过嵌入现场matplotlib中的情节PyQt5图形用户界面实时绘图显示从传感器捕获的实时数据流某些过程我已经成功了您可以在此处阅读相关帖子您自己的 GUI 中的 Matplotlib 动画 https stac
如何在 Linux/Unix 上根据文件类型添加文件扩展名？

这是一个关于 Unix shell 脚本任何 shell 的问题但任何其他标准脚本语言解决方案也将受到赞赏我有一个充满文件的目录其中文件名是这样的哈希值 fd73d0cf8ee68073dce270cf7e770b97 fec8
使用 python 检测给定音频文件中的静音索引

我正在尝试使用 numpy struct 等各种模块在 python 中处理音频文件但是我真的很难检测文件中的静音就像在哪里存在静音一样我遇到的方法之一是在音频信号上滑动固定时间间隔的窗口并记录元素平方和我是Python新手几乎不
当前从解码字符串中删除“surrogateescape”字符的习惯用法

阿明罗纳彻 http lucumr pocoo org 2013 7 2 the updated guide to unicode http lucumr pocoo org 2013 7 2 the updated guide to u
如何为超过 50.000 个网址的 django 站点地图创建索引

我有以下网址配置 url r sitemap xml index sitemaps sitemaps url r sitemap P section xml cache page 86400 sitemap sitemaps sitemap
Tkinter Checkbutton 不会更改我的变量

我正在尝试将 Checkbutton 与函数一起使用 my var 永远不会改变但它总是调用我的函数这里是代码 my var False def controllo carta global my var print str my va
如何测试 Python readline 完成情况？

我正在用 Python 编写一个命令行界面它使用 readline 模块来提供命令历史记录和完成虽然在交互模式下一切正常但我想对完成功能运行自动化测试我天真的第一次尝试涉及使用文件作为标准输入 my app lt command f
h5py安装后出现错误[重复]

这个问题在这里已经有答案了可能的重复在 OS X 上安装 h5py https stackoverflow com questions 6988010 installing h5py on os x 我正在尝试让 h5py 在我的 OS
pytest 是否有类似 google test 的非致命 EXPECT_* 行为？

我更熟悉谷歌测试框架并了解他们支持的主要行为对ASSERT vs EXPECT 这是致命和非致命断言模式来自文档 https github com google googletest blob master googletest docs
在Python 3中从网络下载文件

我正在创建一个程序通过读取同一游戏应用程序的 jad 文件中指定的 URL 从 Web 服务器下载 jar java 文件我正在使用Python 3 2 1 我已经设法从 JAD 文件中提取 JAR 文件的 URL 每个 JAD 文件
如何在运行测试用例后保留 django 测试数据库

当我通过输入运行测试用例时 python manage py test myapp 测试用例完成后 django 测试运行程序默认删除测试数据库我不想让它被删除我可以使用任何数据库我想保留我的数据库因为数据库中有错误我想在创建的数
NumPy“记录数组”或“结构化数组”或“recarray”

NumPy 结构化数组记录数组和记录数组之间有什么区别如果有的话 The NumPy 文档 http docs scipy org doc numpy user basics rec html暗示前两个是相同的如果是那么该对象
如何获取函数内的函数对象（Python）

我想要有类似的东西 def x print get def name 但不一定知道名字x 理想情况下它会返回 x 其中 x 是函数的名称您可以使用 Python 的内置检查库来完成此操作如果您想处理更复杂的情况您可以阅读更多其文档但
如何在多个 csv 文件中收集样本

我有以下文件 file1 csv file2 csv 我想从每个 csv 文件中提取样本 I tried f1 pd read csv file1 csv f1 sample 2 f1 append f2 我尝试循环并追加我想有些解决方案
django-过滤器和聚合函数

这是一个特定于应用程序的问题 Django 过滤器 https github com alex django filter 这里给没用过的人简单说明一下 f ProductFilter request GET queryset Produc
Jupyter Notebook 输出中仅部分显示图表

我正在尝试获取一个类似于此链接中显示的 2 的 PyLDAvis 图您可以立即看到它主题间距离图和前 30 个最显着的术语 http nbviewer jupyter org github bmabey hacker news topi

随机推荐

为什么以模态方式呈现视图控制器会破坏表视图中的自动布局？

示例项目 http cl ly 1o2K2m2r262q http cl ly 1o2K2m2r262q 我有一个UITableView具有从自动布局自动计算高度的自定义单元格自定义单元格内有三个标签每个标签与内容视图之间都有垂直间距
Errno::ENOENT: 没有这样的文件或目录 ruby

我收到以下错误 Errno ENOENT No such file or directory 当我尝试将文件下载到不存在的目录时例如 ftp Net FTP new example com ftp login files ftp chdi
如何将一个远程分支覆盖而不是合并到另一个分支？

我有两个分支机构分期和测试版暂存中包含我根本不想要的代码包括文件如何让 Beta 完全覆盖 Staging 以便这些文件或代码都不会从 Staging 合并到 Beta 中我看到有些人建议这样做 git checkout stag
REGEXP_REPLACE 捕获组

我想知道是否有人可以帮助我了解如何使用 Hive 的 regexp replace 函数来捕获正则表达式中的组并在替换字符串中使用这些组我正在解决一个涉及日期修改的示例问题在此示例中我的目标是获取与 SimpleDateFormat
在 iOS 12 上从 FCM 接收远程推送通知时播放自定义声音

我正在尝试在以下情况下播放自定义声音REMOTE当应用程序完全关闭或在后台时收到通知但我尝试过的一切都不起作用我使用的音频文件是受支持的 caf 文件它的长度为 20 秒在苹果的限制之内该文件位于主应用程序包中而不是在特定方案中
TensorFlow 1.2 如何使用 Seq2Seq 在推理时设置时间序列预测

我正在尝试使用玩具模型研究 TensorFlow 库的 tf contrib seq2seq 部分目前我的图表如下 tf reset default graph Placeholders enc inp tf placeholder t
将操作栏的标题替换为微调器（下拉菜单）

我试图在操作栏默认标题出现的同一位置显示微调器我按照类似的指示进行操作所以这里的情况 https stackoverflow com questions 11983120 remove the title text from the ac
数据库设计：如何支持多语言网站？

假设我有一张桌子 TABLE product product id name description 1 Widget 1 Really nice widget Buy it now 如果
使用 ionic 2 中的 navcontroller 修复导航

我正在尝试实现一个具有登录身份验证的简单离子应用程序当用户输入凭据并点击登录时我将导航的根设置为包含主页联系方式和关于页面的选项卡页面问题是当我点击主页中的注销按钮它将主页选项卡请参阅 home ts 中的注销功能重定向到登录
为什么 gcc 报告“隐式声明函数‘round’”？

我有以下 C 代码 include
为什么相同的 SQLite 查询在仅获取两倍结果时却慢了 30 倍？

我一直在努力加快我正在使用的查询大约一周的时间并在这里提出了几个有关它的问题运行 sqlite 查询后如何加快获取结果的速度 https stackoverflow com questions 10412604 how can i sp
搜索条件值后查询Oracle约束

我想在 Oracle SQL 中找到具有特定 search condition 的约束像这样的事情 SELECT constraint name constraint type search condition FROM USER CON
“未修改”标头后跟带有 sitemesh3 和 mod-jk 的意外内容正文

在我的 Java Struts2 Tomcat 应用程序中当请求某些生成 304 Not Modified 响应的资源时该文件仍在响应中发送这是使用 Fiddler 捕获的响应示例 HTTP 1 1 304 Not Modified
从选项卡切换到折叠以获得响应

目标是当网站宽度小于 676 像素时从选项卡切换到手风琴样式折叠我们正在使用引导程序我们将使用 css 分别隐藏 ul nav tabs 和 a accordtion toggle 选项卡在这里可以工作但 a accordion t
“使用声明”功能在 C# 7.3 中不可用。请使用语言版本 8.0 或更高版本 - 在一台计算机上出错，但在另一台计算机上正常

使用时Visual Studio 企业版 16 3 7在两台独立的机器上一台构建正常另一台机器抛出错误使用声明功能在 C 7 3 中不可用请用语言版本 8 0 或更高版本这可以通过设置在非工作机器上轻松解决LangVersio
我有一个 has_many 关系，我想设置自定义限制和偏移量。以及计算它们

Hy My code profile images 我只想一次只获取 10 张图像偏移量为 10 就像这样 profile images limit gt 10 offset gt 10 不是这样的 has many images lim
Java 是否有与 C# 的 Environment.GetCommandLineArgs() 等效的函数？

我知道我可以在 main 方法中获取命令行参数但我需要能够获取它们间接地感谢您的帮助以下表达式正是您想要的 System getProperty sun java command
将数据转换为分位数箱

我有一个带有数字列的数据框对于每一列我想计算分位数信息并将每一行分配给其中之一我尝试使用qcut method http pandas pydata org pandas docs dev groupby html highlight
Coq 中的程序定点和函数有什么区别？

它们似乎有相似的目的到目前为止我注意到的一个区别是Program Fixpoint将接受复合措施例如 measure length l1 length l2 Function似乎拒绝这一点并且只会允许 measure length l1
查找列表内列表之间的相关性的效率问题

如果我有两个小列表我想找到里面每个列表之间的相关性list1里面的每个列表list2 我可以做这个 from scipy stats import pearsonr list1 1 2 3 4 5 6 7 8 9 10 11 12 lis

查找列表内列表之间的相关性的效率问题

查找列表内列表之间的相关性的效率问题 的相关文章

随机推荐

热门标签

查找列表内列表之间的相关性的效率问题的相关文章