Python numpy：对 numpy 二维数组中的每对列执行函数？

2023-11-25

我试图将一个函数应用于 numpy 数组中的每一对列（每列都是一个人的基因型）。

例如：

[48]: g[0:10,0:10]

array([[ 1,  1,  1,  1,  1,  1,  1,  1,  1, -1],
      [ 1,  1,  1,  1,  1,  1,  1,  1,  1,  1],
      [ 1,  1,  1,  1,  1,  1, -1,  1,  1,  1],
      [ 1,  1,  1,  1,  1,  1,  1,  1,  1,  1],
      [ 0,  0,  0,  0,  0,  0,  0,  0,  0,  0],
      [ 1,  1,  1,  1,  1,  1,  1,  1,  1, -1],
      [-1, -1,  0, -1, -1, -1, -1, -1, -1,  0],
      [ 1,  1,  1,  1,  1,  1,  1,  1,  1,  1],
      [ 1,  1,  1,  1,  1,  1,  1,  1,  1,  1],
      [ 1,  1,  1,  1,  1,  1,  1,  1,  1,  1]], dtype=int8)

我的目标是生成一个距离矩阵 d ，以便 d 的每个元素都是比较 g 中每一列的成对距离。

d[0,1] = func(g[:,0], g[:,1])

任何想法都会很棒！谢谢你！

您可以简单地将函数定义为：

def count_snp_diffs(x, y): 
    return np.count_nonzero((x != y) & (x >= 0) & (y >= 0),axis=0)

然后使用生成的数组作为索引来调用它itertools.combinations，为了得到all可能的列组合：

combinations = np.array(list(itertools.combinations(range(g.shape[1]),2)))
dist = count_snp_diffs(g[:,combinations[:,0]], g[:,combinations[:,1]])

另外，如果输出must存储在矩阵中（对于大的g不推荐，因为只有上面的三角形会被填充，其余的都是无用的信息，这可以用同样的技巧来实现：

d = np.zeros((g.shape[1],g.shape[1]))
combinations = np.array(list(itertools.combinations(range(g.shape[1]),2)))
d[combinations[:,0],combinations[:,1]] = count_snp_diffs(g[:,combinations[:,0]], g[:,combinations[:,1]])

Now, d[i,j]返回列之间的距离i and j（然而d[j,i]是零）。这种方法依赖于这样一个事实：数组可以使用包含重复索引的列表或数组进行索引：

a = np.arange(3)+4
a[[0,1,1,1,0,2,1,1]]
# Out
# [4, 5, 5, 5, 4, 6, 5, 5]

这是对正在发生的事情的一步一步的解释。

Calling g[:,combinations[:,0]]访问排列第一列中的所有列，生成一个新数组，将其与生成的数组逐列进行比较g[:,combinations[:,1]]。因此，一个布尔数组diff被生成。如果g有 3 列，看起来像这样，其中每一列都是列的比较0,1, 0,2 and 1,2:

[[ True False False]
 [False  True False]
 [ True  True False]
 [False False False]
 [False  True False]
 [False False False]]

最后，添加每列的值：

np.count_nonzero(diff,axis=0)
# Out
# [2 3 0]

另外，由于python中的boolean类继承自integer类（大致False==0和和True==1，看这个answer of “Python 中的 False == 0 和 True == 1 是实现细节还是由语言保证的？”了解更多信息）。这np.count_nonzero每项加 1True位置，这与获得的结果相同np.sum:

np.sum(diff,axis=0) 
# Out
# [2 3 0]

关于性能和内存的注释

对于大型数组，一次处理整个数组可能需要太多内存，您可以获得Memory Error然而，对于小型或中型阵列，它往往是最快的方法。在某些情况下，按块工作可能很有用：

combinations = np.array(list(itertools.combinations(range(g.shape[1]),2)))
n = len(combinations)
dist = np.empty(n)
# B = np.zeros((g.shape[1],g.shape[1]))
chunk = 200
for i in xrange(chunk,n,chunk):
    dist[i-chunk:i] = count_snp_diffs(g[:,combinations[i-chunk:i,0]], g[:,combinations[i-chunk:i,1]])
    # B[combinations[i-chunk:i,0],combinations[i-chunk:i,1]] = count_snp_diffs(g[:,combinations[i-chunk:i,0]], g[:,combinations[i-chunk:i,1]])
dist[i:] = count_snp_diffs(g[:,combinations[i:,0]], g[:,combinations[i:,1]])
# B[combinations[i:,0],combinations[i:,1]] = count_snp_diffs(g[:,combinations[i:,0]], g[:,combinations[i:,1]])

For g.shape=(300,N)，报告的执行时间%%timeit在我的电脑上，python 2.7、numpy 1.14.2 和 allel 1.1.10 是：

10 columns
- numpy + 矩阵存储：107 µs
- numpy + 一维存储：101 µs
- 等位基因：247 µs
100 columns
- numpy + 矩阵存储：15.7 毫秒
- numpy + 一维存储：16 毫秒
- 等位基因：22.6 毫秒
1000 columns
- numpy + 矩阵存储：1.54 s
- numpy + 一维存储：1.53 秒
- 等位基因：2.28 s

使用这些数组维度，纯 numpy 比 allen 模块快一点，但应检查问题中的维度的计算时间。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python numpy：对 numpy 二维数组中的每对列执行函数？的相关文章

如何迭代按值排序的 Python 字典？

我有一本字典比如 a 6 b 1 c 2 我想迭代一下by value 不是通过键换句话说 b 1 c 2 a 6 最直接的方法是什么 sorted dictionary items key lambda x x 1 对于那些讨厌 la
如何使用 Plotly 中的直方图将所有离群值分入一个分箱？

所以问题是我可以在 Plotly 中绘制直方图其中所有大于某个阈值的值都将被分组到一个箱中吗所需的输出但使用标准情节Histogram类我只能得到这个输出 import pandas as pd from plotly import
从 ffmpeg 获取实时输出以在进度条中使用（PyQt4，stdout）

我已经查看了很多问题但仍然无法完全弄清楚我正在使用 PyQt 并且希望能够运行ffmpeg i file mp4 file avi并获取流式输出以便我可以创建进度条我看过这些问题 ffmpeg可以显示进度条吗 https stack
如何使用 imaplib 获取“消息 ID”

我尝试获取一个在操作期间不会更改的唯一 ID 我觉得UID不好所以我认为 Message ID 是正确的但我不知道如何获取它我只知道 imap fetch uid XXXX 有人有解决方案吗来自 IMAP 文档本身 IMAP4消息号
Django 模型在模板中不可迭代

我试图迭代模型以获取列表中的第一个图像但它给了我错误即模型不可迭代以下是我的模型和模板的代码我只需要获取与单个产品相关的列表中的第一个图像模型 py class Product models Model title models
Argparse nargs="+" 正在吃位置参数

这是我的解析器配置的一小部分 parser add argument infile help The file to be imported type argparse FileType r default sys stdin parser
Pandas 中允许重复列

我将一个大的 CSV 包含股票财务数据文件分割成更小的块 CSV 文件的格式不同像 Excel 数据透视表之类的东西第一列的前几行包含一些标题公司名称 ID 等在以下列中重复因为一家公司有多个属性而不是一家公司只有一栏在前几行
为什么Python的curses中escape键有延迟？

In the Python curses module I have observed that there is a roughly 1 second delay between pressing the esc key and getc
使用 Python pandas 计算调整后的成本基础（股票买入/卖出的投资组合分析）

我正在尝试对我的交易进行投资组合分析并尝试计算调整后的成本基础价格我几乎尝试了一切但似乎没有任何效果我能够计算调整后的数量但无法获得调整后的购买价格有人可以帮忙吗这是示例交易日志原始数据 import pandas as pd
为什么在 Python 2.4 中使用 Unicode 数据会出现 ASCII 编码错误，而在 2.7 中却不会？

我有一个程序当在 Python 2 7 中运行时会生成正确的 Unicode 输出到标准输出当在 Python 2 4 中运行时我得到UnicodeEncodeError ascii codec can t encode chara
python suds SOAP 请求中的名称空间前缀错误

我使用 python suds 来实现客户端并且在发送的 SOAP 标头中得到了错误的命名空间前缀用于定义由element ref 在 wsdl 中 wsdl 正在引用数据类型 xsd 文件请参见下文问题出在函数上GetRecord
Python urllib.request.urlopen：AttributeError：'bytes'对象没有属性'data'

我正在使用 Python 3 并尝试连接到dstk 我收到错误urllib包裹我对SO进行了很多研究但找不到与这个问题类似的东西 api url self api base street2coordinates api body jso
Numpy 过滤器平滑零区域

我有一个 0 及更大整数的 2D numpy 数组其中值代表区域标签例如 array 9 9 9 0 0 0 0 1 1 1 9 9 9 9 0 7 1 1 1 1 9 9 9 9 0 2 2 1 1 1 9 9 9 8 0 2 2 1
在 pytube3 中获取 youtube 视频的标题？

我正在尝试构建一个应用程序来使用 python 下载 YouTube 视频pytube3 但我无法检索视频的标题这是我的代码 from pytube import YouTube yt YouTube link print yt titl
在 Pandas 中使用正则表达式的多种模式

我是Python编程的初学者我正在探索正则表达式我正在尝试从描述列中提取一个单词数据库名称我无法给出多个正则表达式模式请参阅下面的描述和代码描述 Summary AD1 Low free DATA space in data
创建嵌套字典单行

您好我有三个列表我想使用一行创建一个三级嵌套字典 i e l1 a b l2 1 2 3 l3 d e 我想创建以下嵌套字典 nd a 1 d 0 e 0 2 d 0 e 0 3 d 0 e 0 b a 1 d 0 e 0 2 d 0
使用yield 进行字典理解

作为一个人为的例子 myset set a b c d mydict item yield join item s for item in myset and list mydict gives as cs bs ds a None b N
使用 PyTorch 分布式 NCCL 连接失败

我正在尝试使用 torch distributed 将 PyTorch 张量从一台机器发送到另一台机器 dist init process group 函数正常工作但是 dist broadcast 函数中出现连接失败这是我在节点 0
迭代 my_dict.keys() 并修改字典中的值是否会使迭代器失效？

我的例子是这样的 for my key in my dict keys my dict my key mutate 上述代码的行为是否已定义假设my dict是一本字典并且mutate是一个改变其对象的方法我担心的是改变字典中的值可能
您可以将操作直接应用于map/reduce/filter 中的参数吗？

map and filter通常可以与列表理解互换但是reduce并不那么容易被交换map and filter 此外在某些情况下我仍然更喜欢函数语法但是当您需要对参数本身进行操作时我发现自己正在经历语法体操最终必须编写整个函数

随机推荐

Shift + 鼠标滚轮水平滚动

对于水平滚动使用 Shift 滚轮相当常见这两者都相当容易捕获我可以使用 MouseWheel 事件以及由 KeyDown KeyUp 事件设置的标志来跟踪何时按下 Shift 键但是如何真正触发水平滚动呢我知道 WM MOUS
GHC 7.7 中引入的自由覆盖条件破坏了 GHC 7.6 中有效的代码

The idea 我正在写一个DSL 编译为 Haskell 该语言的用户可以定义自己的不可变数据结构和关联函数我所说的关联函数是指属于数据结构的函数例如用户可以编写用 pythonic 伪代码 data Vector a x y
如何使用 gitpython 对当前提交与上次提交进行 git diff？

我正在尝试掌握 gitpython 模块 hcommit repo head commit tdiff hcommit diff HEAD 1 but tdiff hcommit diff HEAD HEAD 不起作用也不 HEAD HE
是否可以为 UITableView 添加边框样式？（不是边框颜色/边框宽度）

是否可以为 UITableView 添加边框样式不仅仅是边框颜色和边框宽度例如凹槽边框样式嘿您可以使用以下方式为您的视图添加边框CALayer可以在QuartzCore Framework 以下链接将帮助您了解CALayer详细 C
如何使用 Eclipse 将特定于平台的本机库包含在 .JAR 文件中？

我刚刚开始学习JNI 我一直在遵循一个简单的示例并且创建了一个调用本机库中的 Hello World 方法的 Java 应用程序我想以 Win32 和 Linux x86 为目标我的库驻留在 DLL 中当 DLL 添加到 Eclip
如何阻止 Eclipse 在每次捕获的异常时崩溃？

当我开始调试 java 项目时 Eclipse 不断地破坏第 3 方库中的随机异常这非常烦人知道如何阻止这个吗我尝试单击断点视图上的图标我可以看到挂起捕获的异常和挂起未捕获的异常复选框都没有选中 Eclipse 仍然在异常
SCSS 与字符串的算术运算

selector width 10px width width 2 output 10px but expected 5px 上面的代码是不言自明的请纠正我您可以使用calc功能 selector width 10px width ca
为什么不能在字节变量中存储负值？

我正在转换可以在 Java 中运行但不能在 C 中运行的代码 byte buffer new byte 64 this buffer int this count 0x3F 128 这会生成编译时错误常量值 128 无法转换为字节如何
如何在 MySQL 中创建时间点架构

I read this有关为数据库构建时间点架构的文章在我看来这是一个优雅的解决方案但这篇文章是在不久前 2007 年就已经准备好的我想知道 1 还有其他方法可以解决这个问题吗 2 这种方法和其他方法的优缺点是什么 3 是否有可供
Burn 中的RegistrySearch 与 util:RegistrySearch

我在用Burn构建 WiX 引导程序我意识到如下所示的RegistrySearch实际上并没有搜索注册表我用了过程监控器监视注册表访问
Haskell：类型推断和函数组合

这个问题的灵感来自于此answer另一个问题表明您可以使用定义为的函数从列表中删除每个出现的元素 removeall filter 用铅笔和纸根据以下类型进行计算filter and 该函数的类型为 removeall Eq a gt a
将 Ruby 对象序列化为 JSON 并返回？

我想将一个对象序列化为 JSON 将其写入文件并读回现在我希望在 net 中有类似的东西你有 json net 或类似的东西然后你会这样做 JsonSerializer Serialize obj 并完成它您将返回 JSON 字符串
asp.net mvc 中的动态子域

我对 ASP NET 相当陌生对 IIS 也没什么经验我想让我的应用程序的每个用户都有自己的子域但都使用相同的控制器然后子域将控制显示的内容 Example user1subdomain mydomain com Whatever
为什么这样的递归不会出现堆栈溢出？

我不明白为什么打电话recSetTimeOut 不会导致堆栈溢出错误而recPromise does const recSetTimeOut gt console log in recSetTimeOut setTimeout recSe
为什么要升级到 c# 4.0？

我知道 C 4 0 中有一些不错的新功能但我无论如何也想不出升级现有项目或切换到新项目的令人信服的理由我看过一些帖子人们说如果他们的托管服务不提供 Net 4 他们会寻找另一个提供商因为 Net 4 是他们的方向的核心
malloc和free是如何实现的？

我想实现我自己的动态内存管理系统以添加有助于管理 C 内存的新功能我使用 Windows XP 和 Linux Ubuntu 实现 malloc 和 free 等功能需要什么我认为我必须使用最低级别的系统调用对于 Windows 我
IIS 7.5 Mercurial 设置忽略 maxAllowedContentLength

我正在尝试在 IIS 7 5 上设置 Mercurial 我有一个应用程序目录的 web config 该目录忽略了maxAllowedContentLength属性和我只是cannot让IIS接受它我在全球本地和各个层面尝试了一千种不
使用 Scipy 计算两个矩阵的行点积的向量化方法

我想尽快计算相同维度的两个矩阵的行点积这就是我这样做的方式 import numpy as np a np array 1 2 3 3 4 5 b np array 1 2 3 1 2 3 result np array for row1
生成某些数据的防篡改签名？

我有一个数据目前它是一个 XML 文件但架构可能会发生变化因此我们暂时假设它是一个 C 类当我将数据存储在磁盘或数据库中时我需要添加某种签名或指纹或校验和或其他任何内容以确保没有人可以修改数据警告即使是有权访问所有源代码
Python numpy：对 numpy 二维数组中的每对列执行函数？

我试图将一个函数应用于 numpy 数组中的每一对列每列都是一个人的基因型例如 48 g 0 10 0 10 array 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

Python numpy：对 numpy 二维数组中的每对列执行函数？

关于性能和内存的注释

Python numpy：对 numpy 二维数组中的每对列执行函数？ 的相关文章

随机推荐

热门标签

Python numpy：对 numpy 二维数组中的每对列执行函数？的相关文章