查找将一个 NumPy ndarray 的行映射到另一个 NumPy ndarray 的一组索引

2024-03-25

我有两个结构化的 2Dnumpy数组是equal原则上，意义

A = numpy.array([[a1,b1,c1],
                 [a2,b2,c2],
                 [a3,b3,c3],
                 [a4,b4,c4]]) 

B = numpy.array([[a2,b2,c2],
                 [a4,b4,c4],
                 [a3,b3,c3],
                 [a1,b1,c1]])

不是这个意义上的

numpy.array_equal(A,B) # False
numpy.array_equiv(A,B) # False
numpy.equal(A,B) # ndarray of True and False

但从某种意义上说，一个数组(A) is the original在另一个中(B)数据沿一个轴（可以沿行或列）打乱。

什么是排序/洗牌的有效方法B匹配或变得等于A或者排序A变得等于B？相等性检查确实并不重要，只要两个数组被打乱以彼此匹配即可。A因此B有独特的行。

我尝试过view像这样对两个数组进行排序的方法

def sort2d(A):
    A_view = np.ascontiguousarray(A).view(np.dtype((np.void,
             A.dtype.itemsize * A.shape[1])))
    A_view.sort()
    return A_view.view(A.dtype).reshape(-1,A.shape[1])

但这显然在这里不起作用。此操作需要针对非常大的阵列执行，因此性能和可扩展性至关重要。

根据您的示例，您似乎已经同时对所有列进行了洗牌，这样就有一个映射的行索引向量A→B。这是一个玩具示例：

A = np.random.permutation(12).reshape(4, 3)
idx = np.random.permutation(4)
B = A[idx]

print(repr(A))
# array([[ 7, 11,  6],
#        [ 4, 10,  8],
#        [ 9,  2,  0],
#        [ 1,  3,  5]])

print(repr(B))
# array([[ 1,  3,  5],
#        [ 4, 10,  8],
#        [ 7, 11,  6],
#        [ 9,  2,  0]])

我们想要恢复一组索引，idx，使得A[idx] == B。这将是一个唯一的映射当且仅当A and B不包含重复的行。

一种有效的*方法是找到对中的行进行词法排序的索引A，然后找到每一行在哪里B将属于排序后的版本A. 一个有用的技巧 https://stackoverflow.com/questions/16970982/find-unique-rows-in-numpy-array/16973510#16973510是查看A and B作为一维数组，使用np.void将每一行视为单个元素的 dtype：

rowtype = np.dtype((np.void, A.dtype.itemsize * A.size / A.shape[0]))
# A and B must be C-contiguous, might need to force a copy here
a = np.ascontiguousarray(A).view(rowtype).ravel()
b = np.ascontiguousarray(B).view(rowtype).ravel()

a_to_as = np.argsort(a)     # indices that sort the rows of A in lexical order

现在我们可以使用np.searchsorted http://docs.scipy.org/doc/numpy-1.10.0/reference/generated/numpy.searchsorted.html对每行的位置执行二分搜索B将属于排序后的版本A:

# using the `sorter=` argument rather than `a[a_to_as]` avoids making a copy of `a`
as_to_b = a.searchsorted(b, sorter=a_to_as)

The mapping from A→B can be expressed as a composite of A→A_s→B

a_to_b = a_to_as.take(as_to_b)
print(np.all(A[a_to_b] == B))
# True

If A and B不包含重复的行，逆映射为B→A也可以使用获得

b_to_a = np.argsort(a_to_b)
print(np.all(B[b_to_a] == A))
# True

作为单个函数：

def find_row_mapping(A, B):
    """
    Given A and B, where B is a copy of A permuted over the first dimension, find
    a set of indices idx such that A[idx] == B.
    This is a unique mapping if and only if there are no repeated rows in A and B.

    Arguments:
        A, B:   n-dimensional arrays with same shape and dtype
    Returns:
        idx:    vector of indices into the rows of A
    """

    if not (A.shape == B.shape):
        raise ValueError('A and B must have the same shape')
    if not (A.dtype == B.dtype):
        raise TypeError('A and B must have the same dtype')

    rowtype = np.dtype((np.void, A.dtype.itemsize * A.size / A.shape[0]))
    a = np.ascontiguousarray(A).view(rowtype).ravel()
    b = np.ascontiguousarray(B).view(rowtype).ravel()
    a_to_as = np.argsort(a)
    as_to_b = a.searchsorted(b, sorter=a_to_as)

    return a_to_as.take(as_to_b)

基准：

In [1]: gen = np.random.RandomState(0)
In [2]: %%timeit A = gen.rand(1000000, 100); B = A.copy(); gen.shuffle(B)
....: find_row_mapping(A, B)
1 loop, best of 3: 2.76 s per loop

*成本最高的步骤是对行进行快速排序，即O(n log n)一般。我不确定是否可以做得比这更好。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

查找将一个 NumPy ndarray 的行映射到另一个 NumPy ndarray 的一组索引的相关文章

如何使用 Python 裁剪图像中的矩形

谁能给我关于如何裁剪两个矩形框并保存它的建议我已经尝试过这段代码但效果不佳 import cv2 import numpy as np Run the code with the image name keep pressing spa
matplotlib 中的 R 风格数据轴缓冲区

R 绘图自动设置 x 和 y 限制以在数据和轴之间留出一些空间我想知道 matplotlib 是否有办法自动执行相同的操作如果没有是否有一个好的公式或经验法则来说明 R 如何设置其轴限制在 matplotlib 中您可以通过
Pandas 连接问题：列重叠但未指定后缀

我有以下数据框 print df a mukey DI PI 0 100000 35 14 1 1000005 44 14 2 1000006 44 14 3 1000007 43 13 4 1000008 43 13 print df b
Paramiko SSHException 通道已关闭

我一直在使用 Paramiko 在 Linux Windows 机器上发送命令它可以很好地在 Ubuntu 机器上远程执行测试但是它不适用于 Windows 7 主机以下是我收到的错误 def unit for event self
Perl 是否有相当于 Python 的 `if __name__ == '__main__'` 的功能？

有没有一种方法可以确定当前文件是否是 Perl 源中正在执行的文件在 Python 中我们使用以下结构来做到这一点 if name main This file is being executed raise NotImplemente
使用多级解决方案计算二维网格中的最近邻

我有一个问题在 x y 大小的网格中我提供了一个点并且我需要找到最近的邻居在实践中我试图在 pygame 中找到距离光标最近的点该点跨越颜色距离阈值计算如下 sqrt rgb1 0 rgb2 0 2 rgb1 1 rgb2 1
如何使用 i18n 切换器将“LANGUAGE_CODE”保存到数据库，以便在 Django 中的不同浏览器中语言不会更改？

有什么办法可以改变它的值LANGUAGE CODE单击按钮发送请求时 settings py 中的变量会动态变化吗我希望用户设置自己的默认语言他们的帐户现在用户可以使用下拉列表选择他们的首选语言并且网站会得到完美的翻译并且
张量流和线程

下面是来自 Tensorflow 网站的简单 mnist 教程即单层 softmax 我尝试通过多线程训练步骤对其进行扩展 from tensorflow examples tutorials mnist import input dat
Tensorflow 不分配完整的 GPU 内存

Tensorflow 默认分配所有 GPU 内存但我的新设置实际上只有 9588 MiB 11264 MiB 我预计大约 11 000MiB 就像我的旧设置一样张量流信息在这里 from tensorflow python client
异或交换可以扩展到两个以上的变量吗？

我一直在尝试将异或交换扩展到两个以上的变量例如n变量但我没有得到比这更好的地方3 n 1 对于两个整型变量x1 and x2你可以像这样交换它们 swap x1 x2 x1 x1 x2 x2 x1 x2 x1 x1 x2 所以假设你有
在 Linux 上的 Python 中使用受密码保护的 Excel 工作表

问题很简单我每周都会收到一堆受密码保护的 Excel 文件我必须解析它们并使用 Python 将某些部分写入新文件我得到了文件的密码当在 Windows 上完成此操作时处理起来很简单我只需导入 win32com 并使用 clie
PyArmor - 打包为一个可执行文件

当我执行此命令时您好使用 PyArmor pyarmor pack main py 它将它打包到一个名为的文件夹中dist里面包含我的 exe 以及许多 Python 扩展文件据我所知 PyArmor 使用 PyInstaller 来
uri 警告中缺少端口：使用 Python OpenCV cv2.VideoCapture() 打开文件时出错

当我尝试流式传输 ipcam 时出现了如下所示的错误 tcp 000000000048c640 uri 中缺少端口警告打开文件时出错 build opencv modules videoio src cap ffmpeg impl h
如何使用 django-pyodbc (ubuntu 16.04) 配置数据库设置 Django-MSSQL？

我是 Django 新手目前正在尝试使用另一个数据库来保存我的模型即MS SQL 我的数据库部署在docker容器中 903876e64b67 microsoft mssql server linux bin sh c opt mssq
线性同余生成器 - 如何选择种子和统计检验

我需要做一个线性同余生成器它将成功通过所选的统计测试我的问题是如何正确选择发电机的数字以及我应该选择哪些统计检验我想均匀性的卡方频率测试每代收集10 000个号码的方法将 0 1 细分为10个相等的细分柯尔莫哥洛夫斯米尔
在 HDF5 (PyTables) 中存储 numpy 稀疏矩阵

我在使用 PyTables 存储 numpy csr matrix 时遇到问题我收到此错误 TypeError objects of type csr matrix are not supported in this context so
更新 SQLAlchemy 中的特定行

我将 SQLAlchemy 与 python 一起使用我想更新表中等于此查询的特定行 UPDATE User SET name user WHERE id 3 我通过 sql alchemy 编写了这段代码但它不起作用 session
沿轴 0 重复 scipy csr 稀疏矩阵

我想重复 scipy csr 稀疏矩阵的行但是当我尝试调用 numpy 的重复方法时它只是将稀疏矩阵视为对象并且只会将其作为 ndarray 中的对象重复我浏览了文档但找不到任何实用程序来重复 scipy csr 稀疏矩阵的行我
Pip 无法在 Windows 上安装 Twisted

我正在尝试在 Windows 8 计算机上安装 Twisted 在 Twisted 官方网站上只有一个 Windows 版的 Wheel 文件 https twistedmatrix com trac wiki Downloads htt
在父类中访问子类变量

我有一个父类和一个继承的子类我想知道如何访问我的父类中的子类变量我尝试了这个但失败了 class Parent object def init self print x class Child Parent x 1 x Child Er

随机推荐

Laravel - 未找到模型类

当开始使用模型时我收到以下错误找不到班级帖子我所做的一切使用命令创建模型php artisan make model 尝试从表中获取所有条目posts with echo Post all 我使用了以下代码路由器 php Rout
React 中是否可以从容器内触发包含组件的渲染？

所以我得到了App它实现了一个componentDidMount and render 应用程序包含 2 个组件一个一个AutoComplete输入另一个是CardView 该计划是一旦用户从列表中选择了一个项目AutoComple
当有大量可用内存时出现 OutOfMemoryException

我们有一个在 5 个服务器节点 16 个核心每个 128 GB 内存上运行的应用程序在每台计算机上加载近 70 GB 的数据该应用程序是分布式的并为并发客户端提供服务因此有大量的套接字使用类似地对于多个线程之间的同步有
通过字典使用 numba njit 并行化来加速代码的问题

我编写了一个代码并尝试使用 numba 来加速代码代码的主要目标是根据条件对一些值进行分组在这方面 iter 用于收敛代码以满足条件下面我准备了一个小案例来重现示例代码 import numpy as np import numba
Angular MFE - WebPack5 - 模块联合 - 图像路径问题

我们正在使用 Module Federation WebPack 5 创建一个 MFE 角度应用程序但最终出现了图像源路径问题当我们单独运行 MFE 时图像正在加载 localhost 5000 assets angular png
如何通过 PHP 处理 XML 输出中的水平省略号（三个点）字符

正如问题中提到的我正在尝试使用 PHP 生成 XML 输出用于 iPhone 应用程序 PHP 从 MySQL 的文本字段读取数据每当字段中有水平省略号字符时 XML 都不会正确生成我尝试了几种方法来逃避它如下所示但似乎都不起作
是否有一个标准的算法可以复制？

我正在使用一个istream iterator
如何通过 javascript/jQuery 中的 url 发送数组

我试图通过 url 发送 javascript 数组但它失败了 function viewReport mode someid if mode 0 var para new Array para para1 para1 0 para pa
C++ 链接器错误 SDL 图像 - 无法读取符号

我正在尝试使用 SDL Image 库并且已将 so 添加到我的项目的链接库列表中顺便说一下我正在使用 Code Blocks 完成此操作后当我去编译时出现以下错误 Linking console executable bin D
删除 Matlab 绘图刻度标签中的科学记数法

我在 Matlab 中绘制了一个图使用 hold on plot t1 Dx1 r xlabel t ps ylabel Deviation of coordinate from initial coordinate plot t1 Dy
在 Orchard CMS 中使用 ShapeHelper 生成形状 - 未找到类型

我正在使用 Orchard CMS 构建一个网站并创建我自己的自定义模块我一直在学习一些教程到目前为止还不错我不明白 ShapeHelper 方法是如何工作的它给我带来了一些麻烦以下代码来自我的驱动程序文件工作得非常好并在前端
C# - 无论我尝试什么，Base64 字节数组到图像都会失败

我在 C 中从 Base64 编码的字节数组创建图像位图对象时遇到问题这是我正在处理的事情我有一个用户可以裁剪图像的前端当用户通过选择图像input type file 我的javascript代码使用HTML5的FileReade
Python单元测试，仅在测试失败时才执行某些操作

当使用unittest来自 python 3 的库我只想在测试失败时执行一些操作但这应该在类级别上所以我不必为每个测试编写它例如当使用behave有这样的事情 def after step context step if step s
删除文本文件中的一行

好的我尝试从文件中删除包含的行该文件如下所示 Lorem ipsum Text 我的代码 f File open C websites ahr txt f each line do line if line include a lin
Scala import 语句位于 scala 类的顶部和内部

在scala中这两种导入策略有什么区别 Option 1 import com somepackage class MyClass further code Option 2 class MyClass import com somepac
我可以更改 apk 的版本代码吗？

我为 Android 构建了一个应用程序并且已经将其导出为 apk 如果已经导出我可以更改其版本代码吗我怎样才能做到这一点我丢失了备份代码我只有更新版本需要返回第一个版本我唯一能做的就是从 apk 备份中增加版本代码然后我的
php中计算每个子数组中的元素

一个例子来自php net http php net manual en function count php提供以下内容如何独立于 food 数组输出 3 获取水果和蔬菜的数量你可以这样做 e
当 Flexbox 项目以列模式换行时，容器不会增加其宽度

我正在研究一个嵌套的弹性盒布局它应该按如下方式工作最外层 ul main 是一个水平列表当向其中添加更多项目时该列表必须向右扩展如果它变得太大应该有一个水平滚动条 main display flex flex direction
maven2：从 WAR 中排除目录

I tried this http maven apache org plugins maven war plugin examples adding filtering webresources html从我的 WAR 文件中排除整个目录
查找将一个 NumPy ndarray 的行映射到另一个 NumPy ndarray 的一组索引

我有两个结构化的 2Dnumpy数组是equal原则上意义 A numpy array a1 b1 c1 a2 b2 c2 a3 b3 c3 a4 b4 c4 B numpy array a2 b2 c2 a4 b4 c4 a3 b3 c

查找将一个 NumPy ndarray 的行映射到另一个 NumPy ndarray 的一组索引

作为单个函数：

基准：

查找将一个 NumPy ndarray 的行映射到另一个 NumPy ndarray 的一组索引 的相关文章

随机推荐

热门标签

查找将一个 NumPy ndarray 的行映射到另一个 NumPy ndarray 的一组索引的相关文章