Broadcast 1D array against 2D array for lexsort ：在考虑另一个向量时独立对每列进行排序的排列

2024-04-12

考虑数组a

np.random.seed([3,1415])
a = np.random.randint(10, size=(5, 4))
a

array([[0, 2, 7, 3],
       [8, 7, 0, 6],
       [8, 6, 0, 2],
       [0, 4, 9, 7],
       [3, 2, 4, 3]])

我可以创造b其中包含对每列进行排序的排列。

b = a.argsort(0)
b

array([[0, 0, 1, 2],
       [3, 4, 2, 0],
       [4, 3, 4, 4],
       [1, 2, 0, 1],
       [2, 1, 3, 3]])

我可以排序a with b

a[b, np.arange(a.shape[1])[None, :]]

array([[0, 2, 0, 2],
       [0, 2, 0, 3],
       [3, 4, 4, 3],
       [8, 6, 7, 6],
       [8, 7, 9, 7]])

这是说明我正在寻找的输出的底漆。我想要一个数组b具有对相应列进行排序所需的排列a当还考虑lexsort与另一个数组。

np.random.seed([3,1415])
a = np.random.randint(10, size=(10, 4))
g = np.random.choice(list('abc'), 10)

a

array([[0, 2, 7, 3],
       [8, 7, 0, 6],
       [8, 6, 0, 2],
       [0, 4, 9, 7],
       [3, 2, 4, 3],
       [3, 6, 7, 7],
       [4, 5, 3, 7],
       [5, 9, 8, 7],
       [6, 4, 7, 6],
       [2, 6, 6, 5]])

g

array(['c', 'a', 'c', 'b', 'a', 'a', 'a', 'b', 'c', 'b'], 
      dtype='<U1')

我想生成一个数组b其中每一列都是必要的排列lexsort对应的列a。还有lexsort首先按定义的组对列进行排序g然后通过每列中的值a.

我可以通过以下方式生成结果：

r = np.column_stack([np.lexsort([a[:, i], g]) for i in range(a.shape[1])])
r

array([[4, 4, 1, 4],
       [5, 6, 6, 1],
       [6, 5, 4, 5],
       [1, 1, 5, 6],
       [3, 3, 9, 9],
       [9, 9, 7, 3],
       [7, 7, 3, 7],
       [0, 0, 2, 2],
       [8, 8, 0, 0],
       [2, 2, 8, 8]])

我们可以看到这是有效的

g[r]

array([['a', 'a', 'a', 'a'],
       ['a', 'a', 'a', 'a'],
       ['a', 'a', 'a', 'a'],
       ['a', 'a', 'a', 'a'],
       ['b', 'b', 'b', 'b'],
       ['b', 'b', 'b', 'b'],
       ['b', 'b', 'b', 'b'],
       ['c', 'c', 'c', 'c'],
       ['c', 'c', 'c', 'c'],
       ['c', 'c', 'c', 'c']], 
      dtype='<U1')

and

a[r, np.arange(a.shape[1])[None, :]]

array([[3, 2, 0, 3],
       [3, 5, 3, 6],
       [4, 6, 4, 7],
       [8, 7, 7, 7],
       [0, 4, 6, 5],
       [2, 6, 8, 7],
       [5, 9, 9, 7],
       [0, 2, 0, 2],
       [6, 4, 7, 3],
       [8, 6, 7, 6]])

Question

有没有办法“广播”分组数组的使用g用于每列lexsort？什么是更有效的方法来做到这一点？

这是一种方法 -

def app1(a, g):
    m,n = a.shape

    g_idx = np.unique(g, return_inverse=1)[1]
    N = g_idx.max()+1

    g_idx2D = g_idx[:,None] + N*np.arange(n)
    r_out = np.lexsort([a.ravel('F'), g_idx2D.ravel('F')]).reshape(-1,m).T
    r_out -= m*np.arange(n)
    return r_out

这个想法很简单，我们创建一个2D整数版本的网格g字符串数组，然后通过一个障碍来偏移每一列，该障碍会限制lexsort在每一列中搜索。

现在，在性能方面，似乎对于大型数据集，lexsort本身就会成为瓶颈。对于我们的问题，我们只处理两列。所以，我们可以创建自己的自定义lexsort根据偏移量缩放第二列，偏移量是第一列的最大数字限制。其实现看起来像这样 -

def lexsort_twocols(A, B):
    S = A.max() - A.min() + 1
    return (B*S + A).argsort()

因此，将其纳入我们提出的方法中并优化g_idx2D，我们会有一个像这样的正式函数 -

def proposed_app(a, g):
    m,n = a.shape

    g_idx = np.unique(g, return_inverse=1)[1]
    N = g_idx.max()+1

    g_idx2D = (g_idx + N*np.arange(n)[:,None]).ravel()
    r_out = lexsort_twocols(a.ravel('F'), g_idx2D).reshape(-1,m).T    
    r_out -= m*np.arange(n)
    return r_out

运行时测试

原来的做法：

def org_app(a, g):
    return np.column_stack([np.lexsort([a[:, i], g]) for i in range(a.shape[1])])

时间安排 -

In [763]: a = np.random.randint(10, size=(20, 10000))
     ...: g = np.random.choice(list('abcdefgh'), 20)
     ...: 

In [764]: %timeit org_app(a,g)
10 loops, best of 3: 27.7 ms per loop

In [765]: %timeit app1(a,g)
10 loops, best of 3: 25.4 ms per loop

In [766]: %timeit proposed_app(a,g)
100 loops, best of 3: 5.93 ms per loop

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

NumPy

arraybroadcasting

Broadcast 1D array against 2D array for lexsort ：在考虑另一个向量时独立对每列进行排序的排列的相关文章

Pandas：GroupBy 到 DataFrame

参考这个关于 groupby 到 dataframe 的非常流行的问题 https stackoverflow com questions 10373660 converting a pandas groupby object to dat
如何检查python xlrd库中的excel文件是否有效

有什么办法与xlrd库来检查您使用的文件是否是有效的 Excel 文件我知道还有其他库可以检查文件头我可以使用文件扩展名检查但为了多平台性我想知道是否有任何我可以使用的功能xlrd库本身在尝试打开文件时可能会返回类似 false 的内
如何在Python中同时运行两只乌龟？

我试图让两只乌龟一起移动而不是一只接着另一只移动例如 a turtle Turtle b turtle Turtle a forward 100 b forward 100 但这只能让他们一前一后地移动有没有办法让它们同时移动有没有
Mac OS X 中文件系统的 Unicode 编码在 Python 中不正确？

在 OS X 和 Python 中处理 Unicode 文件名有点困难我试图在代码中稍后使用文件名作为正则表达式的输入但文件名中使用的编码似乎与 sys getfilesystemencoding 告诉我的不同采取以下代码 usr b
如果未引发异常，则通过 Python 单元测试

在Python中unittest框架是否有一种方法可以在未引发异常的情况下通过单元测试否则会因 AssertRaise 而失败如果我正确理解你的问题你could做这样的事情 def test does not raise on va
搜索多个字段

我想我没有正确理解 django haystack 我有一个包含多个字段的数据模型我希望搜索其中两个字段 class UserProfile models Model user models ForeignKey User unique
Emacs 24.x 上的 IPython 支持

我对 IPython 与 Emacs 的集成感到困惑从 Emacs 24 开始 Emacs 附带了自己的python el 该文件是否支持 IPython 还是仅支持 Python 另外维基百科 http emacswiki org e
pytest：同一接口的不同实现的可重用测试

想象一下我已经实现了一个名为的实用程序可能是一个类 Bar在一个模块中foo 并为其编写了以下测试测试 foo py from foo import Bar as Implementation from pytest import ma
使用Python计算目录的大小？

在我重新发明这个特殊的轮子之前有没有人有一个很好的例程来使用 Python 计算目录的大小如果例程能够很好地以 Mb Gb 等格式格式化大小那就太好了这会遍历所有子目录总结文件大小 import os def get size s
Matplotlib 中 x 轴标签的频率和旋转

我在下面编写了一个简单的脚本来使用 matplotlib 生成图形我想将 x tick 频率从每月增加到每周并轮换标签我不知道从哪里开始 x 轴频率我的旋转线产生错误 TypeError set xticks got an unexp
如何在 pandas 中使用 read_fwf 跳过空行？

I use pandas read fwf http pandas pydata org pandas docs stable generated pandas read fwf htmlPython pandas 0 19 2 中的函数读
用 python 编写的数学语法检查器

我需要的只是使用 python 检查字符串是否是有效的数学表达式为了简单起见假设我只需要运算符也作为一元带有数字和嵌套括号为了完整性我还添加了简单的变量名称所以我可以这样测试 test 3 2 1 valid test 3
使用 Pandas 计算 delta 列

我有一个数据框如下所示 Name Variable Field A 2 3 412 A 2 9 861 A 3 5 1703 B 3 5 1731 A 4 0 2609 B 4 0 2539 A 4 6 2821 B 4 6 2779 A
Python SSL X509：KEY_VALUES_MISMATCH

Python HTTPS server from http server import HTTPServer SimpleHTTPRequestHandler import ssl https stackoverflow com a 408
Django Admin 中的反向内联

我有以下 2 个型号现在我需要将模型 A 内联到模型 B 的页面上模型 py class A models Model name models CharField max length 50 class B models Model n
如何与其他用户一起使用 pyenv？

如何与其他用户一起使用 pyenv 例如如果我在用户 test 的环境中安装了 pyenv 则当我以 test 身份登录时可以使用 pyenv 但是当我以其他用户例如 root 身份登录时如何使用 pyenv 即使你这么做了我也会s
Django 与谷歌图表

我试图让谷歌图表显示在我的页面上但我不知道如何将值从 django 视图传递到 javascript 以便我可以绘制图表姜戈代码 array Year Sales Expenses 2004 1000 400 2005 1170 460
多个对象以某种方式相互干扰[原始版本]

我有一个神经网络 NN 当应用于单个数据集时它可以完美地工作但是如果我想在一组数据上运行神经网络然后创建一个新的神经网络实例以在不同的数据集甚至再次同一组数据上运行那么新实例将产生完全错误的预测例如对 XOR 模式进行训练
使用ssl和socket的python客户端身份验证

我有一个 python 服务器需要客户端使用证书进行身份验证我如何制作一个客户端脚本使用客户端证书由 python 中的服务器使用 ssl 和套接字模块进行身份验证有没有仅使用套接字和 ssl 而不扭曲的示例 from OpenSS
查找总和为给定数字的值组合的函数

这个帖子查找提供的 Sum 值的组合 https stackoverflow com a 20194023 1561176呈现函数subsets with sum 它在数组中查找总和等于给定值的值的组合但由于这个帖子已经有6年多了我发这

随机推荐

Tensorflow动态RNN（LSTM）：如何格式化输入？

我已获得这种格式的一些数据以及以下详细信息 person1 day1 feature1 feature2 featureN label person1 day2 feature1 feature2 featureN label person
设置非 Office 文件的 Windows 文件属性

我想在 NET 代码中设置文件的属性我尝试过使用 DSOFile v2 1 如下所示 var properties new OleDocumentProperties try properties Open filePath proper
java中如何从字符串中提取子字符串

亲爱的大家我有一个像这样的字符串 1name john 2name lice 3name mike 我想输出它的子字符串 1name john 它在字符串中的位置不固定我也使用子字符串方法但无法获取它那么你能帮我一个忙吗谢谢 Str
C# - 静态类型不能用作类型参数

我有一个通用类可以帮助我检查参数值 internal sealed class Argument
Eclipse - 当涉及 Maven 时“作为 Java 应用程序运行”

我有一个 Maven 项目作为activeByDefault我有生产资料看来我找不到使用临时配置文件在 Eclipse 中将其作为应用程序运行的方法除非我将activeByDefault在暂存配置文件中有没有办法配置这个这样我就不
IE 脚本和通知设置之间的差异

这些 IE 设置之间有什么区别 Disable script debugging Internet Explorer Disable script debugging Other Display a notification about e
如何对这个（正确）抛出异常的异步方法进行单元测试？

我在界面中有以下方法 Task
使用 Javascript 进行速率限制并将 ajax 调用排队为每 15 秒一次

我有一个应用程序每次用户执行某些操作时都会自动发送推文如果用户愿意可以轻松地每秒执行一次该操作 Twitter 的速率限制表示它关注 15 分钟内发生了多少条推文从技术上讲我认为我总是低于 15 分钟标记但 Twitter 似
如何处理 YARN MapReduce 作业的容器故障？

YARN 中如何处理软件硬件故障具体来说如果容器发生故障崩溃会发生什么容器和任务失败由节点管理器处理当容器失败或死亡时节点管理器会检测到失败事件并启动一个新容器来替换失败的容器并在新容器中重新启动任务执行如果应用程序主机发
宏中参数的意外多重评估

为什么第二个 printf 的输出是 max of 50 and 67 is 62 为什么 50 和 62 的最大值不是 57 define MAX a b a gt b a b int incr static int i 42 i 5 r
无法使用实例引用访问成员“object.Equals(object, object)”；用类型名称来限定它

当我在 C 中使用以下代码时 int totalValue 0 int total 0 totalValue int Parse Session price ToString int Parse Session day ToString T
TFS 合并：无法丢弃变更集

我们有一个变更集开发人员已签入对源分支和目标分支的更改许多更改包括两个分支中的重命名从源分支到目标分支的变更集合并进展顺利但变更集仍保留在要合并的变更集列表中当我现在尝试再次合并更改集时它显示没有要合并的更改并且变更集保留在
数组值不相同（但它们是？）

我有两个数组它们似乎包含至少一组相同的值但执行array diff 即使我认为应该返回任何内容也不会返回任何内容这应该只是例行代码但由于某种原因它不喜欢我所做的奇怪的是var dump queue 0 回报String 167
创建一个简单的 Makefile 来构建共享库

我正在尝试创建一个非常基本的手工制作的 Makefile 来创建一个共享库来说明一点这是我到目前为止所拥有的 SHELL bin sh CC gcc FLAGS std gnu99 Iinclude CFLAGS fPIC pedanti
JSON 请求发送空数据（swift）

我的 iOS 应用程序正在向 Web 服务发送空数据我花了几个小时寻找解决方案但没有任何效果应用程序应该通过 php 脚本将 kontrah 号码发送到数据库然后数据库必须识别是否可以在数据库中找到 kontrah 编号然后如果
将 JPA 或 Hibernate 投影查询映射到 DTO（数据传输对象）

在我的 DAO 层中我有一个像这样的 Find 函数 public List
颤动设备选择未显示（目标选择器）

in one of my Flutter project I cannot any longer see a target selector to select the device It is interesting because if
Julia：数组是否包含特定的子数组

在 julia 中我们可以检查数组是否包含值如下所示 gt 6 in 4 6 5 true 然而当尝试按特定顺序检查子数组时这会返回 false gt 4 6 in 4 6 5 false 验证数组中是否存在特定子数组的正确语法是什
有任何 JQuery Alert() 可以替代 JavaScript 的原生警报吗？

我想替换原生 JavaScriptalert 与我自己的这样我就能够控制主题并拥有更多 JQueryUI 外观和感觉我已经尝试了许多替代方案 JQueryUI Dialog jAlert jqAlert 然而似乎所有这些都不像原始警报
Broadcast 1D array against 2D array for lexsort ：在考虑另一个向量时独立对每列进行排序的排列

考虑数组a np random seed 3 1415 a np random randint 10 size 5 4 a array 0 2 7 3 8 7 0 6 8 6 0 2 0 4 9 7 3 2 4 3 我可以创造b其中包含对每

Broadcast 1D array against 2D array for lexsort ：在考虑另一个向量时独立对每列进行排序的排列

Broadcast 1D array against 2D array for lexsort ：在考虑另一个向量时独立对每列进行排序的排列 的相关文章

随机推荐

热门标签

Broadcast 1D array against 2D array for lexsort ：在考虑另一个向量时独立对每列进行排序的排列的相关文章