使用 numpy 进行矢量化基数排序 - 它能击败 np.sort 吗？

2024-04-07

numpy 没有yet https://github.com/numpy/numpy/issues/6050有一个基数排序，所以我想知道是否可以使用预先存在的 numpy 函数编写一个基数排序。到目前为止，我有以下方法，它确实有效，但比 numpy 的快速排序慢大约 10 倍。

测试和基准测试：

a = np.random.randint(0, 1e8, 1e6)
assert(np.all(radix_sort(a) == np.sort(a))) 
%timeit np.sort(a)
%timeit radix_sort(a)

The mask_b循环可以至少部分矢量化，跨掩码广播&，并使用cumsum with axisarg，但这最终会导致悲观，可能是由于内存占用增加。

如果有人能找到一种方法来改进我所拥有的东西，我很有兴趣听到，即使它仍然比np.sort...这更多的是一种求知欲和对数字技巧的兴趣。

请注意，您可以实施 https://stackoverflow.com/a/18502321/2399799快速计数排序很容易，尽管这只适用于小整数数据。

Edit 1: Taking np.arange(n)跳出循环有一点帮助，但这并不是很令人兴奋。

Edit 2: The cumsum实际上是多余的（哎呀！），但这个更简单的版本对性能的帮助很小。

def radix_sort(a):
    bit_len = np.max(a).bit_length()
    n = len(a)
    cached_arange = arange(n)
    idx = np.empty(n, dtype=int) # fully overwritten each iteration
    for mask_b in xrange(bit_len):
        is_one = (a & 2**mask_b).astype(bool)
        n_ones = np.sum(is_one)      
        n_zeros = n-n_ones
        idx[~is_one] = cached_arange[:n_zeros]
        idx[is_one] = cached_arange[:n_ones] + n_zeros
        # next three lines just do: a[idx] = a, but correctly
        new_a = np.empty(n, dtype=a.dtype)
        new_a[idx] = a
        a = new_a
    return a

Edit 3:如果您分多个步骤构造 idx，则可以一次循环两个或多个位，而不是循环单个位。使用 2 位有一点帮助，我没有尝试更多：

idx[is_zero] = np.arange(n_zeros)
idx[is_one] = np.arange(n_ones)
idx[is_two] = np.arange(n_twos)
idx[is_three] = np.arange(n_threes)

编辑4和5：对于我正在测试的输入来说，4 位似乎是最好的。此外，您还可以摆脱idx完全迈出一步。现在只有大约 5 倍，而不是 10 倍，比np.sort (来源可作为要点 https://gist.github.com/d1manson/31b09afa2a46e59372da):

Edit 6:这是上面的整理版本，但它也有一点点slower。 80%的时间花在repeat and extract- 如果有一种方法可以广播extract :( ...

def radix_sort(a, batch_m_bits=3):
    bit_len = np.max(a).bit_length()
    batch_m = 2**batch_m_bits
    mask = 2**batch_m_bits - 1
    val_set = np.arange(batch_m, dtype=a.dtype)[:, nax] # nax = np.newaxis
    for _ in range((bit_len-1)//batch_m_bits + 1): # ceil-division
        a = np.extract((a & mask)[nax, :] == val_set,
                        np.repeat(a[nax, :], batch_m, axis=0))
        val_set <<= batch_m_bits
        mask <<= batch_m_bits
    return a

编辑7和8：实际上，您可以使用以下方式广播摘录as_strided from numpy.lib.stride_tricks，但它似乎对性能没有多大帮助：

最初这对我来说是有意义的，因为extract将迭代整个数组batch_m次，因此 CPU 请求的缓存行总数将与以前相同（只是在进程结束时它已请求每个缓存行batch_m次）。然而现实 https://github.com/numpy/numpy/blob/4ee1ed5c0fa3a519c0e406e79b55f7bff0a3d360/numpy/lib/function_base.py#L1766就是它extract不够聪明，无法迭代任意步进数组，并且必须在开始之前扩展数组，即无论如何都会完成重复。事实上，看过源码后extract，我现在发现我们可以用这种方法做的最好的事情是：

a = a[np.flatnonzero((a & mask)[nax, :] == val_set) % len(a)]

这比extract。然而，如果len(a)是 2 的幂，我们可以用以下方式替换昂贵的 mod 操作& (len(a) - 1)，这最终比extract版本（现在约为 4.9xnp.sort for a=randint(0, 1e8, 2**20）。我想我们可以通过零填充来实现两个长度的非幂，然后在排序末尾裁剪掉额外的零......但是，这将是一种悲观，除非长度已经接近于幂二。

我尝试使用 Numba 来看看基数排序有多快。 Numba 获得良好性能的关键（通常）是写出所有循环，这非常有启发性。我最终得到以下结果：

from numba import jit

@jit
def radix_loop(nbatches, batch_m_bits, bitsums, a, out):
    mask = (1 << batch_m_bits) - 1
    for shift in range(0, nbatches*batch_m_bits, batch_m_bits):
        # set bit sums to zero
        for i in range(bitsums.shape[0]):
            bitsums[i] = 0

        # determine bit sums
        for i in range(a.shape[0]):
            j = (a[i] & mask) >> shift
            bitsums[j] += 1

        # take the cumsum of the bit sums
        cumsum = 0
        for i in range(bitsums.shape[0]):
            temp = bitsums[i]
            bitsums[i] = cumsum
            cumsum += temp

        # sorting loop
        for i in range(a.shape[0]):
            j = (a[i] & mask) >> shift
            out[bitsums[j]] = a[i]
            bitsums[j] += 1

        # prepare next iteration
        mask <<= batch_m_bits
        # cant use `temp` here because of numba internal types
        temp2 = a
        a = out
        out = temp2

    return a

从 4 个内部循环中，很容易看出这是第四个循环，因此很难使用 Numpy 进行矢量化。

解决该问题的一种方法是从 Scipy 中引入特定的 C++ 函数：scipy.sparse.coo.coo_tocsr https://github.com/scipy/scipy/blob/maintenance/0.16.x/scipy/sparse/sparsetools/coo.h#L34-L78。它的内部循环与上面的 Python 函数几乎相同，因此可以滥用它在 Python 中编写更快的“向量化”基数排序。也许是这样的：

from scipy.sparse.coo import coo_tocsr

def radix_step(radix, keys, bitsums, a, w):
    coo_tocsr(radix, 1, a.size, keys, a, a, bitsums, w, w)
    return w, a

def scipysparse_radix_perbyte(a):
    # coo_tocsr internally works with system int and upcasts
    # anything else. We need to copy anyway to not mess with
    # original array. Also take into account endianness...
    a = a.astype('<i', copy=True)
    bitlen = int(a.max()).bit_length()
    radix = 256
    work = np.empty_like(a)
    _ = np.empty(radix+1, int)
    for i in range((bitlen-1)//8 + 1):
        keys = a.view('u1')[i::a.itemsize].astype(int)
        a, work = radix_step(radix, keys, _, a, work)
    return a

^{EDIT: Optimized the function a little bit.. see edit history.}

其一是效率低下LSB https://en.wikipedia.org/wiki/Least_significant_bit像上面这样的基数排序是数组在 RAM 中被完全洗牌多次，这意味着 CPU 缓存没有得到很好的利用。为了尝试减轻这种影响，可以选择首先使用 MSB 基数排序进行一次传递，将项目放入大致正确的 RAM 块中，然后再使用 LSB 基数排序对每个结果组进行排序。这是一种实现：

def scipysparse_radix_hybrid(a, bbits=8, gbits=8):
    """
    Parameters
    ----------
    a : Array of non-negative integers to be sorted.
    bbits : Number of bits in radix for LSB sorting.
    gbits : Number of bits in radix for MSB grouping.
    """
    a = a.copy()
    bitlen = int(a.max()).bit_length()
    work = np.empty_like(a)

    # Group values by single iteration of MSB radix sort:
    # Casting to np.int_ to get rid of python BigInt
    ngroups = np.int_(2**gbits)
    group_offset = np.empty(ngroups + 1, int)
    shift = max(bitlen-gbits, 0)
    a, work = radix_step(ngroups, a>>shift, group_offset, a, work)
    bitlen = shift
    if not bitlen:
        return a

    # LSB radix sort each group:
    agroups = np.split(a, group_offset[1:-1])
    # Mask off high bits to not undo the grouping..
    gmask = (1 << shift) - 1
    nbatch = (bitlen-1) // bbits + 1
    radix = np.int_(2**bbits)
    _ = np.empty(radix + 1, int)
    for agi in agroups:
        if not agi.size:
            continue
        mask = (radix - 1) & gmask
        wgi = work[:agi.size]
        for shift in range(0, nbatch*bbits, bbits):
            keys = (agi & mask) >> shift
            agi, wgi = radix_step(radix, keys, _, agi, wgi)
            mask = (mask << bbits) & gmask
        if nbatch % 2:
            # Copy result back in to `a`
            wgi[...] = agi
    return a

时间（在我的系统上每个时间都有最佳性能设置）：

def numba_radix(a, batch_m_bits=8):
    a = a.copy()
    bit_len = int(a.max()).bit_length()
    nbatches = (bit_len-1)//batch_m_bits +1
    work = np.zeros_like(a)
    bitsums = np.zeros(2**batch_m_bits + 1, int)
    srtd = radix_loop(nbatches, batch_m_bits, bitsums, a, work)
    return srtd

a = np.random.randint(0, 1e8, 1e6)
%timeit numba_radix(a, 9)
# 10 loops, best of 3: 76.1 ms per loop
%timeit np.sort(a)
#10 loops, best of 3: 115 ms per loop
%timeit scipysparse_radix_perbyte(a)
#10 loops, best of 3: 95.2 ms per loop
%timeit scipysparse_radix_hybrid(a, 11, 6)
#10 loops, best of 3: 75.4 ms per loop

Numba 表现非常好，正如预期的那样。而且通过对现有 C 扩展的一些巧妙应用，有可能击败numpy.sort。 IMO 在优化级别上，您已经得到了值得考虑的 Numpy 附加组件，但我不会真正考虑我的答案“向量化”中的实现：大部分工作是在外部完成的专用功能。

另一件令我印象深刻的事情是对基数选择的敏感性。对于我尝试的大多数设置，我的实现仍然比numpy.sort，因此在实践中需要某种启发式方法才能全面提供良好的性能。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 numpy 进行矢量化基数排序 - 它能击败 np.sort 吗？的相关文章

如何让python优雅地失败？

我只是想知道如何让 python 在所有可能的错误中以用户定义的方式失败例如我正在编写一个处理大项目列表的程序并且某些项目可能不符合我定义的格式如果 python 检测到错误它目前只会输出一条丑陋的错误消息并停止整个过程但是
Pandas 连接问题：列重叠但未指定后缀

我有以下数据框 print df a mukey DI PI 0 100000 35 14 1 1000005 44 14 2 1000006 44 14 3 1000007 43 13 4 1000008 43 13 print df b
组和平均 NumPy 矩阵

假设我有一个任意的 numpy 矩阵如下所示 arr 6 0 12 0 1 0 7 0 9 0 1 0 8 0 7 0 1 0 4 0 3 0 2 0 6 0 1 0 2 0 2 0 5 0 2 0 9 0 4 0 3 0 2 0 1 0
类型错误：float() 参数必须是字符串或数字，而不是“列表”python

我的 Python 有问题这是我的代码 def calcola a input b float a 0 split c float a 0 split d float a 0 split e float a 0 split j float
使用多级解决方案计算二维网格中的最近邻

我有一个问题在 x y 大小的网格中我提供了一个点并且我需要找到最近的邻居在实践中我试图在 pygame 中找到距离光标最近的点该点跨越颜色距离阈值计算如下 sqrt rgb1 0 rgb2 0 2 rgb1 1 rgb2 1
Django 不会以奇怪的错误“AttributeError: 'module' object has no attribute 'getargspec'”启动

我对 Django 的内部结构有点缺乏经验所以我现在完全陷入困境它昨天起作用了但我不记得我改变过任何重要的东西当我转身时DEBUG True任何恰好位于列表中第一个的模块上都有堆栈跟踪 Traceback most recent c
按多个键分组并对字典列表的值进行汇总/平均值

在Python中按多个键进行分组并对字典列表进行汇总平均值的最Pythonic方法是什么假设我有一个字典列表如下所示 input dept 001 sku foo transId uniqueId1 qty 100 dept 001
在 iPython/pandas 中绘制多条线会生成多个图

我试图了解 matplotlib 的状态机模型但在尝试在单个图上绘制多条线时遇到错误据我了解以下代码应该生成包含两行的单个图 import pandas as pd import pandas io data as web aapl
pandas 中连续数据的平行坐标图

pandas 的 parallel coordinates 函数非常有用 import pandas import matplotlib pyplot as plt from pandas tools plotting import par
为什么 __instancecheck__ 没有被调用？

我有以下 python3 代码 class BaseTypeClass type def new cls name bases namespace kwd result type new cls name bases namespace p
Jupyter Notebook 中的深色模式绘图 - Python

我正在使用 Jupyter Notebook 目前正在使用 JupyterThemes 的深色日光主题我注意到我的绘图不是处于黑暗模式并且文本仍然是黑色并且在日光照射的背景上无法读取 JupyterThemes 的自述文件建议在 ipy
线性同余生成器 - 如何选择种子和统计检验

我需要做一个线性同余生成器它将成功通过所选的统计测试我的问题是如何正确选择发电机的数字以及我应该选择哪些统计检验我想均匀性的卡方频率测试每代收集10 000个号码的方法将 0 1 细分为10个相等的细分柯尔莫哥洛夫斯米尔
计算 pyspark df 列中子字符串列表的出现次数

我想计算子字符串列表的出现次数并根据 pyspark df 中包含长字符串的列创建一个列 Input ID History 1 USA UK IND DEN MAL SWE AUS 2 USA UK PAK NOR 3 NOR NZE 4
根据列索引重命名 Dataframe 列

是否有内置函数可以按索引重命名 pandas 数据框我以为我知道列标题的名称但事实证明第二列中有一些十六进制字符根据我接收数据的方式我将来可能会在第 2 列中遇到这个问题因此我无法将这些特定的十六进制字符硬编码到 datafram
在python中读取PASCAL VOC注释

我在 xml 文件中有注释例如这个它遵循 PASCAL VOC 约定
更换壳牌管道[重复]

这个问题在这里已经有答案了在 subprocess 模块的 Python 2 7 文档中我找到了以下片段 p1 Popen dmesg stdout PIPE p2 Popen grep hda stdin p1 stdout stdo
Python 导入非常慢 - Anaconda python 2.7

我的 python import 语句变得非常慢我使用 Anaconda 包在本地运行 python 2 7 导入模块后我编写的代码运行得非常快似乎只是导入需要很长时间例如我使用以下代码运行了一个 tester py 文件 imp
Python：无法使用 os.system() 打开文件

我正在编写一个使用该应用程序的 Python 脚本pdftk http www pdflabs com tools pdftk the pdf toolkit 几次来执行某些操作例如我可以在 Windows 命令行 shell 中使用
Java/Python 中的快速 IPC/Socket 通信

我的应用程序中需要两个进程 Java 和 Python 进行通信我注意到套接字通信占用了 93 的运行时间为什么通讯这么慢我应该寻找套接字通信的替代方案还是可以使其更快更新我发现了一个简单的修复方法由于某些未知原因缓冲输出流似
Python 中的字符串slugification

我正在寻找 slugify 字符串的最佳方法蛞蝓是什么 https stackoverflow com questions 427102 in django what is a slug 我当前的解决方案基于这个食谱 http code

随机推荐

每次重新加载项目时，Unity 中的 Csproj 文件都会更改

我想更改我的统一项目的 csproj 文件以便能够访问特定的库this https stackoverflow com questions 5694 the imported project c microsoft csharp targ
iPad 上的 MPMoviePlayerController 支持哪些视频格式？

当您使用 iTunes 将视频与 iPhone 同步时如果我没记错的话保存的视频宽度始终不超过 640 像素 iPad 怎么样 iTunes 与 iPad 同步的视频有多大 1024x768 如果视频尺寸低于 1024x768 怎么办
python virtualenv：为什么我仍然可以在 clean/new virtualenv 中导入旧模块

我正在开始一个新的 Python 项目我想与虚拟环境有一个干净的开始设置完后我仍然可以导入尚未为新 virtualenv 安装的旧模块为什么我创建了一个 virtualenv virtualenvs mynewproject no
在Python中从Excel中获取文本框值

我有一个 Excel 文件 data xlsx 以下模式 https i stack imgur com eYsW2 png我需要从该 Excel 文件内的文本框中读取一个值我目前正在使用 pandas 库并尝试获取该值但不幸的是找不
如何在 UIWebview 中保持登录会话？

我在我的应用程序中使用 UIWebView 我想在第一个 webview 上加载一个 URL 用户可以从该 URL 登录他的帐户登录后用户退出 Web 视图并在 iOS 原生视图中执行其他操作稍后当他调用相同的 URL 时他必须登录
Java 集合的添加、删除方法

为什么该方法add
使用webclient上传文件时如何指定表单参数

如标题使用webclient上传文件时如何指定附加表单参数你不能用WebClient 您需要手动生成multipart form data要求这是一个例子 https stackoverflow com questions 32749
如何在 Eclipse 项目中实现属性页

这是交易我以编程方式在 eclipse rcp 中创建一个项目然后我向它添加一些持久属性现在我想右键单击项目资源管理器视图中的项目然后单击属性选项卡应该有我的属性页这是我所拥有的
从 Angular 2 打字稿中的复选框获取值

我正在使用 Angular 2 Typescript 我面临一个问题我需要提交包含复选框的表单我需要复选框属性中的值复选框是动态的因此可以有任意数量的复选框 div class checkbox div class col sm 4
打印出人类可读的列表内容 C#

我对 C 非常陌生我想打印出列表的内容以便在用户选择我的 switch 语句的第 3 个情况时存储在seatBooked 中的信息将为用户显示我的代码如下 using System using System Collections
VBScript/IIS - 如何为特定网站自动设置 ASP.NET 版本

我需要编写在 IIS 6 0 上创建应用程序池和网站的脚本我已经能够使用 adsutil vbs 和 iisweb vbs 创建这些但不知道如何将我刚刚创建的网站的 ASP NET 版本设置为 2 0 50727 0 理想情况下我想使
为什么 JPA 更新 OrderColumn 而不是在创建时设置它？

我想在 OrderColumn 上的表中添加 NOT NULL 约束使用约束运行我的代码时出现约束违规错误在没有约束的情况下运行我发现该行首先在没有 OrderColumn 的情况下插入然后立即使用正确的 OrderColumn 进
PHP 的替代 var_dump 允许限制嵌套数组的深度

我尝试在命令行上使用 phpsh 的 var dump 来获取有关某些变量的调试信息但该变量包含一个非常深层嵌套的数据结构因此使用默认的var dump会输出太多信息我想限制 var dump 输出的深度级别我发现 XDebug
Pandas 多索引 DataFrame：在按 1 级索引分组时保留列的 N 个最大条目

这是一个具有多索引行的示例 DataFrame row idx arr list zip r0 r0 r0 r1 r1 r1 r2 r2 r2 r3 r3 r3 r 00 r 01 r 02 r 00 r 01 r 02 r 00 r 01
是否可以从自定义 TagHelper 调用 ViewComponent？

我正在编写一个自定义 TagHelper 并希望在其中渲染一个 ViewComponent 类似于 vc xyz 标记助手所做的事情但以更受控制的方式以便我可以在运行时确定要渲染哪个 ViewComponent 是否可以为此您需要将
尽管禁用模拟，但 ASP.NET aspx 页面代码仍以模拟方式运行

我在 VS 2005 中创建了一个空白测试应用程序作为 ASP NET 应用程序 MSDN 说 http msdn microsoft com en us library ms998351 aspx that 默认情况下 ASP NET 不
java中的嵌套foreach语句

是否可以在java中嵌套foreach语句并在外部foreach循环所在的当前索引处开始嵌套语句所以如果我有 List
节点未定义

我只是使用以下代码创建一个js文件正是官方页面的代码 var http require http http createServer function req res res writeHead 200 Content Type text
DRF：可在序列化器选择字段“选择”中调用

我有一个带有所有者字段的管理序列化器我希望当前用户填充此字段的选择但在运行迁移时我收到 TypeError 表明 drf 不支持序列化器选择字段的可调用项 django 支持模型选择字段的可调用项但显然用户会随时更改因此我希望在
使用 numpy 进行矢量化基数排序 - 它能击败 np.sort 吗？

numpy 没有yet https github com numpy numpy issues 6050有一个基数排序所以我想知道是否可以使用预先存在的 numpy 函数编写一个基数排序到目前为止我有以下方法它确实有效但比 num

使用 numpy 进行矢量化基数排序 - 它能击败 np.sort 吗？

使用 numpy 进行矢量化基数排序 - 它能击败 np.sort 吗？ 的相关文章

随机推荐

热门标签

使用 numpy 进行矢量化基数排序 - 它能击败 np.sort 吗？的相关文章