有没有 numpy group by 函数？

2024-02-14

numpy 中是否有任何函数可以按第一列将该数组分组到下面？

我在互联网上找不到任何好的答案..

>>> a
array([[  1, 275],
       [  1, 441],
       [  1, 494],
       [  1, 593],
       [  2, 679],
       [  2, 533],
       [  2, 686],
       [  3, 559],
       [  3, 219],
       [  3, 455],
       [  4, 605],
       [  4, 468],
       [  4, 692],
       [  4, 613]])

想要的输出：

array([[[275, 441, 494, 593]],
       [[679, 533, 686]],
       [[559, 219, 455]],
       [[605, 468, 692, 613]]], dtype=object)

灵感来自Eelco Hoogendoorn 图书馆 https://stackoverflow.com/a/38015063/1488055，但没有他的库，并利用数组的第一列总是增加的事实（如果不是，请首先使用a = a[a[:, 0].argsort()])

>>> np.split(a[:,1], np.unique(a[:, 0], return_index=True)[1][1:])
[array([275, 441, 494, 593]),
 array([679, 533, 686]),
 array([559, 219, 455]),
 array([605, 468, 692, 613])]

我没有“timeit”（[编辑]见下文），但这可能是解决问题的更快方法：

没有Python本机循环
结果列表是 numpy 数组，如果您需要对它们进行其他 numpy 操作，则不需要新的转换
复杂度看起来为 O(n)（排序后为 O(n log(n)）

[编辑 2021 年 9 月] 我在 Macbook M1 上运行了 timeit，以获取包含 10k 随机整数的表。持续时间为 1000 个呼叫。

>>> a = np.random.randint(5, size=(10000, 2))  # 5 different "groups"

# Only the sort
>>> a = a[a[:, 0].argsort()]
⏱ 116.9 ms

# Group by on the already sorted table
>>> np.split(a[:, 1], np.unique(a[:, 0], return_index=True)[1][1:])
⏱ 35.5 ms

# Total sort + groupby
>>> a = a[a[:, 0].argsort()]
>>> np.split(a[:, 1], np.unique(a[:, 0], return_index=True)[1][1:])
⏱ 153.0 ms ????

# With numpy-indexed package (cf Eelco answer)
>>> npi.group_by(a[:, 0]).split(a[:, 1])
⏱ 353.3 ms

# With pandas (cf Piotr answer)
>>> df = pd.DataFrame(a, columns=["key", "val"]) # no timer for this line
>>> df.groupby("key").val.apply(pd.Series.tolist) 
⏱ 362.3 ms

# With defaultdict, the python native way (cf Piotr answer)
>>> d = defaultdict(list)
for key, val in a:
    d[key].append(val)
⏱ 3543.2 ms

# With numpy_groupies (cf Michael answer)
>>> aggregate(a[:,0], a[:,1], "array", fill_value=[])
⏱ 376.4 ms

第二次场景，有 500 个不同的组，而不是 5 个。我对熊猫感到惊讶，我跑了好几次，但它在这种情况下表现得很糟糕。

>>> a = np.random.randint(500, size=(10000, 2))

just the sort  141.1 ms
already_sorted 392.0 ms
sort+groupby   542.4 ms
pandas        2695.8 ms
numpy-indexed  800.6 ms
defaultdict   3707.3 ms
numpy_groupies 836.7 ms

[编辑] 我改进了答案，感谢ns63sr 的回答 https://stackoverflow.com/a/53859634/1488055 and 贝赫扎德·沙耶格 https://stackoverflow.com/users/13146793/behzad-shayegh（参见评论）还要感谢TMBailey https://stackoverflow.com/users/16327476/tmbailey注意 argsort 的复杂性是 n log(n)。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

有没有 numpy group by 函数？的相关文章

在 Python 中同时插入行

我正在尝试对我的代码进行矢量化但遇到了障碍我有 nxd x 值数组 x1 xn 其中每一行 x1 有很多点 x11 x1d nxd y 值数组 y1 y2 y3 其中每一行 y1 有很多点 y11 y1d x 值的 nx1 数组 x 1
使用 Matplotlib 的范围绘制图像的 3D 轮廓

正如我所介绍的here https stackoverflow com questions 18792624 fits image input to a range in plot python 在二维中我想知道如何缩放要绘制到绘图中
java - IBM-IEEE 双精度浮点字节转换

我需要在 Java 中对字节数组进行 IBM IEEE 浮点转换我能够使用成功地进行单精度浮点字节的转换http www thecodingforums com threads c code for converting ibm 370
Django“模型”对象不可迭代

我有一张表其中显示了已注册的员工我想根据他们的数据库生成一个简单的 HTML 页面其中包括他们的姓名 id 职称等为此我将一个 id 传递给视图以便它可以获取相应用户的详细信息并向我显示一切正常直到出现错误对象不可迭代下面
python - 将cookie添加到cookiejar

如何在 python 中创建 cookie 并将其添加到 CookieJar 实例我拥有 cookie 的所有信息名称值域路径等但我不想通过 http 请求提取新的 cookie 我尝试了这个但看起来 SimpleCookie
为什么最简单的 requests_mock 示例在 pytest 中失败？

我有一个特殊的问题requests mock 我想用它pytest测试我的 API 包装器库我尝试过使用requests mock 文档中的第一个示例 http requests mock readthedocs io en latest
如何打印和显示子进程 stdout 和 stderr 输出而不失真？

也许有人可以帮助我解决这个问题我在 SO 上看到了许多与此类似的问题但没有一个问题同时处理标准输出和标准错误也没有处理像我这样的情况因此出现了这个新问题我有一个 python 函数它打开一个子进程等待它完成然后输出返回代码以
收到“/：未找到事件。”使用 PyCharm 远程调试器时

当我使用 PyCharm 通过 ssh 进行远程调试时tcsh shell 服务器很多时候它停止工作并显示未找到事件更具体地说我在 pycharm 调试控制台中遇到以下内容 ssh username hostserver 22 p
如何使用 selenium 获取 javascript 结果？

我有以下代码 from selenium import selenium selenium selenium localhost 4444 chrome http some site com selenium start sel selen
尝试将 cuda 与 pytorch 一起使用时出现运行时错误 999

我为我的 Geforce 2080 ti 安装了 Cuda 10 1 和最新的 Nvidia 驱动程序我尝试运行一个基本脚本来测试 pytorch 是否正常工作但出现以下错误 RuntimeError cuda runtime erro
Python itertools groupby 中令人不安的奇怪行为/错误？

我在用itertools groupby解析一个短的制表符分隔的文本文件文本文件有几列我想做的就是对具有特定值的所有条目进行分组x在特定的列中下面的代码对名为的列执行此操作name2 寻找变量中的值x 我尝试使用以下方法来做到这一点c
如何在 matplotlib 中第一个 x 轴的底部添加第二个 x 轴？

我指的是已经提出的问题here https stackoverflow com questions 10514315 how to add a second x axis in matplotlib 在此示例中用户通过将第二个轴添加到与标
枚举上的 random.choice

我想用random choice on an Enum I tried class Foo Enum a 0 b 1 c 2 bar random choice Foo 但是这段代码失败了KeyError 我怎样才能随机选择一个成员Enum
执行许多插入重复键更新错误：未使用所有参数

所以我一直在尝试使用 python 2 7 15 使用 mysql connector 执行此查询但由于某种原因它似乎不起作用并且总是返回错误并非所有参数都被使用表更新有一个主键即 ID 这是我尝试运行此 SQL 的查询 sql
Python 包安装：pip 与 yum，还是两者一起安装？

我刚刚开始管理 Hadoop 集群我们使用 Bright Cluster Manager 直至操作系统级别 CentOS 7 1 然后使用 Ambari 以及适用于 Hadoop 的 Hortonworks HDP 2 3 我不断收到安装
如何从 IDLE 命令行运行 Python 脚本？

在 bash shell 中我可以使用 bash 或 source 手动调用脚本我可以在 Python IDLE 的交互式 shell 中做类似的事情吗我知道我可以转到文件 gt gt 打开模块然后在单独的窗口中运行它但这很麻烦
对 Python 列表元素进行分组

我有一个 python 列表如下所示 my list 25 1 0 65 25 3 0 63 25 2 0 62 50 3 0 65 50 2 0 63 50 1 0 62 我想根据以下规则对它们进行排序 1 gt 0 65 0 62 l
设置字符串中单词或字符数的限制

假设我有一个字符串元素列表 wordlist hi what s up home diddle mc doo Oh wise master kakarot hello have a da 我希望列表中的每个元素最多包含 3 个单词或 20
float() 参数必须是字符串或数字，而不是“时间戳”

我无法使 scilearn 与日期时间系列一起工作找到了这篇文章但对我没有帮助 Pandas 类型错误 float 参数必须是字符串或数字 https stackoverflow com questions 41256626 panda
Python Web 编程的不同方法的优缺点

我想使用 Python 编写一些服务器端脚本但我对这样做的方法有点迷失了它从 DIY CGI 方法开始似乎以一些相当强大的框架结束这些框架基本上可以自己完成所有工作中间有很多东西比如web py http webpy org P

随机推荐

MvvmCross vnext：与 monodroid 合并插件

我正在尝试将插件库项目合并为一个项目例如 Location PhoneCallTask 它与 wp7 完美配合但我在使用 monodroid 时遇到未处理的异常无法加载文件或程序集 Cirrious MvvmCross Plugins
无法通过mongo shell连接到mongodb atlas

我检查过其他类似的帖子但没有一个适合我的情况在连接到 MongoDB Atlas 之前我升级了 mongo shell 从中创建了一个免费的沙箱数据库我使用以下内容进行连接这是由 atlas 提供的 mongo mongodb s
使用 awk 命令左外连接多个文件数据

我有基本文件和多个具有基于基本文件第一个字段的通用数据的文件我需要包含所有数据的输出文件由于文件大小需要花费很多时间来输出我尝试了很多命令很多次 awk 帮助了我但我对 awk 数组编程一无所知例子基础文件 aa ab ac
JavaScript 中哪些对象具有 .length 属性？（又名为什么 Underscore _.each 将我的函数对象视为数组？）

我的印象是只有Array对象有一个 length财产但是话又说回来我也看到过提到类似数组的对象我还没有研究过这个现在看来我对 JS 中这个话题的无知可能让我很痛苦例证我有以下代码 var View function opt
了解 Boost.Spirit 中的列表运算符 (%)

你能帮我理解两者之间的区别吗a b解析器及其扩展a gt gt b gt gt a Boost Spirit 中的形式虽然参考手册 http www boost org doc libs 1 59 0 libs spirit doc ht
Xcode 7 找不到名为的故事板

将 Xcode 更新到 7 版本后无法构建我的应用程序每次当我在模拟器的其他版本和设备中构建时都会出现此错误清理项目后我可以在设备上运行但如果我想再次运行错误又回来了 Terminating app due to uncaugh
如何在 page.html 中显示来自 google 驱动器的图像？

i trying use image from google drive at my html page i shared image and copied link to file and pasted it to image tag i
当虚拟键盘在全屏显示模式下处于活动状态时，PWA 不会调整窗口大小

我正在开发一个 PWA 主要针对移动用户据我所知网络的默认行为是当虚拟键盘处于活动状态时窗口大小会相应调整这对于网络上的移动设备和独立显示模式来说效果很好在全屏模式下当键盘处于活动状态时窗口大小不会改变这导致输入被隐藏在键
读取 Excel 文件时 R 中的 stringsAsFactors 出错

我想知道有什么替代方案stringsAsFactors在 R 中我知道这在 R 工作室的 CSV 和 XLSX 中有效但在 R 中stringsAsFactors无法读取 XLSX 文件 Sheet3 5K read xlsx Late
Java 中的 DB2 连接速度极慢

我正在尝试从 Java 应用程序连接到 Linux 服务器上的 IBM DB2 9 数据库我在用db2jcc jar DB2 通用 JDBC 驱动程序建立连接需要花费大量时间可能出什么问题了我知道有很多因素可能导致这种情况但我想找
Chrome - Fetch API 无法加载文件。如何解决？

我有以下两个文件索引 html
如何从 json 字典自动创建模型类（NSObject）？

有没有办法创建字典或 json 响应的模型类包装器因为在我的应用程序中有很多网络服务并且所有 WS 都包含大数据如果我一直一一创建则需要花费很多时间来创建带有检查空数据和编码解码对象的 NSObject 类请建议我手动创建所有
在包含路径 phpstorm 中找不到 PHPUnit

Cannot find PHPUnit in include path是我尝试在 phpstorm 中运行代码时收到的错误消息在 PHP 设置中我的 PHP 级别语言是5 4 traits short array syntax etc
使用 EWS API 将邮件保存到 msg 文件

我正在使用 Exchange Web Services Managed API 1 1 连接到 Exchange Server 2010 然后查找收到的新电子邮件现在我想将 msg 文件的副本保存到磁盘上的文件夹中我不想使用任何付费第三
python 中的阿姆斯特朗数

num int input please enter number for num in range num 1000 sum1 0 numcp num if num gt 10 and num lt 100 while num gt 0
在脚本的Google表格中获取带有#NA的公式的错误注释

我找不到任何方法来获取失败公式的错误消息实际上它提供了更多信息而只是错误代码因为 NA 始终为 7 NA 可能意味着不同的东西我希望能够识别哪些细胞具有哪种类型的 NA getNote不起作用有办法吗我使用 IMPORTXML
错误：未定义标签，如何在java中使用此代码中的标签语句？

我在Java教科书中读到任何语句都可以被标记并且可以与break一起使用但是在尝试此代码时我收到错误未定义标签 stackoverflow 的伙计们在将这个问题标记为重复之前先等待我已经检查了这些问题但没有一个解释这个问题 publ
如何从文件类型获取文件扩展名？

我有一个文件名列表如下 files dl files 4j55eeer wq3wxxpiqm jpg home Desktop hjsd03wnsbdr9rk3k kd0dje7cmidj0xks03nd8nd8a3 问题是大多数文件的文件
SAP Crystal Reports Viewer 不显示在浏览器中

我拥有一个使用框架 4 5 的 ASP NET Web 项目已安装并实施适用于 VS2012 Crystal Reports Developer 的 SAP 报表在本地报告中它可以在浏览器 Chrome Firefox IE 中正常工
有没有 numpy group by 函数？

numpy 中是否有任何函数可以按第一列将该数组分组到下面我在互联网上找不到任何好的答案 gt gt gt a array 1 275 1 441 1 494 1 593 2 679 2 533 2 686 3 559 3 219 3 4

有没有 numpy group by 函数？

有没有 numpy group by 函数？ 的相关文章

随机推荐

热门标签

有没有 numpy group by 函数？的相关文章