获取 numpy 中唯一行的位置的更快方法是什么

2024-02-20

我有一个唯一行的列表和另一个更大的数据数组（在示例中称为 test_rows）。我想知道是否有一种更快的方法来获取数据中每个唯一行的位置。我能想到的最快的方法是......

import numpy


uniq_rows = numpy.array([[0, 1, 0],
                         [1, 1, 0],
                         [1, 1, 1],
                         [0, 1, 1]])

test_rows = numpy.array([[0, 1, 1],
                         [0, 1, 0],
                         [0, 0, 0],
                         [1, 1, 0],
                         [0, 1, 0],
                         [0, 1, 1],
                         [0, 1, 1],
                         [1, 1, 1],
                         [1, 1, 0],
                         [1, 1, 1],
                         [0, 1, 0],
                         [0, 0, 0],
                         [1, 1, 0]])

# this gives me the indexes of each group of unique rows
for row in uniq_rows.tolist():
    print row, numpy.where((test_rows == row).all(axis=1))[0]

这打印...

[0, 1, 0] [ 1  4 10]
[1, 1, 0] [ 3  8 12]
[1, 1, 1] [7 9]
[0, 1, 1] [0 5 6]

有没有更好或更numpythonic（不确定这个词是否存在）的方法来做到这一点？我正在寻找 numpy group 函数但找不到它。基本上，对于任何传入的数据集，我需要最快的方法来获取该数据集中每个唯一行的位置。传入的数据集并不总是具有每个唯一的行或相同的数字。

编辑：这只是一个简单的例子。在我的应用程序中，数字不仅仅是 0 和 1，它们可以是 0 到 32000 之间的任意值。 uniq 行的大小可以在 4 到 128 行之间，而 test_rows 的大小可以是数十万行。

Numpy

从 numpy 1.13 版本开始，您可以使用numpy.unique https://docs.scipy.org/doc/numpy/reference/generated/numpy.unique.html like np.unique(test_rows, return_counts=True, return_index=True, axis=1)

Pandas

df = pd.DataFrame(test_rows)
uniq = pd.DataFrame(uniq_rows)

uniq

    0   1   2
0   0   1   0
1   1   1   0
2   1   1   1
3   0   1   1

或者您可以从传入的 DataFrame 自动生成唯一的行

uniq_generated = df.drop_duplicates().reset_index(drop=True)

yields

    0   1   2
0   0   1   1
1   0   1   0
2   0   0   0
3   1   1   0
4   1   1   1

然后寻找它

d = dict()
for idx, row in uniq.iterrows():
    d[idx] = df.index[(df == row).all(axis=1)].values

这和你的差不多where method

d

{0: array([ 1,  4, 10], dtype=int64),
 1: array([ 3,  8, 12], dtype=int64),
 2: array([7, 9], dtype=int64),
 3: array([0, 5, 6], dtype=int64)}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

NumPy

scipy

获取 numpy 中唯一行的位置的更快方法是什么的相关文章

python future 和元组解包

实现像使用 future 进行元组解包这样的事情的优雅惯用的方法是什么我有这样的代码 a b c f x y g a b z h y c 我想将其转换为使用期货理想情况下我想写一些类似的东西 a b c ex submit f x y
在 Tensorflow tf.nn.nce_loss 中出现 TypeError：'Mul' Op 的输入 'y' 的类型为 float32，与参数 'x' 的 int32 类型不匹配

我正在研究 Tensor Flow 中的 Bag of Words 实现并得到了类型错误 Mul Op 的输入 y 的类型为 float32 与参数 x 的 int32 类型不匹配在 tf nn nce loss 中我尝试查看 tf
如何使用 imaplib 获取“消息 ID”

我尝试获取一个在操作期间不会更改的唯一 ID 我觉得UID不好所以我认为 Message ID 是正确的但我不知道如何获取它我只知道 imap fetch uid XXXX 有人有解决方案吗来自 IMAP 文档本身 IMAP4消息号
在 Python distutils 中从 setup.py 查找脚本目录的正确方法？

我正在分发一个具有以下结构的包 mymodule mymodule init py mymodule code py scripts script1 py scripts script2 py The mymodule的子目录mymodul
将数据帧行转换为字典

我有像下面的示例数据这样的数据帧我正在尝试将数据帧中的一行转换为类似于下面所需输出的字典但是当我使用 to dict 时我得到了索引和列值有谁知道如何将行转换为像所需输出那样的字典任何提示都非常感激 Sample data pri
Argparse nargs="+" 正在吃位置参数

这是我的解析器配置的一小部分 parser add argument infile help The file to be imported type argparse FileType r default sys stdin parser
如何在 pytest 中将单元测试和集成测试分开

根据维基百科 https en wikipedia org wiki Unit testing Description和各种articles https techbeacon com devops 6 best practices inte
忽略 Mercurial hook 中的某些 Mercurial 命令

我有一个像这样的善变钩子 hooks pretxncommit myhook python path to file myhook 代码如下所示 def myhook ui repo kwargs do some stuff 但在我的例子中
切片 Dataframe 时出现 KeyError

我的代码如下所示 d pd read csv Collector Output csv df pd DataFrame data d dfa df copy dfa dfa rename columns OBJECTID Object ID
TensorFlow的./configure在哪里以及如何启用GPU支持？

在我的 Ubuntu 上安装 TensorFlow 时我想将 GPU 与 CUDA 结合使用但我却停在了这一步官方教程 http www tensorflow org get started os setup md 这到底是哪里 con
Numpy 过滤器平滑零区域

我有一个 0 及更大整数的 2D numpy 数组其中值代表区域标签例如 array 9 9 9 0 0 0 0 1 1 1 9 9 9 9 0 7 1 1 1 1 9 9 9 9 0 2 2 1 1 1 9 9 9 8 0 2 2 1
如何使用列表作为pandas数据框中的值？

我有一个数据框需要列的子集包含具有多个值的条目下面是一个带有运行时列的数据框其中包含程序在各种条件下的运行时 df condition a runtimes 1 1 5 2 condition b runtimes 0 5 0 7
在 Pandas 中使用正则表达式的多种模式

我是Python编程的初学者我正在探索正则表达式我正在尝试从描述列中提取一个单词数据库名称我无法给出多个正则表达式模式请参阅下面的描述和代码描述 Summary AD1 Low free DATA space in data
无法在 osx-arm64 上安装 Python 3.7

我正在尝试使用 Conda 创建一个带有 Python 3 7 的新环境例如 conda create n qnn python 3 7 我收到以下错误 Collecting package metadata current repoda
使用 NumPy 将非均匀数据从文件读取到数组中

假设我有一个如下所示的文本文件 33 346 1223 10 23 11 23 12 23 13 23 14 23 15 23 16 24 10 24 11 24 12 24 13 24 14 24 15 24 16 25 14 25 15
默认情况下，Keras 自定义层参数是不可训练的吗？

我在 Keras 中构建了一个简单的自定义层并惊讶地发现参数默认情况下未设置为可训练我可以通过显式设置可训练属性来使其工作我无法通过查看文档或代码来解释为什么会这样这是应该的样子还是我做错了什么导致默认情况下参数不可训练代码 im
如何为每个屏幕添加自己的 .py 和 .kv 文件？

我想为每个屏幕都有一个单独的 py 和 kv 文件应通过 main py main kv 中的 ScreenManager 选择屏幕设计应从文件 screen X kv 加载类等应从文件 screen X py 加载 Screens
当鼠标悬停在上面时，intellisense vscode 不显示参数或文档

我正在尝试将整个工作流程从 Eclipse 和 Jupyter Notebook 迁移到 VS Code 我安装了 python 扩展它应该带有 Intellisense 但它只是部分更糟糕我在输入句点后收到建议但当将鼠标悬停在其上方
您可以将操作直接应用于map/reduce/filter 中的参数吗？

map and filter通常可以与列表理解互换但是reduce并不那么容易被交换map and filter 此外在某些情况下我仍然更喜欢函数语法但是当您需要对参数本身进行操作时我发现自己正在经历语法体操最终必须编写整个函数
在Python中按属性获取对象列表中的索引

我有具有属性 id 的对象列表我想找到具有特定 id 的对象的索引我写了这样的东西 index 1 for i in range len my list if my list i id specific id index i break

随机推荐

Mathematica 中的空值和非空值测试

在 Mathematica 中测试某个值是否为 Null 的最佳最干净建议的方法是什么并且不为空例如 a Null b 0 f n If n Null 1 2 f a f b 结果是 1 If 0 Null 1 2 我本来期望 f
如果我们知道一个CFG只生成正则语言，那么我们能得到对应的正则表达式吗？

众所周知给定一个正则语法我们有算法来获取它的正则表达式但是如果给定的语法是上下文无关语法但它只生成常规语言就像 S gt aAb A gt bB B gt cB d 有没有现有的算法可以得到通用的正则表达式 Thanks 从最一般
“'dimnames' [1] 的长度不等于数组范围”是什么意思？

我有一个 data frame 我可以使用 matplot 绘制它 gt dim lhbyzone 1 38070 21 gt matplot lhbyzone no error occurs here 但是如果我拿 lh 的头并尝试它会
使用 JSch 读取 SFTP 服务器上文件的文件扩展属性

我想使用 com jcraft JSch 0 1 55 读取文件扩展属性该文件位于 SFTP 服务器上我知道那个班级SftpATTR其实有一个方法 public String getExtended 但就我而言它返回 null 我在这
如何处理 django-paypal 中的 returnurl for paypal WPP

我现在正在使用 django 开发我的网站在将我的网站与 PayPal 集成时我使用可插拔应用程序 http github com johnboxall django paypal http github com johnboxall
带有 ipython 的 dill dump_session

我正在尝试使用 dill 模块来保存我的 ipython 会话dump session 但我收到一条错误消息我正在使用 Ipython 1 0 0 和 dill 0 2 a dev 20120503 有人有任何见解吗提前致谢 Niall
扩展资源控制器

我正在以某种方式做我想做的事情并且我正在寻找替代方案或更好的方法我在我的应用程序中使用资源控制器另外我在几个模型中使用了softdelete 所以我的路线如下 Route get users deleted array uses gt
ImportError：libGL.so.1：无法打开共享对象文件：没有这样的文件或目录：HyperV Docker

我对此很陌生正在尝试学习 Docker 容器我已经使用 pyqt5 创建了一个用户表单现在尝试使用 hyper v docker 将其容器化一切都很顺利直到图像创建为止但是当我尝试运行容器时遇到了以下错误尝试了很多事情但没
Bootstrap 导航在调整大小时消失

我有一个 Bootstrap 3 导航栏当我将浏览器窗口缩放到低分辨率或使用手机访问页面时我没有菜单通常使用 Bootstrap 我有一个折叠的导航但无处可寻这是 HTML
如何将命令行参数传递给 unix/linux 系统上正在运行的进程？

在SunOS上有pargs命令打印传递给正在运行的进程的命令行参数其他Unix环境下有类似的命令吗有几种选择 ps fp
系统变量对主管不可见

我有一个带有主管的 docker 容器可以启动一些 php 作业我需要将 env 变量传递给 php 作业但是不工作我补充说在 supervisor environment APP ENV ENV APP ENV s APP DE
数据绑定 TextBlock 在 Silverlight / WP7 中运行

我在 Windows Phone 7 上使用 Silverlight 我想以粗体显示 TextBlock 中某些文本的第一部分其余部分以普通字体显示完整的文本必须换行我希望粗体部分包含来自 ViewModel 中一个属性的文本而纯文
如何解决错误：当应用程序未在 UserInteractive 模式下运行时显示模式对话框或表单不是有效操作

我正在做项目在我的系统中当我运行该项目时它运行良好但是当我检查时将其上传到我的域后它会显示如下错误当应用程序未在 UserInteractive 模式下运行时显示模式对话框或表单不是有效操作指定 ServiceNotifica
布局之间的淡入淡出效果

作为对象我将重现两个布局之间的淡入淡出效果现在我有这样的情况 LinearLayout l LinearLayout l2 要在它们之间切换我用过 l setVisibility View GONE l2 setVisibility V
上传项目后在 github 上的 django 项目中隐藏密钥

我在 github 上上传了我的 django 项目并且我的项目有很多提交我不想删除我的项目并再次重新上传将项目上传到 github 并进行大量提交后隐藏密钥的最简单方法是什么在同一目录中manage py是创建一个文件其名称为
C++20 从带括号的值列表初始化聚合，不支持内部数组

采用 C 20p0960 https wg21 link p0960 允许从带括号的值列表初始化聚合确切的措辞 dcl init 17 6 2 2 https eel is c draft dcl init 17 6 2 2 says 如
jQuery 将 DIV 复制到另一个 DIV 中

需要一些 jquery 帮助将一个 DIV 复制到另一个 DIV 中并希望这是可能的我有以下 HTML div class container div class button div div 然后我在页面的另一个位置有另一个 DIV
在 crate 的 API 中发布具体类型而不是“impl Trait”有什么优势？

在修补箱子时我自己隐藏了内部迭代器类型但作者说发布类型是一项功能最佳实践是为公共 API 中公开的每个迭代器发布显式包装器结构显然 Rust 标准库对其所有迭代器都执行此操作为什么要这样做更具体地说如果实现兼容的类型std e
如何查找字符串中某个字符出现的数组

我正在 PHP 中搜索一个函数来返回字符串中字符的位置数组输入这些参数 hello world i 将返回 4 7 提前致谢无需循环 str Hello World letter o letterPositions array keys
获取 numpy 中唯一行的位置的更快方法是什么

我有一个唯一行的列表和另一个更大的数据数组在示例中称为 test rows 我想知道是否有一种更快的方法来获取数据中每个唯一行的位置我能想到的最快的方法是 import numpy uniq rows numpy array 0 1 0

热门标签