有效筛选唯一值的数据 (Python)

2024-02-09

我有一个由 (X,Y,Z,A) 值组成的 2D Numpy 数组，其中 (X,Y,Z) 是 3D 空间中的笛卡尔坐标，A 是该位置的某个值。举个例子..

__X__|__Y__|__Z__|__A_
  13 |  7  |  21 | 1.5
  9  |  2  |  7  | 0.5
  15 |  3  |  9  | 1.1
  13 |  7  |  21 | 0.9
  13 |  7  |  21 | 1.7
  15 |  3  |  9  | 1.1

有没有一种有效的方法来找到 (X,Y) 的所有唯一组合，并将它们的值相加？例如，(13,7) 的总和将为 (1.5+0.9+1.7)，即 4.1。

scipy.sparse矩阵获取此类信息，但仅适用于 2d

sparse.coo_matrix((data, (row, col)))

where row and col指数像你的吗X,Y and Z。它对重复项求和。

这样做的第一步是lexical指数的排序。这会将具有匹配坐标的点彼此相邻。

我相信，实际的分组和求和是在编译的代码中完成的。做到这么快的部分困难在于numpy术语是每个组中的元素数量是可变的。有些是唯一的，有些可能有 3 个或更多。

Python itertools has a groupby工具。 Pandas 还具有分组功能。我也可以想象使用default_dict对值进行分组和求和。

The ufunc reduceat也可能有效，尽管在 1d 中使用比在 2 或 3 中更容易使用。

如果你忽略了Z, 稀疏的coo_matrix方法可能是最简单的。

In [2]: X=np.array([13,9,15,13,13,15])
In [3]: Y=np.array([7,2,3,7,7,3])
In [4]: A=np.array([1.5,0.5,1.1,0.9,1.7,1.1])
In [5]: M=sparse.coo_matrix((A,(X,Y)))
In [15]: M.sum_duplicates()
In [16]: M.data
Out[16]: array([ 0.5,  2.2,  4.1])
In [17]: M.row
Out[17]: array([ 9, 15, 13])
In [18]: M.col
Out[18]: array([2, 3, 7])
In [19]: M
Out[19]: 
<16x8 sparse matrix of type '<class 'numpy.float64'>'
    with 3 stored elements in COOrdinate format>

这就是我对 lexsort 的想法

In [32]: Z=np.array([21,7,9,21,21,9])
In [33]: xyz=np.stack([X,Y,Z],1)
In [34]: idx=np.lexsort([X,Y,Z])
In [35]: idx
Out[35]: array([1, 2, 5, 0, 3, 4], dtype=int32)
In [36]: xyz[idx,:]
Out[36]: 
array([[ 9,  2,  7],
       [15,  3,  9],
       [15,  3,  9],
       [13,  7, 21],
       [13,  7, 21],
       [13,  7, 21]])
In [37]: A[idx]
Out[37]: array([ 0.5,  1.1,  1.1,  1.5,  0.9,  1.7])

当像这样排序时，更明显的是Z坐标是“冗余的”，至少对于这个目的而言。

Using reduceat对组求和：

In [40]: np.add.reduceat(A[idx],[0,1,3])  
Out[40]: array([ 0.5,  2.2,  4.1])

（现在我只关注 [0,1,3] 列表）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Arrays

python27

NumPy

unique

有效筛选唯一值的数据 (Python) 的相关文章

合并 2 个数组并合并数字键的结果

我有 2 个数组我希望通过每个数字键将其中合并分组在一起例如 Array1 2009 gt 131 2008 gt 940 2007 gt 176 2006 gt 1 Array2 2008 gt 9 2007 gt 3 我希望输出是
Swift 使用哪种通用排序算法？它在排序数据上表现不佳

我一直在挑选和探索 Swift 标准库sort 其函数为Array类型令我惊讶的是我注意到它在已经排序的数据上表现不佳对数组进行排序Int打乱顺序似乎比对已经排序的同一个数组进行排序快 5 倍对已打乱顺序的对象数组进行排序比对已按排
jQuery / Ajax：如何循环遍历数组作为 Ajax 成功函数的一部分

我有一个阿贾克斯调用返回一个数组并需要对该数组中的每个值执行某些操作到目前为止我有以下内容但这会返回以下错误 Uncaught TypeError Cannot use in operator to search for length
如何将变量插入 PHP 数组？

我在网上查了一些答案但都不是很准确我希望能够做到这一点 id result id info array id Example echo info 0 这有可能吗您需要的是不推荐 info array id Example varia
在 C 中通过引用传递数组

我是 C 新手我有一个疑问由于 C 函数创建其参数的本地副本我想知道为什么以下代码按预期工作 void function int array array 0 4 array 1 5 array 2 6 int main int arr
通过传递单个值获取多个索引[重复]

这个问题在这里已经有答案了可能的重复列表索引搜索 https stackoverflow com questions 11292260 list index search 我必须在 int 中获取索引其中值是相同的因此我必须在 in
通过列表理解压平列表列表

我正在尝试使用 python 中的列表理解来展平列表我的清单有点像 1 2 3 4 5 6 7 8 只是为了打印这个列表列表中的单个项目我编写了这个函数 def flat listoflist for item in listoflis
如何计算numpy数组中元素的频率？

我有一个 3 D numpy 数组其中包含重复的元素 counterTraj shape 13530 1 1 例如 counterTraj 包含这样的元素我只显示了几个元素 array 136 129 130 103 102 101 我
在 MySQL 数据库中保持 TEXT 字段唯一的最佳方法

我想让 TEXT 字段的值在我的 MySQL 表中唯一经过小型研究我发现由于性能问题每个人都不鼓励在 TEXT 字段上使用 UNIQUE INDEX 我现在想用的是 1 创建另一个字段来包含 TEXT 值的哈希值 md5 text v
如何将 UDF 中的结构或类数组返回到数据帧列值中？

d ID 1 pID 1000 startTime 2018 07 02T03 34 20 endTime 2018 07 03T02 40 20 ID 1 pID 1000 startTime 2018 07 02T03 45 20 en
将数组排序为第一个最小值、第一个最大值、第二个最小值、第二个最大值等

编写一个JS程序返回一个数组其中第一个元素是第一个最小值第二个元素是第一个最大值依此类推该程序包含一个函数该函数接受一个参数一个数组该函数根据要求返回数组输入示例 array 2 4 7 1 3 8 9 预期输出 1 9
python pandas从0/1数据帧到项目集列表

从这种形式的 0 1 pandas numpy 数据帧中最有效的方法是什么 gt gt gt dd a 0 1 1 0 2 1 3 0 4 1 5 1 b 0 1 1 1 2 0 3 0 4 1 5 1 c 0 0 1 1 2 1 3 0
适用于 python2.7 谷歌应用引擎的云任务 API

我在 Google App Engine Python 2 7 下创建了一个项目我使用创建了一些任务queue yaml并与部署glcoud命令当我转到任务队列部分下的 Google App Engine 控制台时它会重定向到云
Typescript：按值检查对象是否存在于数组中

我有这个数据 roles roleId 69801 role ADMIN roleId 69806 role SUPER ADMIN roleId 69805 role RB roleId 69804 role PILOTE roleId
正则表达式可以与 C++ 中的字符数组一起使用吗

我正在开发一个无法使用字符串库文件的程序而是使用字符数组我能够使用正则表达式并且想知道是否有办法使用正则表达式和字符数组甚至正则表达式和单个字符我问的原因是当我尝试在匹配中使用我的 char 数组时 xUtility 会抛出一堆来
在 MongoDB 中查找具有字符串 ID 数组的文档

我有一个 id 字符串数组我想将其与 find 函数一起使用 db companies find id in arr arr看起来像这样 563a2c60b511b7ff2c61e938 563a2c60b511b7ff2c61e8b7
Matplotlib 中 x 轴标签的频率和旋转

我在下面编写了一个简单的脚本来使用 matplotlib 生成图形我想将 x tick 频率从每月增加到每周并轮换标签我不知道从哪里开始 x 轴频率我的旋转线产生错误 TypeError set xticks got an unexp
将文本拆分为数组，同时保留 Swift 中的标点符号

我想将文本拆分为一个数组保持标点符号与其余单词分隔开因此字符串如下 Hello I am Albert Einstein 应该变成这样的数组 Hello I am Albert Einstein 我尝试过sting components
如何在 C# 中获取 Json 数组？

我有一个像这样的 Json 字符串我想将它加载到 C 数组中当我尝试这样做时我收到异常我的字符串 customerInformation customerId 123 CustomerName Age 39 Gender Male
从多维无穷大数组中删除数组元素

我想删除一个特定元素例如我想删除元素id 76在下面的数组中而且数组可以无限地组合在一起这里的问题是我无法刷新页面因为我使用 Vue js 进行即时操作如果我能做到这一点我的下一个问题可能是如何在我现在想要的地方添加一个元素

随机推荐

重置 Windows 中的打开文件对话框位置

我使用打开一个打开的文件对话框GetOpenFileName功能我正在创建一个处理程序函数它将对话框窗口置于所有者窗口的中心我将对话框居中CDN INITDONE通知目前 Windows 似乎会记住桌面应用程序的最后一个对话框位置并
使用 memcpy 将 int 复制到 char 数组中，然后打印其成员：未定义的行为？

考虑以下代码 int i 1 char c sizeof i memcpy c i sizeof i cout lt lt static cast
Magento - 获取所有产品的产品集合

我需要所有产品的定制产品集合目前没有包含商店所有产品的类别因为有 8000 种产品我们无法将它们添加到一个额外的类别中我需要的是在特定的 CMS 页面上显示所有产品的产品集合到目前为止我有一个带有块的 CMS 页面 block
儿童元素与身高：100%被兄弟姐妹推

我有一个非常简单的结构 div class parent h1 Element taking space h1 div class stretch Not much content but needs to be stretched to
django MultiValueDictKeyError 错误，我该如何处理它

我试图将一个对象保存到我的数据库中但它抛出了一个MultiValueDictKeyError error 问题出在形式上 is private由复选框表示如果未选中该复选框则显然不会传递任何内容这就是错误被丢弃的地方我该如何正确处
SSIS 包级别 OnError 发送两封电子邮件

我有一个包每当控制流元素失败时它就会发出两封电子邮件例如如果 ExecuteSQL 任务失败包级别 OnError 事件处理程序将触发两封电子邮件这是一个已知的问题我该如何解决这个问题我可以通过数据库驱动脚本来做到这一点但
将 IAM 组添加到 AWS EKS 中的 aws-auth configmap

The aws auth 配置映射 https docs aws amazon com eks latest userguide add user role htmlAWS EKS 中执行 IAM 用户角色到 kubernetes RBA
Python：更正时间戳中的本地时间

Using https gist github com jordan brough 4007432 https gist github com jordan brough 4007432我有一个在 Sublime 中工作的时间戳但时间晚了
从 Java Servlet 向 Web API 发送 get 请求

常见问题是否可以从 Java servlet 发送 get 请求doGet方法我需要根据我的 Web API NET 服务检查一些票据因此我可以从我的自定义 servlet 中调用此服务吗 doGet方法 public class
h5py：正确读取 MATLAB 中存储的“表”类的问题 (.mat -7.3)

我正在尝试使用 h5py 模块在 Python 3 8 中导入 MATLAB mat 7 3 文件该文件包含一个结构类和table班级我成功导入了结构类对象但是那table导入后类显示错误的尺寸 import h5py Path d
django - 在选择上发布表单

我制作了一个简单的 django 表单其中包含一个选择列表在单选按钮中 class MyForm forms Form choices forms ChoiceField widget forms RadioSelect choices
RESTful 服务认证

根据 REST 规范服务应该是无状态的但随后就很难启用身份验证我读过的一些东西说让 REST 有状态并不是世界末日但这不是重点重点是遵循规范并保持一致所以我在这里问这个问题希望有人能引导我走向正确的方向我正在使用 Spr
向现有 MongoDB 文档添加字段（在 Node.js 中使用 Mongoose）

我在集合中有这个现有文档Article在 MongoDB 数据库中 site www atlantico fr date 2014 05 27T11 10 19 000Z link http www atlantico fr example
如何从 SQLite android 中的表中删除行？ [复制]

这个问题在这里已经有答案了我已经这样做了但它不起作用我正进入状态force close public boolean favoriteDelete int id return database delete FavoriteData
在 C++ main() 执行之前处理 Mac OS X 文件打开事件

我用谷歌搜索了很多但仍然找不到好的解决方案因此我将一个复杂的 Qt5 应用程序某些网络服务的客户端移植到 Mac OS X 10 7 0 Lion 及更高版本我需要处理自定义文件例如 xyz和自定义 URL 方案例如xyz
zsh：在目录分隔符上停止向后杀字

In zsh http www zsh org 我如何设置行编辑器以便backward kill word停在目录分隔符上目前在我的 bash 设置中如果我输入 cd devel sandbox 然后打C w点将紧随其后devel 在
模型工厂中的 Laravel 5.1 外键

如何在模型工厂中定义外键例如如果我有一个组织表其中包含国家地区表的外键则在我的模型工厂中我必须为国家地区 ID 定义一个虚拟值如下所示 factory gt define App Organisation class fun
为什么这个类/实例变量没有被初始化？

我正在尝试使用 gnu smalltalk 在以下带有变量的简单类的代码中我发现它没有初始化为给定值 Object subclass Myclass mainval mainval 555 getmainval mainval gc My
Hibernate - 具有排序顺序的多列索引

我有以下代码 Table appliesTo MyTable indexes Index name MultipleColumnsIndex columnNames column1 columns2 注意这是 Hibernate 表通过
有效筛选唯一值的数据 (Python)

我有一个由 X Y Z A 值组成的 2D Numpy 数组其中 X Y Z 是 3D 空间中的笛卡尔坐标 A 是该位置的某个值举个例子 X Y Z A 13 7 21 1 5 9 2 7 0 5 15 3 9 1 1 13 7 21

有效筛选唯一值的数据 (Python)

有效筛选唯一值的数据 (Python) 的相关文章

随机推荐

热门标签