根据另一个参考数组从一个数组中选择密切匹配

2024-01-22

我有一个数组A和一个参考数组B。尺寸为A至少和B. e.g.

A = [2,100,300,793,1300,1500,1810,2400]
B = [4,305,789,1234,1890]

B实际上是指定时间信号中峰值的位置，并且A包含稍后时间的峰值位置。但其中的一些元素A实际上不是我想要的峰值（可能是由于噪音等），我想找到“真实”的峰值A基于B。中的“真实”元素A应该接近那些在B，在上面给出的示例中，“真实”的A应该A'=[2,300,793,1300,1810]。在这个例子中应该很明显的是100,1500,2400不是我们想要的，因为它们距离 B 中的任何元素都很远。我如何在 python/matlab 中以最有效/准确的方式编码？

方法#1： With NumPy broadcasting https://docs.scipy.org/doc/numpy/user/basics.broadcasting.html，我们可以在输入数组之间查找绝对逐元素减法，并使用适当的阈值来过滤掉不需要的元素A。对于给定的样本输入，阈值似乎为90 works.

因此，我们会有一个实现，就像这样 -

thresh = 90
Aout = A[(np.abs(A[:,None] - B) < thresh).any(1)]

样本运行 -

In [69]: A
Out[69]: array([   2,  100,  300,  793, 1300, 1500, 1810, 2400])

In [70]: B
Out[70]: array([   4,  305,  789, 1234, 1890])

In [71]: A[(np.abs(A[:,None] - B) < 90).any(1)]
Out[71]: array([   2,  300,  793, 1300, 1810])

方法#2：基于this post https://stackoverflow.com/a/40716474/3293881，这是一种使用内存有效的方法np.searchsorted https://docs.scipy.org/doc/numpy/reference/generated/numpy.searchsorted.html，这对于大型阵列可能至关重要 -

def searchsorted_filter(a, b, thresh):
    choices = np.sort(b) # if b is already sorted, skip it
    lidx = np.searchsorted(choices, a, 'left').clip(max=choices.size-1)
    ridx = (np.searchsorted(choices, a, 'right')-1).clip(min=0)
    cl = np.take(choices,lidx) # Or choices[lidx]
    cr = np.take(choices,ridx) # Or choices[ridx]
    return a[np.minimum(np.abs(a - cl), np.abs(a - cr)) < thresh]

样本运行 -

In [95]: searchsorted_filter(A,B, thresh = 90)
Out[95]: array([   2,  300,  793, 1300, 1810])

运行时测试

In [104]: A = np.sort(np.random.randint(0,100000,(1000)))

In [105]: B = np.sort(np.random.randint(0,100000,(400)))

In [106]: out1 = A[(np.abs(A[:,None] - B) < 10).any(1)]

In [107]: out2 = searchsorted_filter(A,B, thresh = 10)

In [108]: np.allclose(out1, out2)  # Verify results
Out[108]: True

In [109]: %timeit A[(np.abs(A[:,None] - B) < 10).any(1)]
100 loops, best of 3: 2.74 ms per loop

In [110]: %timeit searchsorted_filter(A,B, thresh = 10)
10000 loops, best of 3: 85.3 µs per loop

2018 年 1 月更新，性能进一步提升

我们可以避免第二次使用np.searchsorted(..., 'right')通过利用获得的指数np.searchsorted(..., 'left')还有absolute计算，就像这样 -

def searchsorted_filter_v2(a, b, thresh):
    N = len(b)

    choices = np.sort(b) # if b is already sorted, skip it

    l = np.searchsorted(choices, a, 'left')
    l_invalid_mask = l==N
    l[l_invalid_mask] = N-1
    left_offset = choices[l]-a
    left_offset[l_invalid_mask] *= -1    

    r = (l - (left_offset!=0))
    r_invalid_mask = r<0
    r[r_invalid_mask] = 0
    r += l_invalid_mask
    right_offset = a-choices[r]
    right_offset[r_invalid_mask] *= -1

    out = a[(left_offset < thresh) | (right_offset < thresh)]
    return out

更新了时序以测试进一步的加速 -

In [388]: np.random.seed(0)
     ...: A = np.random.randint(0,1000000,(100000))
     ...: B = np.unique(np.random.randint(0,1000000,(40000)))
     ...: np.random.shuffle(B)
     ...: thresh = 10
     ...: 
     ...: out1 = searchsorted_filter(A, B, thresh)
     ...: out2 = searchsorted_filter_v2(A, B, thresh)
     ...: print np.allclose(out1, out2)
True

In [389]: %timeit searchsorted_filter(A, B, thresh)
10 loops, best of 3: 24.2 ms per loop

In [390]: %timeit searchsorted_filter_v2(A, B, thresh)
100 loops, best of 3: 13.9 ms per loop

深层发掘 -

In [396]: a = A; b = B

In [397]: N = len(b)
     ...: 
     ...: choices = np.sort(b) # if b is already sorted, skip it
     ...: 
     ...: l = np.searchsorted(choices, a, 'left')

In [398]: %timeit np.sort(B)
100 loops, best of 3: 2 ms per loop

In [399]: %timeit np.searchsorted(choices, a, 'left')
100 loops, best of 3: 10.3 ms per loop

似乎searchsorted and sort占用了几乎所有的运行时间，并且它们对于该方法来说似乎是必不可少的。因此，使用这种基于排序的方法似乎无法进一步改进。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

根据另一个参考数组从一个数组中选择密切匹配的相关文章

NumPy linalg.eig

我有这个烦人的问题但我还没有弄清楚我有一个矩阵我想找到特征向量所以我写 val vec np linalg eig mymatrix 然后我得到了 vec 我的问题是当我小组中的其他人对相同的矩阵 mymatrix 做同样的事情时
cv2.drawContours() - 取消填充字符内的圆圈（Python，OpenCV）

根据 Silencer的建议我使用了他发布的代码here https stackoverflow com questions 48244328 copy shape to blank canvas opencv python 482465
“一旦获取切片就无法更新查询”。最佳实践？

由于我的项目的性质我发现自己不断地从查询集中取出切片如下所示 Thread objects filter board requested board id order by updatedate 10 但这给我带来了实际对我选择的元素进
如何在VIM中设置文件的正确路径？

每当我击中 pwd在 vim 中命令总是返回路径C Windows system32 即使我在桌面上的 Python 文件中所以每当我跑步时 python 命令返回 python can t open file Users myname
CNTK 抱怨 LSTM 中的动态轴

我正在尝试在 CNTK 中实现 LSTM 使用 Python 来对序列进行分类 Input 特征是固定长度的数字序列时间序列标签是 one hot 值的向量 Network input input variable input dim
如何根据 HTTP 请求使用 Python 和 Flask 执行 shell 命令并流输出？

下列的这个帖子 https stackoverflow com questions 15092961 how to continuously display python output in a webpage 我能够tail f网页的日志
对使用 importlib.util 导入的对象进行酸洗

我在使用Python的pickle时遇到了一个问题我需要通过将文件路径提供给 importlib util 来加载一些 Python 模块如下所示 import importlib util spec importlib util sp
如何在 Django 中使用基于类的视图创建注册视图？

当我开始使用 Django 时我几乎使用 FBV 基于函数的视图来处理所有事情包括注册新用户但当我更深入地研究项目时我意识到基于类的视图通常更适合大型项目因为它们更干净且可维护但这并不是说 FBV 不是无论如何我将整个项目
Pandas 堆积条形图中元素的排序

我正在尝试绘制有关某个地区 5 个地区的家庭在特定行业赚取的收入比例的信息我使用 groupby 按地区对数据框中的信息进行排序 df df orig groupby District Portion of income value co
Python：我不明白 sum() 的完整用法

当然我明白你使用 sum 与几个数字然后它总结所有但我正在查看它的文档我发现了这一点 sum iterable start 第二个参数 start 的作用是什么这太尴尬了但我似乎无法通过谷歌找到任何示例并且对于尝试学习该语言的
使用 Conda 更新特定模块会删除大量软件包

我最近开始使用 Anaconda Python 发行版因为它提供了许多开箱即用的数据分析库使用 conda 创建环境和安装软件包也轻而易举但是当我想更新 Python 本身或任何其他模块时我遇到了一些严重的问题我事先被告知我的很多
在 Windows 上使用带有对数刻度的 matplotlib 时出现 Unicode 错误

我正在使用 python 2 6 和 matplotlib 如果我运行 matplotlib 库页面中提供的示例 histogram demo py 它工作正常我已经大大简化了这个脚本 import numpy as np import
使用 NLP 进行地址分割

我目前正在开发一个项目该项目应识别地址的每个部分例如来自 str Jack London 121 Corvallis ARAD ap 1603 973130 输出应如下所示 street name Jack London no 121
falcon，AttributeError：“API”对象没有属性“create”

我正在尝试测试我的猎鹰路线但测试总是失败而且看起来我把所有事情都做对了 my app py import falcon from resources static import StaticResource api falcon API
PIL - 需要抖动，但限制调色板会导致问题

我是 Python 新手正在尝试使用 PIL 来执行 Arduino 项目所需的解析任务这个问题涉及到Image convert 方法以及调色板抖动等选项我有一些硬件能够一次仅显示 16 种颜色的图像但它们可以指定为 RGB 三元
附加两个具有相同列、不同顺序的数据框

我有两个熊猫数据框 noclickDF DataFrame 0 123 321 0 1543 432 columns click id location clickDF DataFrame 1 123 421 1 1543 436 colu
JavaScript 数组扩展语法的时间复杂度是多少？

我想知道在 JavaScript 中使用数组扩展的时间复杂度是多少是线性 O n 还是常数 O 1 下面的语法示例 let lar Math max nums 传播称为 Symbol iterator 有关对象的属性对于数组这将迭代数
bs4 `next_sibling` VS `find_next_sibling`

我在使用时遇到困难next sibling 并且类似地与next element 如果用作属性我不会得到任何返回但如果用作find next sibling or find next 然后就可以了来自doc https www cru
通过 Web 界面执行 python 单元测试

是否可以通过 Web 界面执行单元测试如果可以如何执行 EDIT 现在我想要结果对于测试我希望它们是自动化的可能每次我对代码进行更改时抱歉我忘了说得更清楚 EDIT 这个答案此时已经过时了 Use Jenkins https j
tkinter：打开一个带有按钮提示的新窗口[关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案用户如何按下 tkinter GUI 中的按钮来打开新窗口我只需要非常简单的解决方案如果代码也能被解释那就太好了这

随机推荐

Enterprise Library 5.0安装错误

此应用程序需要 NET Framework 3 5 SP1 请安装 net Framework 然后再次运行此安装程序但系统已经安装了 net Framework 4 0 在添加删除程序中我可以看到以下两个条目 1 Microsoft N
Angular2：从javascript函数调用组件方法[重复]

这个问题在这里已经有答案了目前我正在尝试实现引导日期选择器它使用jQuery 以及我的 Angular2 项目这是我到目前为止所拥有的 import Component AfterViewInit Injector Inject fr
.ContextMenu 和 .ContextMenuStrip 之间的差异

两者有什么区别 ContextMenu and ContextMenuStrip在 Windows 窗体中我已经知道什么是ContextMenu是但是怎么样ContextMenuStrip不同于ContextMenu 您可能想知道为什么
如何将三角形标记添加到 SpreadsheetGear 网格的任何单元格角？

这是 SpreadsheetGear Grid 的特定问题我知道您可以向单元格添加注释单元格会自动在右上角获得红色三角形标记但我需要在任何单元格角落添加一个小三角形不同颜色来指示一些特殊的东西有可能做到吗更新这是我根据丹尼尔
Linux 中 `cd //` 中的双斜杠 // 是什么意思？ [复制]

这个问题在这里已经有答案了我输入了一个命令cd 代替cd 错误地而不是像我期望的那样收到错误 shell Bash 显示了一个提示就像我在目录
如何在 Keras 中实现 L2-norm pooling？

我想向我的 CNN 添加一个全局时间池层它具有三种不同的池函数均值最大值和 L2 范数 Keras 有平均池化函数和最大池化函数但我还没有找到用于 L2 的池化函数我自己该如何实现呢我也在寻找这个 keras 中没有这样的开箱即
Tensorflow 中的多个会话和图形（在同一进程中）

我正在训练一个模型其中输入向量是另一个模型的输出这涉及从检查点文件恢复第一个模型同时从头开始初始化第二个模型使用tf initialize variables 在同一过程中有大量的代码和抽象所以我只是将相关部分粘贴到此处以下是
如何让 Metro（React Native 打包器）忽略某些目录

Problem 我的项目有一个 providesModule naming collision当试图跑步时react native run ios从命令行它与自动生成的目录冲突dist 它是由另一个 npm 包 esdoc 创建的我希望
XPath 如何处理 XML 命名空间？

XPath 如何处理 XML 命名空间 If I use IntuitResponse QueryResponse Bill Id 为了解析下面的 XML 文档我返回了 0 个节点
glsl lowp 随机数生成（用于图形）的好算法是什么？

我需要一个随机数生成器来创建一些图形静态我不是在寻找噪声算法我只是想要白噪声我所需要的只是 glsl 中的随机数生成器具体来说随着时间的推移我将使用它为每个片段创建随机亮度偏移要求生成 0 0 到 1 0 之间的数字不关心
使用 for 循环替换 pandas 列每行中的单元格值

请帮助我理解我的错误我正在尝试更改我的一列 csv文件我有 csv文件如下 sku name code k1 aaa 886 k2 bbb 898 k3 ccc 342 k4 ddd 503 k5 eee 401 我想将 sku 列中的
TFS 无法识别添加的项目 VS2013 [关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案我正在使用 VS2013 和 TFS Online 当我添加一个新项目时源代码管理不会将其识别为添加的项目但 csproj 会使用新文件
检查定时器是否正在运行

我一直在尝试用计时器重新填充游戏生活但每当我离开视图并返回时计时器就会重复并变得更快我尝试用以下方法解决这个问题Timer isValid函数仅在无效时运行计时器因此它永远不会重复但它似乎无法检查计时器是否在invalid在 if
nginx 响应 404 Not Found（单页应用程序）

我有一个带有常规浏览器路由器没有哈希的单页应用程序每当有人浏览页面并点击刷新按钮时 nginx 都会尝试在此路径上查找文件所以如果有人在mypage com aboutnginx 寻找about文件并以 404 Not Found
R 矩阵到 rownames colnames 值

我有一个矩阵 A 我想将其转换为以下形式的 data frame rownames colnames values Using unlist A 有帮助但没有给我行名感谢您的帮助您可以使用 reshape2 package load
Android - 用 @IntDef 替换参数化枚举

如何避免参数化枚举与 IntDef 我想保留一些与每个枚举类型关联的静态详细信息例如关联的 URl 关联的可绘制对象等 TYPE ONE R string res Urls URL1 TYPE TWO R string res Urls
如何防止Xcode每次都重建项目

我有一个 Mac OS X 应用程序由一个主要目标和一个依赖框架组成自从在我的 Mac OS X 应用程序上启用代码签名后我注意到每次运行 Xcode 时都会重建主要目标即使我没有触及任何代码行这是一个问题因为依赖框架需要知道主
如何更改多处理模块使用的序列化方法？

如何更改Python使用的序列化方法multiprocessing图书馆特别是默认的序列化方法使用pickle具有该版本 Python 的默认 pickle 协议版本的库默认的pickle协议在Python 2 7中是版本2 在Pyt
为什么是24位寄存器？

在我的工作中我处理不同的微控制器微处理器和 DSP 处理器其中许多都有 24 位寄存器和计数器我知道如何使用它们这不是我的问题我的问题是为什么他们有 24 位寄存器为什么不把它做成32位的呢据我所知这不是大小的问题因为寄
根据另一个参考数组从一个数组中选择密切匹配

我有一个数组A和一个参考数组B 尺寸为A至少和B e g A 2 100 300 793 1300 1500 1810 2400 B 4 305 789 1234 1890 B实际上是指定时间信号中峰值的位置并且A包含稍后时间的峰值位置

根据另一个参考数组从一个数组中选择密切匹配

根据另一个参考数组从一个数组中选择密切匹配 的相关文章

随机推荐

热门标签

根据另一个参考数组从一个数组中选择密切匹配的相关文章