枚举两个大数组的快速方法？

2024-02-04

我有两个大数组要处理。但让我们看一下下面的简化示例来了解一下这个想法：

我想查找是否有一个元素data1与中的元素匹配data2并返回两者的数组索引data1 and data2如果以新数组的形式找到匹配项[index of data1, index of data2]。例如，使用下面的一组data1 and data2，程序将返回：

data1 = [[1,1],[2,5],[623,781]] 
data2 = [[1,1], [161,74],[357,17],[1,1]]
expected_output = [[0,0],[0,3]]

我当前的代码如下：

result = []
for index, item in enumerate(data1):
    for index2,item2 in enumerate(data2):
        if np.array_equal(item,item2):
            result.append([index,index2])
>>> result
[[0, 0], [0, 3]]

这很好用。然而，我正在处理的实际两个数组每个都有 60 万个项目。上面的代码会非常慢。有什么方法可以加快这个过程吗？

可能不是最快的，但简单且相当快：使用 KDTrees：

>>> data1 = [[1,1],[2,5],[623,781]] 
>>> data2 = [[1,1], [161,74],[357,17],[1,1]]
>>>
>>> from operator import itemgetter
>>> from scipy.spatial import cKDTree as KDTree
>>>
>>> def intersect(a, b):
...     A = KDTree(a); B = KDTree(b); X = A.query_ball_tree(B, 0.5)
...     ai, bi = zip(*filter(itemgetter(1), enumerate(X)))
...     ai = np.repeat(ai, np.fromiter(map(len, bi), int, len(ai)))
...     bi = np.concatenate(bi)
...     return ai, bi
... 
>>> intersect(data1, data2)
(array([0, 0]), array([0, 3]))

两个假数据集1,000,000每对都需要3秒：

>>> from time import perf_counter
>>> 
>>> a = np.random.randint(0, 100000, (1000000, 2))
>>> b = np.random.randint(0, 100000, (1000000, 2))
>>> t = perf_counter(); intersect(a, b); s = perf_counter()
(array([   971,   3155,  15034,  35844,  41173,  60467,  73758,  91585,
        97136, 105296, 121005, 121658, 124142, 126111, 133593, 141889,
       150299, 165881, 167420, 174844, 179410, 192858, 222345, 227722,
       233547, 234932, 243683, 248863, 255784, 264908, 282948, 282951,
       285346, 287276, 302142, 318933, 327837, 328595, 332435, 342289,
       344780, 350286, 355322, 370691, 377459, 401086, 412310, 415688,
       442978, 461111, 469857, 491504, 493915, 502945, 506983, 507075,
       511610, 515631, 516080, 532457, 541138, 546281, 550592, 551751,
       554482, 568418, 571825, 591491, 594428, 603048, 639900, 648278,
       666410, 672724, 708500, 712873, 724467, 740297, 740640, 749559,
       752723, 761026, 777911, 790371, 791214, 793415, 795352, 801873,
       811260, 815527, 827915, 848170, 861160, 892562, 909555, 918745,
       924090, 929919, 933605, 939789, 940788, 940958, 950718, 950804,
       997947]), array([507017, 972033, 787596, 531935, 590375, 460365,  17480, 392726,
       552678, 545073, 128635, 590104, 251586, 340475, 330595, 783361,
       981598, 677225,  80580,  38991, 304132, 157839, 980986, 881068,
       308195, 162984, 618145,  68512,  58426, 190708, 123356, 568864,
       583337, 128244, 106965, 528053, 626051, 391636, 868254, 296467,
        39446, 791298, 356664, 428875, 143312, 356568, 736283, 902291,
         5607, 475178, 902339, 312950, 891330, 941489,  93635, 884057,
       329780, 270399, 633109, 106370, 626170,  54185, 103404, 658922,
       108909, 641246, 711876, 496069, 835306, 745188, 328947, 975464,
       522226, 746501, 642501, 489770, 859273, 890416,  62451, 463659,
       884001, 980820, 171523, 222668, 203244, 149955, 134192, 369508,
       905913, 839301, 758474, 114597, 534015, 381467,   7328, 447698,
       651929, 137424, 975677, 758923, 982976, 778075,  95266, 213456,
       210555]))
>>> print(s-t)
2.98617472499609

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

performance

NumPy

enumerate

枚举两个大数组的快速方法？的相关文章

在Python中，如何将矩阵逆时针旋转90度？

gt gt gt def rotate matrix k List List int For example if I have m 1 2 3 2 3 3 5 4 3 rotate matrix m should give me 3 3
如果 Excel 文件是由程序创建的，Pandas read_excel 对于具有简单公式的单元格返回 nan [重复]

这个问题在这里已经有答案了 I use pd read excel读取由以下命令创建的 excel 文件openpyxl并从一个网址下载解析后的数据框将给出nan如果单元格值是公式 which formula is simply 100
Flask 中“缺少 CSRF 令牌”，但它在模板中呈现

问题当我尝试登录使用 Flask login 时我得到Bad Request The CSRF session token is missing但令牌正在呈现在模板中 secret key 已设置并且我在本地运行localhost
Keras model.predict 函数给出输入形状错误

我已经在 Tensorflow 中实现了通用句子编码器现在我正在尝试预测句子的类概率我也将字符串转换为数组 Code if model model type universal classifier basic class probs
为什么在访问 Python 对象属性时使用 getattr() 而不是 __dict__ ？

在具有一定程度的 Python 对象自省的源代码示例和 SO 答案中常见的模式是 getattr some object attribute name string 是否有理由优先选择这种模式 some object dict attri
为什么在连接两个字符串时 Python 比 C 更快？

目前我想比较 Python 和 C 用来处理字符串的速度我认为 C 应该比 Python 提供更好的性能然而我得到了完全相反的结果这是 C 程序 include
将 Python Pandas DataFrame 写入 Word 文档

我正在努力创建一个使用 Pandas DataFrames 的 Python 生成的报告目前我正在使用DataFrame to string 方法但是这会作为字符串写入文件有没有办法让我实现这一目标同时将其保留为表格以便我可以使
django 模板 - 如何动态访问变量？

假设我有一个具有以下上下文的 django 模板 data1 this is data1 data2 this is data2 data name data2 现在我知道了data name 假设它是 data2 是否可以用它来访问变量d
App Engine NDB：如何访问属性的 verbose_name

假设我有这个代码 class A ndb Model prop ndb StringProperty verbose name Something m A m prop a string value 当然现在如果我打印 m prop 它会
Py2exe - Pmw WindowsError：[错误 3]

我正在尝试使用 Py2exe 构建独立的可执行文件我已经导入了 Pmw 类当我运行独立可执行文件时出现以下错误 Traceback most recent call last File py line 9 in
将 window.location 传递给 Flask url_for

我正在使用 python 在我的页面上当匿名用户转到登录页面时我想将一个变量传递到后端以便它指示用户来自哪里发送 URL 因此当用户单击此锚链接时 a href Sign in a 我想发送用户当前所在页面的当前 URL
Python-验证我的文档 xls 中是否存在工作表

我正在尝试在空闲时间设计一个小程序加载 xls 文件然后在要扫描的文档中选择一张纸步骤1 用户导入 xls文件导入程序后检查文件是否存在我能做到的第 2 步我要求用户提供要分析的文档表 xls 的名称这就是它停止的地方该程
python Recipe：列出最接近等于值的项[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案考虑像这样的列表 0 3 7 10 12 15 19 21 我想获得最接近任何值的最近的最小数字所以如果我通过4 我会得到3 如果我
为什么 Collections.counter 这么慢？

我正在尝试解决罗莎琳德的基本问题即计算给定序列中的核苷酸并在列表中返回结果对于那些不熟悉生物信息学的人来说它只是计算字符串中 4 个不同字符 A C G T 出现的次数我期望collections Counter是最快的方法首先
从迭代器外部将 StopIteration 发送到 for 循环

有几种方法可以打破一些嵌套循环他们是 1 使用中断继续 for x in xrange 10 for y in xrange 10 print x y if x y gt 50 break else continue only exec
Django 将 JSON 数据传递给静态 getJSON/Javascript

我正在尝试从 models py 中获取数据并将其序列化为views py 中的 JSON 对象模型 py class Platform models Model platformtype models CharField max len
Python 相当于 Scala 案例类

Python 中是否有与 Scala 的 Case Class 等效的东西就像自动生成分配给字段而无需编写样板的构造函数一样当前执行此操作的现代方法从 Python 3 7 开始是使用数据类 https www python org
两种 ODE 求解器之间的差异

我想知道两者之间有什么区别ODEINT and solve ivp用于求解微分方程它们之间有什么优点和缺点 f1 solve ivp f 0 1 y0 y0 is the initial point f2 odeint f y0 0 1
使用 MPI 的 Allreduce 对 Python 对象求和

我正在使用使用 Python 中的字典和计数器构建的稀疏张量数组操作我想让并行使用这个数组操作成为可能最重要的是我最终在每个节点上都有计数器我想使用 MPI Allreduce 或另一个不错的解决方案将其添加在一起例如使用计数
在Python中停止ThreadPool中的进程

我一直在尝试为控制某些硬件的库编写一个交互式包装器用于 ipython 有些调用对 IO 的影响很大因此并行执行任务是有意义的使用 ThreadPool 几乎效果很好 from multiprocessing pool import

随机推荐

如何将 Node.js 应用程序作为自己的进程运行？

部署 Node js 的最佳方式是什么我有一个 Dreamhost VPS 他们称之为VM https en wikipedia org wiki Virtual machine 并且我已经能够安装 Node js 并设置代理只要我保持
减去oracle中的时间戳返回奇怪的数据

我正在尝试减去两个日期并期望返回一些浮点值但我得到的回报如下 000000000 00 00 07 225000 将值乘以 86400 我想得到秒内的差值会返回更奇怪的值 000000007 05 24 00 000000000 任何想
在 C++ 中我们是否应该更喜欢临时变量而不是用户定义的变量

假设有一个 C 函数 foo 它返回一个布尔值我调用此函数来检查属性的状态或者获取函数调用的结果那么调用此类函数的最佳方式是什么方法一 bool flag foo if flag some code else else some c
片段错误：类型不兼容，需要 android.app.fragment 但找到了 Activity.messagefragment

Override public void onDrawerItemSelected View view int position displayView position private void displayView int posit
如何在 Java 中将 ASCII 字符串转换为 UTF-8 字符串？

如标题所示如何在 Java 中将 ASCII 字符串转换为 UTF 8 字符串 Thanks 编辑我的情况确实是我读取了一个中文字符串当我输出它时它都是乱码我认为问题可能出在编码上那么如何正确地将字符串从乱码转换为正确的语言集
存储或反映变量的“参考水平”

C 中有没有一种方法可以反映变量的指针级别数例如 int a为1级 int b是 2 个级别并且int c是 0 级除了使用typeid并解析从中产生的字符串我问的原因是我正在使用指向成员函数的指针 http www goingw
如何在 SQL Server 中声明数组变量？

我想在存储过程中执行一个查询该查询应该循环所有数组值例如 declare arrayStoreID 1001 2400 2001 5000 for int i 0 i
TreeMap中出现这个空指针异常是由于并发访问造成的吗？

我知道TreeMap https docs oracle com javase 7 docs api java util TreeMap html不是线程安全的我正在尝试将 TreeMap 与并发跳表映射 https docs oracl
在折叠的 Bootstrap 手风琴中启动时，所选下拉菜单的宽度接近于零

当选择的下拉菜单位于 Bootstrap 3 手风琴内部时最初隐藏那么下拉菜单的宽度接近于零展开后如下所示而我希望它看起来像这样当panel collapse collapse div没有in类有效地表明它最初已经崩溃这是重现此
UITableView 动态单元格高度仅在滚动后才正确

我有一个UITableView与定制UITableViewCell使用自动布局在故事板中定义该单元格有多个多行UILabels The UITableView似乎可以正确计算单元格高度但对于前几个单元格该高度未在标签之间正确划分滚动
Rails：为模型创建脚手架以从超类继承？

我是 Rails 的新手仍然处于起步阶段所以如果这是微不足道的或错误的方式做事请原谅我我想为一些脚手架模型创建一个超类例如我想创建一个脚手架Men并为Women 但我希望他们都继承自People超类 Men and Wome
使用 Scrapy 和 selenium 抓取网站

我要抓取 html 内容http ntry com scores named ladder main php http ntry com scores named ladder main php with Scrapy 但是由于该网站的J
如何使用单个查询从两个表中选择数据

我一直在尝试了解如何使用单个查询从两个表中选择数据如果有人能提出比单一查询更好的方法我洗耳恭听以前我会使用两个查询来完成此操作尽管我相信单个查询会更好但我可以轻松地进行工作因此尝试学习我的一张桌子与此类似但经过了简化将此
在R中安装依赖包时“无法移动临时安装”

当我安装软件包时先安装必备软件包然后再安装实际软件包我得到了 unable to move temporary installation 对所有必备包发出警告但对实际包没有此类警告但是当我加载该包时会出现错误例如当我insta
从基类方法返回对派生类的引用

我的任务是实现一个简单的 SVG 生成器我需要支持圆折线和文本这三者至少有 4 个常用方法设置描边颜色设置填充颜色设置描边宽度字符串主要要求之一是支持链接例如折线 SetStrokeColor 白色 SetFillCol
按相同键对 JavaScript 数组对象进行分组

我有一个对象数组其中一些具有相同的月份名称但基于日期的值不同我们如何根据相同的属性值对数组对象进行分组例如 month Jan value 3 month Jan value 3 5 month Feb value 2 1 mont
什么任务最适合以函数式编程风格完成？

我最近刚刚发现了函数式编程风格我相信它将减少开发工作使代码更易于阅读使软件更易于维护然而问题是我很难说服任何人嗯最近我有机会就如何减少软件开发和维护工作进行演讲我想向他们介绍函数式编程的概念以及它如何使团队受益我的想法是向
在项目的浏览器列表中配置的一个或多个浏览器

我是离子框架的新手启动离子应用程序时收到以下警告请提出修复建议 ng One or more browsers which are configured in the project s Browserslist configurati
鼠标移动/滚动到下一个哈希

我添加了以下代码以便用鼠标滚动通过单击拖动滚动而不是通过鼠标滚轮滚动到目前为止一切都很好就像魅力一样 var clicked false clickY document on mousemove function e click
枚举两个大数组的快速方法？

我有两个大数组要处理但让我们看一下下面的简化示例来了解一下这个想法我想查找是否有一个元素data1与中的元素匹配data2并返回两者的数组索引data1 and data2如果以新数组的形式找到匹配项 index of data1 in

枚举两个大数组的快速方法？

枚举两个大数组的快速方法？ 的相关文章

随机推荐

热门标签

枚举两个大数组的快速方法？的相关文章