如何加快 Pandas 中最近的搜索速度（也许通过矢量化代码）

2024-01-02

我有两个数据框。每个都包含位置 (X,Y) 和该点的值。对于第一个数据框中的每个点，我想找到第二个数据框中最接近的点，然后找到差异。我的代码可以工作，但它使用 for 循环，速度很慢。

关于如何加快速度有什么建议吗？我知道为了性能而摆脱 pandas 中的 for 循环通常是一个好主意，但我不知道在这种情况下如何做到这一点。

这是一些示例代码：

import pandas as pd
import numpy as np

df1=pd.DataFrame(np.random.rand(10,3), columns=['val', 'X', 'Y'])
df2=pd.DataFrame(np.random.rand(10,3), columns=['val', 'X', 'Y'])

nearest=df1.copy()  #CORRECTION.  This had been just =df1 which caused a problem when trying to compare to answers submitted.

for idx,row in nearest.iterrows():
#Find the X,Y points closest to the selected point:
    closest=df2.ix[((df2['X']-row['X'])**2+(df2['Y']-row['Y'])**2).idxmin()]
    #Set the max to the difference between the current row and the nearest one.
    nearest.loc[idx,'val']= df1.loc[idx,'val'] - closest['val']

由于我在较大的数据帧上使用它，因此需要很长时间才能进行计算。

Thanks,

解决您的问题的一个很酷的解决方案是利用complex数据类型（内置于 python 和 numpy）。

import numpy as np
import pandas as pd

df1=pd.DataFrame(np.random.rand(10,3), columns=['val', 'X', 'Y'])
df2=pd.DataFrame(np.random.rand(10,3), columns=['val', 'X', 'Y'])

# dataframes to numpy arrays of complex numbers
p1 = (df1['X'] + 1j * df1['Y']).values
p2 = (df2['X'] + 1j * df2['Y']).values

# calculate all the distances, between each point in
# df1 and each point in df2 (using an array-broadcasting trick)
all_dists = abs(p1[..., np.newaxis] - p2)

# find indices of the minimal distance from df1 to df2,
# and from df2 to df1
nearest_idxs1 = np.argmin(all_dists, axis = 0)
nearest_idxs2 = np.argmin(all_dists, axis = 1)

# extract the rows from the dataframes
nearest_points1 = df1.ix[nearest_idxs1].reset_index()
nearest_points2 = df2.ix[nearest_idxs2].reset_index()

这可能比使用循环快得多，但如果您的系列很大，它将消耗大量内存（点数的二次方）。

此外，如果点集的长度不同，则此解决方案也适用。

下面是一个具体示例，演示了其工作原理：

df1 = pd.DataFrame([ [987, 0, 0], [888, 2,2], [2345, 3,3] ], columns=['val', 'X', 'Y'])
df2 = pd.DataFrame([ [ 1000, 1, 1 ], [2000, 9, 9] ] , columns=['val', 'X', 'Y'])

df1
    val  X  Y
0   987  0  0
1   888  2  2
2  2345  3  3

df2
    val  X  Y
0  1000  1  1
1  2000  9  9

这里，对于 df1 中的每个点，df2[0]=(1,1) 是最近的点（如nearest_idxs2以下）。考虑相反的问题，对于(1,1)，(0,0)或(2,2)是最近的，而对于(9,9)，df1[1]=(3,3)是最近的(如图所示nearest_idxs1 below).

p1 = (df1['X'] + 1j * df1['Y']).values
p2 = (df2['X'] + 1j * df2['Y']).values
all_dists = abs(p1[..., np.newaxis] - p2)
nearest_idxs1 = np.argmin(all_dists, axis = 0)
nearest_idxs2 = np.argmin(all_dists, axis = 1)

nearest_idxs1
array([0, 2])
nearest_idxs2
array([0, 0, 0])

# It's nearest_points2 you're after:
nearest_points2 = df2.ix[nearest_idxs2].reset_index()

nearest_points2
   index   val  X  Y
0      0  1000  1  1
1      0  1000  1  1
2      0  1000  1  1

df1['val'] - nearest_points2['val']
0     -13
1    -112
2    1345

为了解决相反的问题（对于 df2 中的每个点，在 df1 中找到最近的点），取nearest_points1 and df2['val'] - nearest_points1['val']

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

Distance

vectorization

nearestneighbor

如何加快 Pandas 中最近的搜索速度（也许通过矢量化代码）的相关文章

如何创建毫秒粒度的 Python 时间戳？

我需要一个自纪元以来的毫秒 ms 时间戳这应该不难我确信我只是缺少一些方法datetime或类似的东西实际上微秒 s 粒度也很好我只需要亚 1 10 秒的计时例子我有一个每 750 毫秒发生一次的事件假设它检查灯是否打开或关闭
从内存中发送图像

我正在尝试为 Discord 机器人实现一个系统该系统可以动态修改图像并将其发送给机器人用户为此我决定使用 Pillow PIL 库因为它对于我的目的来说似乎简单明了这是我的工作代码的示例它加载一个示例图像作为测试修改在其上
配置 Flask 以正确加载 Bootstrap js 和 css 文件

如何使用 Flask 中的 url for 指令来正确设置以便使用 Bootstrap 和 RGraph 的 html 页面可以正常工作假设我的 html 页面看起来像这样部分片段
python matplotlib 使用按钮事件添加和删除图形中的文本

我试图在调用button press event 时将文本添加到鼠标指针位置的图形中并在调用button release event 时将其删除我已成功添加文本但无法将其删除这是我使用的代码的一部分 def onclick even
Tkinter 按钮鼠标右键和左键单击有不同的命令

我正在用 Python 制作扫雷游戏并使用 tkinter 库来创建 gui 有没有绑定到 tkinter 按钮两个命令的方法一个是右键单击按钮时的命令另一个是单击左键时的命令通常按钮仅设计用于单击但 tkinter 允许您为
更新或插入 MySQL Python

如果记录已存在我需要更新一行如果不存在我需要创建一个新记录我理解 ON DUPLICATE KEY 将使用 MYSQLdb 完成此操作但是我无法使其正常工作我的代码如下 cursor database cursor cursor
在Python中将用户昵称转换为正式名字

我正在尝试根据 Python 中的用户名字和姓氏映射来自不同系统的用户一个问题是名字在很多情况下都是昵称例如对于用户来说他的名字在一个系统中是 Dave 而在另一个系统中是 David python 中有没有简单的方法可以将这些
Python 用静态图像将 mp3 转换为 mp4

我有x文件包含一个列表mp3我想转换的文件mp3文件至mp4文件带有static png photo 似乎这里唯一的方法是使用ffmpeg但我不知道如何实现它我编写了脚本来接受输入mp3文件夹和一个 png photo 然后它将创建新文件
在 grpc python 中处理异步流请求

我试图了解如何使用双向流处理 grpc api 使用 Python API 假设我有以下简单的服务器定义 syntax proto3 package simple service TestService rpc Translate stre
如何使用 SymPy 求给定一阶导数的 n 阶导数？

Given some f and the differential equation x t f x t how do I compute x n t in terms of x t For example given f x t sin
Python：如何对数组 X 进行排序，但对 Y 进行相同的相对排序？

例如 X 5 6 2 3 1 Y 7 2 3 4 6 我对X进行排序 X 1 2 3 5 6 但我希望对 Y 应用相同的相对排序以便数字保持与以前相同的相对位置 Y 6 3 4 7 2 我希望这是有道理的通常你会做一个zip sort
出于安全目的，您是否有理由不执行自己的算法来打乱 ID？

我计划实现我自己的非常简单的哈希公式为具有多个用户的应用程序添加一层安全性我目前的计划如下用户创建一个帐户此时后端会生成一个 ID ID 通过公式运行假设 ID 57 8926 36 7 或同样随机的东西然后我将新的用户
(venv) (base) 都在 python 项目上活跃，我如何只进入 venv？

所以我将 vscode 与 conda 对于 django 项目一起使用并尝试激活名为 venv 的虚拟环境它来自 base C Users User Desktop pfa master pfa master venv Script
使用枚举名称而不是值对 Pydantic 字段进行编码

我有一个枚举类 class Group enum Enum user 0 manager 1 admin 2 我有一个 pydantic 模型 class User BaseModel id int username str group G
为什么我可以使用 tsql 连接到 Azure MS SQL，但不能使用 pymssql？

我今天在哪里 TDSVER 7 3 tsql H example database windows net U me D ExampleDB p 1433 P notreallymypassword 这不会 gt gt gt import
Spark (Python) 中的 Kolmogorov Smirnov 测试不起作用？

我正在 Python Spark ml 中进行正态性测试看到了我的结果think是一个错误这是设置我有一个标准化的数据集范围 1 到 1 当我做直方图时我可以清楚地看到数据不正常 gt gt gt prices norm hist
如何在Python中显示坐标网格线的变换？

假设我有常规的笛卡尔坐标系 x y 并且我考虑一个矩形网格区域 D 分成小方块我想看看域 D 如何在 Python 中的坐标变换 T x y gt u x y v x y 下映射我正在寻找这样的东西 See here https mat
将非方邻接矩阵导入 Networkx python

我在下面有一些 pandas 数据框形式的数据其中列代表离散技能行代表离散工作仅当工作需要该技能时才存在 1 否则为 0 skill 1 skill 2 job 1 1 0 job 2 0 0 job 3 1 1 我想使用 netwo
matplotlib imshow() 和像素强度

我试图了解矩阵的值是如何输入到 matplotlib 的imshow 函数确定灰度模式下像素的强度考虑示例代码 import random import matplotlib pyplot as plt import matplotlib
捕获 SQLAlchemy 异常

我可以使用什么捕获 SQLAlechmy 异常的上层异常 gt gt gt from sqlalchemy import exc gt gt gt dir exc ArgumentError CircularDependencyError

随机推荐

Pandas 按索引计数分组和排序

假设我有这个数据框 d Path abc abc ghi ghi jkl jkl Detail foo bar bar foo foo foo Program prog1 prog1 prog1 prog2 prog3 prog3 Valu
Spark union 因嵌套 JSON 数据帧而失败

我有以下两个 JSON 文件 name Agent1 age 32 details d1 1 d2 2 name Agent2 age 42 details 我带着火花读了它们 val jsonDf1 spark read json pat
GWT + Google 地图 API v3

我的 GWT 项目中需要 Google Maps API v3 调用更具体地说是 Google 地图和 DirectionServices 等地点的自动完成功能我们已经尝试了 2 种方法来获取 v3 访问权限但没有一种方法令人满意
在 .NET 正则表达式中，将零宽度正前瞻断言与其他搜索项相结合

我需要解析一个具有多行标题任意数量的多行详细信息和多行页脚的文件每个细节都以一个模式开始页脚也以一个模式开始假设每个细节都以 detail 开头页脚以 footer 开头我可以通过以下方式成功找到每个细节 s detail de
内插弧度角？

如果给定的起始角度为 1 0f 结束角度为 6 0f 那么我真正想要插值的不是 1 和 6 之间的 5 而是较小的部分这将导致逆时针插补插值时如何考虑这一点本质上当给定从 0 到 6 283 的 2 个弧度角时我如何知道是否应该根
调试时编辑 C#

我知道我以前处理过这个问题但覆盖这个问题的设置似乎总是在变化我在 Visual Studio 2008 中有一个 C 项目当我调试时 VS 不允许我编辑代码我不想编辑并继续我只想为我的下一个版本进行更改编辑并继续被禁用当我在调
gSOAP 中的动态数组以 C++ 方式使用 STL 向量而不是 __ptr/__size？

我正在使用 gSOAP 2 8 8 开发 Web 服务我想发送自定义数据类型的无界序列我可以通过以下方式实现这个gSOAP 用户指南第 11 11 节 http www cs fsu edu engelen soapdoc2 html
WPF：一个文本框，按下 Enter 键时会触发一个事件

而不是附加一个PreviewKeyUp事件与每个TextBox在我的应用程序中检查按下的键是否是 Enter 键然后执行操作我决定实现一个扩展版本TextBox其中包括一个 DefaultAction 事件该事件在按下 Enter
CSS ul li 子弹消失[关闭]

这个问题不太可能对任何未来的访客有帮助它只与一个较小的地理区域一个特定的时间点或一个非常狭窄的情况相关通常不适用于全世界的互联网受众为了帮助使这个问题更广泛地适用访问帮助中心 help reopen questions 我的网页中
如何在Android上为Room库设置混淆规则

在我的应用程序中我想使用Room使用库database 最后为生成APK我启用minify选项 proguard in Build Gradle 我使用以下版本的 Room 库 implementation android arch per
CodeIgniter：所有 $this->db->query() 方法调用的 SQL 审计？

我正在使用 CodeIgniter 2 并且想要审核所有 this gt db gt query sql calls 我们所有的数据库调用都是通过 query 方法没有活动记录使用情况我需要记录 sql 查询并将它们输入到自定义表中以用
WPF 惯用手与弹出窗口

我刚刚将我的电脑从 Windows 7 迁移到 Windows 8 在运行我们的 WPF 应用程序时我注意到我们的 WPF 弹出窗口和或工具提示现在默认位于左下角而不是正常的右下角有人注意到这一点吗我知道您可以在 xaml 中的每
从字符串加载.Net中的Jira公共证书（如何将ASN.1编码的SubjectPublicKeyInfo转换为.Net中的X509证书）

我正在构建一个 oauth 1 0a 服务该服务将由 Jira 中的小工具使用它是一个用 C 编写的 Net 3 5 应用程序 Jira 使用 RSA SHA1 签名方法向此服务发出请求这意味着要验证请求的签名我需要从其公共证书创建
TransactionTooLargeException 仅适用于 Nougat [重复]

这个问题在这里已经有答案了我开发了一款在 Android 版本低于 Nougat 的设备上运行良好的应用程序当我在带有 Nougat 的设备上启动应用程序并按主页按钮时应用程序崩溃并且在 logcat 中我有 FAILED BIND
获取Windows体系结构（32/64位版本）

我有一个小问题我正在尝试获取操作系统的体系结构问题是我的编程语言不支持此类功能因此我需要从 Windows dll 中读取此信息如 kernel32 dll 我确实尝试获取有关功能的信息GetNativeSystemInfo Get
如何用PHP正确销毁会话cookie？

我正在尝试正确注销管理员用户这是我的功能 function logout SESSION array destroy all of the session variables if ini get session use cookies
有没有办法将 SSMS 2012 键盘快捷键绑定到过程，以便我可以传递完全限定的对象名称？

In SSMS 2012 is there any way I can bind a keyboard shortcut e g Ctrl 5 so that I can highlight a qualified object name
如何更改 ExpandableListView 组指示器位置？

我想改变ExpandableListView 组指示符向右填充我使用自定义适配器将数据加载到ExpandableListView 这是我的ExpandableListView xml
Laravel 4-重定向到 javascript 代码 Blade 模板内的路由

我正在尝试使用 javascript 和 Blade 引擎编写一个简单的重定向这是我想要做的一个示例 JavaScript 代码 p Click the button to go to the home page p
如何加快 Pandas 中最近的搜索速度（也许通过矢量化代码）

我有两个数据框每个都包含位置 X Y 和该点的值对于第一个数据框中的每个点我想找到第二个数据框中最接近的点然后找到差异我的代码可以工作但它使用 for 循环速度很慢关于如何加快速度有什么建议吗我知道为了性能而摆脱 pand

如何加快 Pandas 中最近的搜索速度（也许通过矢量化代码）

如何加快 Pandas 中最近的搜索速度（也许通过矢量化代码） 的相关文章

随机推荐

热门标签

如何加快 Pandas 中最近的搜索速度（也许通过矢量化代码）的相关文章