在 pandas 数据框中计算点之间最短（欧几里德）距离的最快方法

2024-01-22

考虑以下 pandas 数据框：

print(df)

     Id      X      Y Type  X of Closest  Y of Closest
0   201  73.91  34.84    A           NaN           NaN
1   201  74.67  32.64    A           NaN           NaN
2   201  74.00  33.20    A           NaN           NaN
3   201  71.46  27.70    A           NaN           NaN
4   201  69.32  35.42    A           NaN           NaN
5   201  75.06  24.00    B           NaN           NaN
6   201  74.11  16.64    B           NaN           NaN
7   201  73.37  18.73    B           NaN           NaN
8   201  56.63  26.90    B           NaN           NaN
9   201  73.35  38.83    B           NaN           NaN
10  512  74.15  28.90    A           NaN           NaN
11  512  75.82  17.56    A           NaN           NaN
12  512  74.78  33.21    A           NaN           NaN
13  512  75.43  32.41    A           NaN           NaN
14  512  75.90  25.12    A           NaN           NaN
15  512  79.76  29.49    B           NaN           NaN
16  512  76.47  36.91    B           NaN           NaN
17  512  74.70  19.19    B           NaN           NaN
18  512  78.75  30.53    B           NaN           NaN
19  512  74.60  31.88    B           NaN           NaN

请注意，对于每个 Id，始终有 10 行，其中 5 行属于 A 类，5 行属于 B 类。

我想创建 2 列，“最近的 X”和“最近的 Y”。我的意思是，X,Y 对（每个 Id 的相反类型）是最短的欧几里德距离。

第一行的示例：与 (73.91, 34.84) 最接近的对（B 型）是对 (73.35,38.83) - 其欧氏距离为 4.03。

一种（可能！？）方法是构造 10 列 - 每个 Id 中的点之间的欧几里德距离，然后选择与相反 Type 的最小欧几里德距离。不过，我确信会有更快的方法。

对于快速（编码）解决方案，我们可以使用apply在分组依据上：

from scipy.spatial import distance_matrix

def get_min_dist(x):
    # compute distance matrix
    tmp = distance_matrix(x.iloc[:5], x.iloc[5:])

    # get index min of corresponding types
    idx = np.concatenate((np.argmin(tmp,1)+5),  # type A to type B
                          np.argmin(tmp, 0)     # type B to type A
                        )

    return pd.DataFrame(x.iloc[idx].values, 
                        index=x.index, 
                        columns=[a+'_closest' for a in x.columns])

df.groupby('Id')[['X','Y']].apply(get_min_dist)

Output:

    X_closest  Y_closest
0       73.35      38.83
1       73.35      38.83
2       73.35      38.83
3       75.06      24.00
4       73.35      38.83
5       71.46      27.70
6       71.46      27.70
7       71.46      27.70
8       71.46      27.70
9       73.91      34.84
10      74.60      31.88
11      74.70      19.19
12      74.60      31.88
13      74.60      31.88
14      79.76      29.49
15      75.43      32.41
16      74.78      33.21
17      75.82      17.56
18      75.43      32.41
19      75.43      32.41

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

NumPy

euclideandistance

在 pandas 数据框中计算点之间最短（欧几里德）距离的最快方法的相关文章

如何返回 cost, grad 作为 scipy 的 fmin_cg 函数的元组

我怎样才能使 scipy 的fmin cg使用一个返回的函数cost and gradient作为元组问题是有f对于成本和fprime对于梯度我可能必须执行两次操作非常昂贵 grad and cost被计算此外在它们之间共享变量可
在Python中从大文件中搜索单词列表

我是新蟒蛇我有一个单词列表和一个非常大的文件我想删除文件中包含单词列表中的单词的行单词列表按排序给出并且可以在初始化期间输入我正在努力寻找解决这个问题的最佳方法我现在正在进行线性搜索这花费了太多时间有什么建议么您可以使用i
无法在 selenium 和 requests 之间传递 cookie，以便使用后者进行抓取

我用 python 结合 selenium 编写了一个脚本来登录网站然后从driver to requests这样我就可以继续使用requests进行进一步的活动 I used item soup select one div class
Matplotlib：如何有效地将大量线段着色为独立渐变

Python 绘图库如何有效地将大量线段着色为独立渐变已经阅读this https stackoverflow com questions 8500700 how to plot a gradient color line in ma
在 python pandas 中，如何保存“网格图”？

我对 pandas 绘图工具很陌生在文档中以下命令非常方便 myplot rts ret hist bins 50 by rts primary mic 然而当我尝试从图中获取图形参考并保存它时问题就出现了 myfigure myp
如何确保 re.findall() 停止在正确的位置？

这是我的代码 a import re re findall r lt title gt lt title gt a 结果是 title aaa
Python Tkinter 模块不显示输出

我正在尝试学习 Python 并尝试使用 Python 中的 GUI 并遇到了这个 Tkinter 模块我的代码运行但运行时窗口没有出现我的代码如下 from Tkinter import to create a root windo
在Python上获取字典的前x个元素

我是Python的新手所以我尝试用Python获取字典的前50个元素我有一本字典它按值降序排列 k 0 l 0 for k in len dict d l 1 if l lt 51 print dict 举个小例子 dict d m
Arcpy 模数在 Pycharm 中不显示

如何将 Arcpy 集成到 Pycharm 中我尝试通过导入模块但它没有显示我确实知道该模块仅适用于 2 x python arcpy 在 PyPi Python 包索引上不可用因此无法通过 pip 安装要使用 arcpy 您需要
Python Anaconda：如何测试更新的库是否与我现有的代码兼容？

我在 Windows 7 机器上使用 Python 2 7 Anaconda 安装进行数据分析和科学计算当新的库发布时例如新版本的 pandas patsy 等您建议我如何测试新版本与现有代码的兼容性是否可以在同一台机器上安装两个
根据其他单元格值更改多个单元格值

我想更改包含的单元格moving to movingToOpenor movingToClose基于下一个单元格中给出的状态有时循环会被中断并且不会从open to close or close to open 这是我当前的数据框 Dat
Paste.httpserver 并通过 HTTP/1.1 Keep-alive 减慢速度；使用 httperf 和 ab 进行测试

我有一个基于paste httpserver 的Web 服务器作为HTTP 和WSGI 之间的适配器当我使用 httperf 进行性能测量时如果每次使用 num conn 启动一个新请求我每秒可以执行超过 1 000 个请求如果我使
pandas 相当于 np.where

np where具有向量化 if else 的语义类似于 Apache Spark 的when otherwise数据帧方法我知道我可以使用np where on pandas Series but pandas通常定义自己的 API
为什么 __dict__ 和 __weakref__ 类从未在 Python 中重新定义？

类创建似乎从来没有re 定义 dict and weakref class属性即如果它们已经存在于超类的字典中则它们不会添加到其子类的字典中但始终re 定义 doc and module class属性为什么 gt gt gt c
如何指示 urwid 列表框的项目数多于当前显示的项目数？

有没有办法向用户显示 urwid 列表框在显示部分上方下方有其他项目我正在考虑类似滚动条的东西它可以显示条目的数量或者列表框顶部底部的单独栏如果这个行为无法实现有哪些方法可以实现这个通知在我的研究过程中我发现这个问题 ht
Python bug - 或者我的愚蠢 - 扫描字符串文字时 EOL

我看不出以下两行之间有显着差异然而第一个解析而后者则不解析 In 5 n Axis of Awesome In 6 n Axis of Awesome File
检测是否从psycopg2游标获取？

假设我执行以下命令 insert into hello username values me 我跑起来就像 cursor fetchall 我收到以下错误 psycopg2 ProgrammingError no results to fe
如何给URL添加变量？

我正在尝试从网站收集数据我有一个 Excel 文件其中包含该网站的所有不同扩展名 F i www example com example2 我有一个脚本可以成功从网站中提取 HTML 但现在我想为所有扩展自动执行此操作然而当我说 s
带 Flask 的 RPI dht22：无法将第 4 行设置为输入 - 等待 PulseIn 消息超时

我正在尝试制作一个 Raspberry Pi 3 REST API 使用 DHT22 提供温度和湿度整个代码 from flask import Flask jsonify request from sds011 import SDS01
用于插入或替换 URL 参数的 Django 模板标签

有人知道 Django 模板标签可以获取当前路径和查询字符串并插入或替换查询字符串值吗例如向 some custom path q how now brown cow page 3 filter person 发出请求电话 urlpar

随机推荐

QTableView排序信号？

I use QTableView QStandardItemModel显示一些数据存储在其他数据结构中的数据这个表视图是sortable 由于它是可排序的因此在对该模型进行排序时我还需要对存储数据的顺序进行排序我尝试为排序信号实现
将数据上传到数据库时出现问题

我在将数据发送到数据库时遇到问题问题是每次我刷新页面时它都会自动发送以前的数据任何人都可以帮忙吗 if isset POST Posts if isset POST t isset POST i isset POST P title P
Bootstrap 3 网格可以扩展吗？

我正在开发一个项目我们将保留 Bootstrap less 文件不变我们也不想在 HTML 中使用 Bootstrap 类因为我们将来可能不会使用它我正在尝试使用扩展功能将我们的类名与样式表中的 BS 版本分组除了网格列之外
如何在 Laravel 中将模型事件与查询生成器一起使用

我在模型的静态函数启动方法中使用诸如 static saving static saved 等模型事件当用户保存新帖子时效果很好但是当我执行以下操作时 post where id post id gt update array publ
在纯 CSS 中将子级的宽度设置为父级的高度

我可以设置width of a child div等于它的parent div height在纯CSS中 JsFiddle 演示 http jsfiddle net evk9a9ma 到目前为止我一直在 jQuery 中做 child d
Z3Py 中最大值的模型不正确

我想找到一个表达式的最大间隔e对于所有 x 都成立编写这样的公式的方法应该是 Exists d ForAll x in d d e and ForAll x not in d d e 为了得到这样一个d 公式f在 Z3 中看上面的可能
使用maven archetype创建新项目如何指定自定义文件夹名称

我现在正在尝试创建一个 Maven 原型它使用spring mybatis框架有一个mybatis xml文件 src main resources archetype resources src main resources sql
如何以编程方式设置layout_weight？

免责声明据我所知这个问题到目前为止 XAMARIN ANDROID 还没有答案已经回答过多次了安卓 Java https stackoverflow com questions 4641072 how to set layout wei
时间校正 Verlet 积分和太大的时间步长

我使用在这里找到的时间校正 Verlet 集成 http www gamedev net page resources technical math and physicals a simple time Corrected verlet
在 Git 中，长哈希和短哈希有什么区别？

这是长 Git 哈希值提交 c26cf8af130955c5c67cfea96f9532680b963628 合并 8654907 37c2a4f 作者尼古拉斯日期 2017 年 4 月 26 日星期三 13 28 22 0400 这
在 Django 中将 numpy 数组显示为图像

我是 Django 框架的新手我正在构建一个网站该网站从用户那里获取图像然后处理图像并返回到 numpy 数组处理后的图像我想将 numpy 数组显示为图像我怎样才能做到这一点感谢您的阅读并提供帮助索引 html
访问 OKHttp 响应正文

所以我需要弄清楚如何在第二个响应中访问我从第一个响应中获得的值我认为我可以将其存储到一个变量中并在另一个请求中访问它然而情况似乎并非如此这是给我带来问题的一点因此我的第一个请求是获取一个令牌然后我需要在第二个请求中使用存储在
从 MYSQL 表中选择添加前缀的最大数字

不幸的是我有一张桌子我无法以任何方式进行更改并且必须使用我所拥有的东西 mysql 表有一个标记为 customer id 的字段它有 2 个前缀字母和一个 4 值数字前任 BI8392 HE8492 WO1293 如何选择具有特
为什么当前目录不在我的 Ruby 路径上？ [复制]

这个问题在这里已经有答案了我当前的工作目录不在我的 Ruby 路径上有什么原因吗考虑 499 irb ruby 1 9 2 p136 002 gt puts Users mrberryman rvm rubies ruby 1 9 2
如何检查文件是否仍在写入？

如何检查文件是否仍在写入我需要等待另一个进程再次创建写入和关闭文件以便我可以继续在我的进程中再次打开它总的来说这是一个很难解决的问题您可以询问文件是否open 在某些情况下但是如果另一个进程是脚本它很可能多次打开和关闭该文
Maven：POM.xml 中缺少工件 com.sun:tools:jar:1.6.0 编译时异常 [重复]

这个问题在这里已经有答案了当我尝试添加工具的依赖项时我遇到一个奇怪的问题并在我的 pom xml 中遇到编译时异常 jar显示如下缺少工件 com sun tools jar 1 6 0 我已将 JAVA HOME 变量设置如下 J
CSS：显示属性差异

显示块和显示内联有什么区别显示块将导致该对象强制容器内的其他对象到新行显示方式内嵌尝试将该对象显示在与其他对象相同的行上显示块 Item 1 Item 2 Item 3 显示内嵌 Item 1 Item 2 Item 3
一个字段的多个值，采用逗号分隔值 .csv 格式

csv 文件中的同一字段下是否可以有多个值我的网页上有一个电子邮件字段用户可以选择输入多个地址我希望我的 csv 文件能够处理任意数量的电子邮件值我怎样才能实现这个目标 csv 由第三方程序读取我无法修改是的 CSV 文
如何访问 JSONObject 子字段？

我觉得很愚蠢但我已经四处寻找这一点有一段时间了我正在使用 google geocoder API 我需要一些关于 json 响应的帮助这是我拥有的一个 JSONObject viewport southwest lng 78 9233
在 pandas 数据框中计算点之间最短（欧几里德）距离的最快方法

考虑以下 pandas 数据框 print df Id X Y Type X of Closest Y of Closest 0 201 73 91 34 84 A NaN NaN 1 201 74 67 32 64 A NaN NaN 2

在 pandas 数据框中计算点之间最短（欧几里德）距离的最快方法

在 pandas 数据框中计算点之间最短（欧几里德）距离的最快方法 的相关文章

随机推荐

热门标签

在 pandas 数据框中计算点之间最短（欧几里德）距离的最快方法的相关文章