查找数据集中所有点距离最近的点 - Python

2024-04-13

我有一个数据集如下，

Id     Latitude      longitude
1      25.42         55.47
2      25.39         55.47
3      24.48         54.38
4      24.51         54.54

我想找到数据集每个点的最近距离。我在互联网上找到了以下距离函数，

from math import radians, cos, sin, asin, sqrt
def distance(lon1, lat1, lon2, lat2):
    """
    Calculate the great circle distance between two points 
    on the earth (specified in decimal degrees)
    """
    # convert decimal degrees to radians 
    lon1, lat1, lon2, lat2 = map(radians, [lon1, lat1, lon2, lat2])
    # haversine formula 
    dlon = lon2 - lon1 
    dlat = lat2 - lat1 
    a = sin(dlat/2)**2 + cos(lat1) * cos(lat2) * sin(dlon/2)**2
    c = 2 * asin(sqrt(a)) 
    km = 6367 * c
    return km

我正在使用以下功能，

shortest_distance = []
for i in range(1,len(data)):
    distance1 = []
    for j in range(1,len(data)):
        distance1.append(distance(data['Longitude'][i], data['Latitude'][i], data['Longitude'][j], data['Latitude'][j]))
    shortest_distance.append(min(distance1))

但此代码对每个条目循环两次并返回 n^2 次迭代，因此速度非常慢。我的数据集包含近 100 万条记录，每次循环所有元素两次变得非常昂贵。

我想找到更好的方法来找出每一行的最近点。有人能帮我找到一种方法来解决这个问题吗？

Thanks

寻找最近的蛮力方法N指向给定点的点是O(N)——你必须检查每一点。相反，如果N点存储在KD-tree https://en.wikipedia.org/wiki/K-d_tree，然后求最近点的平均值O(log(N))。构建 KD 树还需要额外的一次性成本，这需要O(N) time.

如果您需要重复此过程N次，那么暴力法就是O(N**2)kd树方法是O(N*log(N))。因此，对于足够大的N，KD树将击败暴力法。

See here http://scikit-learn.org/stable/modules/neighbors.html#nearest-neighbor-algorithms有关最近邻算法（包括 KD 树）的更多信息。

下面（在函数中using_kdtree) 是一种计算最近邻的大圆弧长的方法scipy.spatial.kdtree https://docs.scipy.org/doc/scipy-0.14.0/reference/generated/scipy.spatial.KDTree.html.

scipy.spatial.kdtree使用点之间的欧几里得距离，但是有一个formula https://en.wikipedia.org/wiki/Great-circle_distance#From_chord_length用于将球体上各点之间的欧几里得弦距离转换为大圆弧长（给定球体的半径）。所以想法是将纬度/经度数据转换为笛卡尔坐标，使用KDTree找到最近的邻居，然后应用大圆距离公式 https://en.wikipedia.org/wiki/Great-circle_distance#From_chord_length以获得所需的结果。

以下是一些基准。使用N = 100, using_kdtree比快 39 倍orig（蛮力）方法。

In [180]: %timeit using_kdtree(data)
100 loops, best of 3: 18.6 ms per loop

In [181]: %timeit using_sklearn(data)
1 loop, best of 3: 214 ms per loop

In [179]: %timeit orig(data)
1 loop, best of 3: 728 ms per loop

For N = 10000:

In [5]: %timeit using_kdtree(data)
1 loop, best of 3: 2.78 s per loop

In [6]: %timeit using_sklearn(data)
1 loop, best of 3: 1min 15s per loop

In [7]: %timeit orig(data)
# untested; too slow

Since using_kdtree is O(N log(N)) and orig is O(N**2)，因数为哪个using_kdtree比orig将成长为N，长度data, grows.

import numpy as np
import scipy.spatial as spatial
import pandas as pd
import sklearn.neighbors as neighbors
from math import radians, cos, sin, asin, sqrt

R = 6367

def using_kdtree(data):
    "Based on https://stackoverflow.com/q/43020919/190597"
    def dist_to_arclength(chord_length):
        """
        https://en.wikipedia.org/wiki/Great-circle_distance
        Convert Euclidean chord length to great circle arc length
        """
        central_angle = 2*np.arcsin(chord_length/(2.0*R)) 
        arclength = R*central_angle
        return arclength

    phi = np.deg2rad(data['Latitude'])
    theta = np.deg2rad(data['Longitude'])
    data['x'] = R * np.cos(phi) * np.cos(theta)
    data['y'] = R * np.cos(phi) * np.sin(theta)
    data['z'] = R * np.sin(phi)
    tree = spatial.KDTree(data[['x', 'y','z']])
    distance, index = tree.query(data[['x', 'y','z']], k=2)
    return dist_to_arclength(distance[:, 1])

def orig(data):
    def distance(lon1, lat1, lon2, lat2):
        """
        Calculate the great circle distance between two points 
        on the earth (specified in decimal degrees)
        """
        # convert decimal degrees to radians 
        lon1, lat1, lon2, lat2 = map(radians, [lon1, lat1, lon2, lat2])
        # haversine formula 
        dlon = lon2 - lon1 
        dlat = lat2 - lat1 
        a = sin(dlat/2.0)**2 + cos(lat1) * cos(lat2) * sin(dlon/2.0)**2
        c = 2 * asin(sqrt(a)) 
        km = R * c
        return km

    shortest_distance = []
    for i in range(len(data)):
        distance1 = []
        for j in range(len(data)):
            if i == j: continue
            distance1.append(distance(data['Longitude'][i], data['Latitude'][i], 
                                      data['Longitude'][j], data['Latitude'][j]))
        shortest_distance.append(min(distance1))
    return shortest_distance


def using_sklearn(data):
    """
    Based on https://stackoverflow.com/a/45127250/190597 (Jonas Adler)
    """
    def distance(p1, p2):
        """
        Calculate the great circle distance between two points
        on the earth (specified in decimal degrees)
        """
        lon1, lat1 = p1
        lon2, lat2 = p2
        # convert decimal degrees to radians
        lon1, lat1, lon2, lat2 = map(np.radians, [lon1, lat1, lon2, lat2])
        # haversine formula
        dlon = lon2 - lon1
        dlat = lat2 - lat1
        a = np.sin(dlat/2)**2 + np.cos(lat1) * np.cos(lat2) * np.sin(dlon/2)**2
        c = 2 * np.arcsin(np.sqrt(a))
        km = R * c
        return km
    points = data[['Longitude', 'Latitude']]
    nbrs = neighbors.NearestNeighbors(n_neighbors=2, metric=distance).fit(points)
    distances, indices = nbrs.kneighbors(points)
    result = distances[:, 1]
    return result

np.random.seed(2017)
N = 1000
data = pd.DataFrame({'Latitude':np.random.uniform(-90,90,size=N), 
                     'Longitude':np.random.uniform(0,360,size=N)})

expected = orig(data)
for func in [using_kdtree, using_sklearn]:
    result = func(data)
    assert np.allclose(expected, result)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

查找数据集中所有点距离最近的点 - Python 的相关文章

在 Pandas 中，如何从基于另一个数据框的数据框中删除行？

我有 2 个数据框一个名为 USERS 另一个名为 EXCLUDE 他们都有一个名为电子邮件的字段基本上我想删除 USERS 中包含 EXCLUDE 中包含电子邮件的每一行我该怎么做您可以使用boolean indexing
使用 Python 创建 MIDI

本质上我正在尝试从头开始创建 MIDI 并将它们放到网上我对不同的语言持开放态度但更喜欢使用Python 两种语言之一如果这有什么区别的话并且想知道我应该使用哪个库提前致谢看起来这就是您正在寻找的适用于 Python 的简单
numpy python 中的“AttributeError：'matrix'对象没有属性'strftime'”错误

我有一个维度为 72000 1 的矩阵该矩阵涉及时间戳我想使用 strftime 如下所示 strftime d m y 为了得到像这样的输出 11 03 02 我有这样一个矩阵 M np matrix timestamps 我使用了
在 python 3 中使用子进程

我使用 subprocess 模块在 python 3 中运行 shell 命令这是我的代码 import subprocess filename somename py in practical i m using a real fil
从 Python 下载/安装 Windows 更新

我正在编写一个脚本来自动安装 Windows 更新我可以将其部署在多台计算机上这样我就不必担心手动更新它们我想用 Python 编写这个但找不到任何关于如何完成此操作的信息我需要知道如何搜索更新下载更新并从 python 脚本安
Pyqt-如何因另一个组合框数据而更改组合框数据？

我有一个表有 4 列这 4 列中的两列是关于功能的一个是特征另一个是子特征在每一列中所有单元格都有组合框我可以在这些单元格中打开txt 我想当我选择电影院作为功能时我只想看到子功能组合框中的电影名称而不是我的数据中的
无故运行测试时 PyCharm 抛出“AttributeError: 'module' object has no attribute”

因此我有一个 Django REST Framework 项目有一天它无法在 PyCharm 中运行测试从命令行我可以使用它们来运行它们paver or the manage py直接地曾经有一段时间当我们没有在文件顶部导入类的超
PyTorch 给出 cuda 运行时错误

我对我的代码做了一些小小的修改以便它不使用 DataParallel and DistributedDataParallel 代码如下 import argparse import os import shutil import time
ImportError：运行 jupyter Notebook 时没有名为 IPython.paths 的模块？

我通过以下方式安装了 jupyter usr local opt python bin python2 7 m pip install jupyter 这将安装 ipython 版本 4 1 2 但是当我运行 jupyter Notebo
小部件之间的自定义信号

尝试将信号从一个 gtk EventBox 子级发送到另一个在 init HeadMode 第 75 行上出现错误类型错误未知信号名称消息发送 why usr bin env python coding utf8 import p
设置 verify_certs=False 但 elasticsearch.Elasticsearch 因证书验证失败而引发 SSL 错误

self host KibanaProxy 自我端口 443 self user 测试 self password 测试我需要禁止证书验证使用选项时它与curl一起使用 k在命令行上但是在使用 Elasticsearch pytho
对使用 importlib.util 导入的对象进行酸洗

我在使用Python的pickle时遇到了一个问题我需要通过将文件路径提供给 importlib util 来加载一些 Python 模块如下所示 import importlib util spec importlib util sp
如何从 JSON 响应重定向？

所以我尝试使用 Flask 和 Javascript 上传器 Dropzone 上传文件并在上传完成后重定向文件上传正常但在烧瓶中使用传统的重定向 return redirect http somesite com 不执行任何操作页面
如何在 Azure 数据工厂 - Databricks 中使用 continuation_token 获取 ADF Pipeline 运行详细信息的下一页？

我在用 adf client pipeline runs query by factory resourceGroupName 工厂名称过滤器参数的方法azure mgmt datafactory DataFactoryManageme
Python：我不明白 sum() 的完整用法

当然我明白你使用 sum 与几个数字然后它总结所有但我正在查看它的文档我发现了这一点 sum iterable start 第二个参数 start 的作用是什么这太尴尬了但我似乎无法通过谷歌找到任何示例并且对于尝试学习该语言的
使用 Conda 更新特定模块会删除大量软件包

我最近开始使用 Anaconda Python 发行版因为它提供了许多开箱即用的数据分析库使用 conda 创建环境和安装软件包也轻而易举但是当我想更新 Python 本身或任何其他模块时我遇到了一些严重的问题我事先被告知我的很多
`pyqt5'错误`元数据生成失败`

我正在尝试安装pyqt5使用带有 M1 芯片和 Python 3 9 12 的 mac 操作系统我怀疑M1芯片可能是原因我收到一个错误metadata generation failed 最小工作示例 directly in the t
在 Spyder 的变量资源管理器中查看局部变量

我是 python 新手正在使用 Spyder 的 IDE 我欣赏它的一项功能是它的变量资源管理器然而根据一些研究我发现它只显示全局变量我找到的解决方法是使用检查模块 import inspect local vars def m
falcon，AttributeError：“API”对象没有属性“create”

我正在尝试测试我的猎鹰路线但测试总是失败而且看起来我把所有事情都做对了 my app py import falcon from resources static import StaticResource api falcon API
导入错误：无法导入名称“时间戳”

我使用以下代码在 python 3 6 3 中成功安装了 ggplot conda install c conda forge ggplot 但是当我使用下面的代码将其导入笔记本时出现错误 from ggplot import Impor

随机推荐

根据浏览器宽度移动背景图像

leavesbg background f7fff7 url images leaves4 png repeat y fixed 480px top 因此如果页面的宽度大于 800 像素我想将背景图像向右移动一半也就是说如果他们以
HSV三角形的公式

不知道下面两个公式是怎么推导出来的请解释一下我的声望点太低了没法去问写公式的人 C 中的 HSV 三角形 https stackoverflow com questions 42531608 hsv triangle in c sha
maven-checkstyle-plugin 无法在 macOS 上使用 google_checks.xml

我有一个 Java Maven 项目我在家里使用 Windows 构建并正确执行了 checkstyle 它使用内置规则集但我也尝试了外部文件查看相同的代码 pom xml 它似乎不适用于 macOS 奇怪的是如果我使用sun che
如何使用 jQuery 选择没有特定类名的元素？

像我这样的突击队怎么可能使用臭名昭著且功能强大的 jQuery Sizzle CSS 和其他所有东西选择器来选择一个没有名为 active 的类的元素我尝试过 a class active etc 但它没有给出足够的结果 a not a
OpenCV 中的相机标定和鸟瞰投影

我已经完成了相机校准现在我想获得棋盘图片的鸟瞰图如下所示但结果很奇怪看起来不是一个正方形你可以看到图3 每个正方形都是7 95x7 95 有人知道为什么吗 gpsPoints 0 Point2f gpsPoints 1 Point
从 VS Code 终端 (Windows 10) 打开 VS Code 中的选定文件夹

我一直在寻找但在使用 VS Code 终端时找不到任何方法来打开 VS Code 中选定的文件夹这可能吗您是否尝试在集成终端所属的同一个 VSCode 实例中打开 Try code r
从新的 Firebase 检索数据

请帮忙迁移到新的 Firebase 后我无法检索数据使用这个结构 let ref FIRDatabase database reference override func viewDidLoad super viewDidLoad r
Spring/Java 错误：命名空间元素“annotation-config”...在 JDK 1.5 及更高版本上

我有 Spring Java 应用程序它是用编译器合规级别 1 5 我下载了一个新的 Linux 设置阿帕奇汤姆猫 8 0 8 我下载了JDK 8u5 我在bash中设置的路径如下 PATH PATH HOME jdk1 8 0 05 b
在Android中压缩带有大图像的pdf

这个问题通过java压缩带有大图像的pdf https stackoverflow com questions 20614350 compress pdf with large images via java给出了在 Java 中使用 iT
您可以同时使用 Protractor 和 Appium 来测试混合应用程序吗？

这是我的场景我有一个基于 Angular JS 构建的网站我能够使用量角器使网站自动化然而在网站上执行的某些操作会反映在 Android 和 IOS 设备中这就是我想要实现的目标像平常一样在网站上运行我的测试但我也想触发命令来
如何通过 .NET 将图像插入 Access OLE 字段

我有一个 Access mdb 数据库我想从 Visual C 2010 开发的应用程序中插入图像图片存储在数据库中的 OLE 对象字段中直接在 Access 中添加图像后它们将以位图图像的格式存储双击这些图片即可在 Access
Cypress - 验证一列中的每个表行是否包含相同的项目

我有一个表但是某种由 DIV 创建的 ag grid 而不是真正的表元素 div div Name 1 div div 25 div div div div Name 1 div div 25 div div 我想验证每个字段是否带有co
有谁知道 CVS 命令行选项来获取上次签入的详细信息？

我在 Windows 上使用 CVS 带有 WinCVS 前端并且希望在构建失败时将上次签入的详细信息添加到我们的自动构建过程中的电子邮件中以便更容易修复我需要知道已更改的文件更改它们的用户以及评论我一直在尝试制定命令行选项但似
来自 links-own 的参数值

我需要帮助所以我想将代理拥有的参数指定为链接拥有的参数值的平均值 frienships own strength household own influence factor to create influence if friendsh
在 Rails 资产管道的 js.coffee 文件中使用 erb 时出错

我有以下代码 assets javascripts home js coffee erb jQuery gt addClickListeners gt document on click add chord link addChord do
C IEEE-Floats inf 等于 inf

在 C 中在使用 IEEE 754 浮点数的实现中当我比较两个 NaN 浮点数时它返回 0 或 false 但是为什么两个都为 inf 的浮点数会被视为相等呢该程序打印 equal 至少在带有 gcc 的 Linux AMD64 下
使用 strtotime() 在 php 中计算相对日期

我正在寻找一种可靠的方法来返回指定工作日例如星期一的完整日期current week 由于今天是 2012 年 6 月 13 日星期三我预计以导致2012 06 11 而是 php 返回2012 06 18好像它解释了本星期作为意义
核心数据：3表连接？

我知道 Core Data 不是数据库有很多区别是这个吗在数据库中我通常会有以下内容 A gt gt B gt gt C A 有很多 B B 有很多 C 查询给我所有具有 c attr X 的 A 很容易写成 select fro
关于 string.c_str() 生命周期

我想知道是否void func const char str 参考有效的str如果我写如下 auto str string hello c str func str 它与下面的代码有何不同 func string hello c str 在
查找数据集中所有点距离最近的点 - Python

我有一个数据集如下 Id Latitude longitude 1 25 42 55 47 2 25 39 55 47 3 24 48 54 38 4 24 51 54 54 我想找到数据集每个点的最近距离我在互联网上找到了以下距离函数

查找数据集中所有点距离最近的点 - Python

查找数据集中所有点距离最近的点 - Python 的相关文章

随机推荐

热门标签