如何使用 NumPy 数组的矢量化来使用 Geopy 库计算大型数据集的测地距离？

2023-11-23

我正在尝试从数据帧计算测地距离，该数据帧由四列纬度和经度数据组成，大约有 300 万行。我使用 apply lambda 方法来完成此任务，但花了 18 分钟才能完成任务。有没有办法将矢量化与 NumPy 数组结合使用来加速计算？谢谢您的回答。

我的代码使用 apply 和 lambda 方法：

from geopy import distance

df['geo_dist'] = df.apply(lambda x: distance.distance(
                              (x['start_latitude'], x['start_longitude']),
                              (x['end_latitude'], x['end_longitude'])).miles, axis=1)

Updates:

我正在尝试这段代码，但它给了我错误：ValueError：具有多个元素的数组的真值不明确。使用 a.any() 或 a.all()。如果有人可以提供帮助，我们将不胜感激。

df['geo_dist'] = distance.distance(
                          (df['start_latitude'].values, df['start_longitude'].values),
                          (df['end_latitude'].values, df['end_longitude'].values)).miles

我想你可能会考虑使用geopandas为此，它是 pandas 的扩展（因此numpy）旨在非常快速地执行这些类型的计算。

具体来说，它有一种计算点集之间距离的方法GeoSeries，它可以是a的一列GeoDataFrame。我相当确定这种方法可以利用numexpr用于矢量化。

它应该看起来像这样，您可以将数据框转换为GeoDataFrame与（至少）两个GeoSeries可用于起点和终点的列。这应该返回一个GeoSeries object:

import pandas as pd
import geopandas as gpd
from shapely.geometry import Point

geometry = [Point(xy) for xy in zip(df.longitude, df.latitude)]
gdf = gpd.GeoDataFrame(df, crs={'init': 'epsg:4326'}, geometry=geometry)

distances = gdf.geometry.distance(gdf.destination_geometry)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

NumPy

Coordinates

vectorization

geopy

如何使用 NumPy 数组的矢量化来使用 Geopy 库计算大型数据集的测地距离？的相关文章

在Python中不断寻找用户输入

我将如何编写一个始终寻找用户输入的 Python 程序我想我希望有一个等于输入的变量然后根据该变量的等于值会发生不同的情况因此如果变量是 w 那么它将执行某个命令并继续执行直到收到另一个输入例如 d 然后会发生不同的情况但直到
如何仅选择数组中的第一列并对其求和？

这是我的代码 import numpy as np contrainte1 1080 0 65 minutes tous les jours contrainte2 720 0 55 minutes du lundi au vendredi
Visual Studio Code：如何使用参数调试 Python 脚本

我正在使用 Visual Studio Code 来调试 Python 脚本下列的本指南 https code visualstudio com docs python debugging 我在中设置了参数launch json file
Seaborn regplot 中点和线的不同颜色

中列出的所有示例西伯恩的regplot文档 https seaborn pydata org generated seaborn regplot html点和回归线显示相同的颜色改变color争论改变了两者如何为点设置与线不同的颜色你
python blpapi安装错误

我试图根据 README 中的说明为 python 安装 blpapi 3 5 5 但是在运行时 python setup py install 我收到以下错误 running install running build running b
Scapy：如何将新层（802.1q）插入现有数据包？

我有一个数据包转储想要将 VLAN 标记 802 1q 标头注入到数据包中怎么做为了找到答案我查看了Scapy 插入新层和记录问题 https stackoverflow com q 17259592 1381638 这确实很有帮
如何使用 numpy 从一维数组创建对角矩阵？

我正在使用 Python 和 numpy 来做线性代数我表演了numpy对矩阵进行 SVD 以获得矩阵 U i 和 V 然而 i 矩阵表示为 1 行的 1x4 矩阵 IE 12 22151125 4 92815942 2 06380839
Python：绘制甘特图的模块

有没有一个好的Python绘图模块甘特图 http en wikipedia org wiki Gantt chart 我试过了开罗情节 http linil wordpress com 2008 09 16 cairoplot 11 但它
Python 中使用 globals() 的原因？

Python 中有 globals 函数的原因是什么它只返回全局变量的字典这些变量已经是全局的所以它们可以在任何地方使用我只是出于好奇而问试图学习Python def F global x x 1 def G print glob
telethon 库：如何通过电话号码添加用户

我正在研究 Telegram 的 Telethon 库它可以使用 Telegram API 充当 Telegram 客户端重要提示这是电报客户端 API https core telegram org telegram api 而不是
TypeError：“NoneType”对象不可下标[重复]

这个问题在这里已经有答案了错误 names curfetchone 0 TypeError NoneType object is not subscriptable 我尝试检查缩进但仍然有错误我读到如果数据库中没有文件名记录变量名
在 Qt 5 中嵌入 Python

我想将 Python 解释器嵌入到 Qt 5 应用程序中我在 Qt 5 中有一个工作应用程序但是当我把 include
Django - 使 ModelForm（ImageField 的）仅接受某些类型的图像

我将 Pillow 2 3 0 与 Django 一起使用并且在 models py 中有一个 ImageField 如下所示 class UserImages models Model user models ForeignKey Us
使用 Python 导入包含文本和数字数据的文件

I have a txt file which has text data and numerical data The first two rows of the file have essential information in te
Django：显示管理员验证错误的自定义错误消息

我正在使用 Django 1 2 4 我有一个模型其中有一个需要验证的字段当验证失败时我想向用户显示自定义错误消息模型编辑是在管理界面中完成的这就是我目前正在做的事情 def clean fields self exclude N
如何输入可变的默认参数

Python 中处理可变默认参数的方法是将它们设置为无 https stackoverflow com a 366430 5049813 例如 def foo bar None bar if bar is None else bar ret
给定一个字符串，如何删除所有重复的连续字母？

如何从字符串中删除两个连续的字母例如 a str hii thherre 应该成为 hi there 我尝试这样做 a str join sorted set a str key a str index 但是我得到 hi ter 是的
Matplotlib：检查空图

我有一个循环加载并绘制一些数据如下所示 import os import numpy as np import matplotlib pyplot as plt for filename in filenames plt figure i
如何从 python 中的字符串中删除 ANSI 转义序列

这是包含我的字符串的片段 ls r n x1b 00m x1b 01 31mexamplefile zip x1b 00m r n x1b 01 31m 该字符串是从我执行的 SSH 命令返回的我无法使用当前状态下的字符串因为它包含 A
具有重复值的 Sqlite 列

就说专栏吧aSQLite 数据库的非常重复始终有相同的 4 个值其他值可能稍后出现但不同值的数量将少于 1000 个 VALUES hello world it s a shame to store this str many tim

随机推荐

在 JBuilder 中生成嵌套 JSON 数组

我在 ruby on Rails 中有这个模型分支模型 has many menus class Branch lt ActiveRecord Base belongs to place belongs to city has many
将字符串转换为 java.util.Stream

有时我想对字符串中的每个字符做一些简单的事情不幸的是因为字符串是不可变的所以除了循环字符串之外没有什么好的方法可以做到这一点这可能非常冗长如果您使用 Stream 它可以做得更短只需一两行有没有办法转换String into
将linux 2.7上的python更新到3.5

所以我使用这些指令更新了 python sudo apt get install build essential checkinstall sudo apt get install libreadline gplv2 dev libncur
抛出异常时抛出异常

这段代码 include
如何检查Azure Blob存储上传是否成功？

我使用 Azure SAS URL 将文件上传到 Blob 存储 var blockBlob new Microsoft WindowsAzure Storage Blob CloudBlockBlob new System Uri sas
Volatile.Read / Volatile.Write 是“双”原子的吗？

MSDN 指出其他类型的读取和写入包括long ulong double and decimal以及用户定义的类型不需要是原子的 C 7 0 规范草案变量 9 6 变量引用的原子性 Will Volatile Write Double
jQuery 创建具有属性差异的元素

发现了一些东西并且正在研究一些关于为什么一种方法有效而另一种方法无效的煽动看起来只是 IE7 的事情但作为 IE7 唉我工作的应用程序仍然需要一些支持在 IE7 中的工作方式 var month jQuery
Symfony form.vars.data 与 form.vars.value

Symfony 中的 FormView 对象包含多个变量可以使用 public 通过 twig 访问这些变量vars财产其中两个变量是value and data 所以假设我们有我们的formtwig 中的变量我们可以使用form
Windows 8 中非零文件的“磁盘大小”为零？

我发现我的磁盘上有一些文件1 实际大小不为零但很小大约500字节2 当您检查其属性时磁盘上的大小显示为零3 如果我把文件变小磁盘上的大小仍然是04 如果我将文件变大即使变大1个字节磁盘上的大小也会变为40965 磁盘未压缩
Python 中 shell 命令的字符串转义[重复]

这个问题在这里已经有答案了我有兴趣转义 Python3 x 中的字符串例如 SOME MACRO a b into SOME MACRO a b 这样它就可以作为定义传递给程序在本例中不是 gcc eg some program DS
发布模式下安全 Rust 中的有符号整数溢出是否被视为未定义行为？

Rust 在调试和发布模式下以不同的方式处理有符号整数溢出当这种情况发生时 Rust 在调试模式下会发生恐慌而在发布模式下则默默地执行二进制补码包装据我所知 C C 将有符号整数溢出视为未定义行为部分原因是在 C 标准化时表示有
在运行时检索 Log4J Appender 列表

是否可以在运行时检索 log4j 中配置的所有附加程序的列表我将进一步充实这个场景给定以下配置我将如何检索所有附加程序 stdout 和 altstdout log4j rootLogger error stdout log4j ap
在 CMake 中使用别名目标

定义 CMake 目标时可以创建别名目标以便别名可用于在后续命令中引用定义的目标例如 add library foo lib foo cpp bar cpp bat cpp add library foo lib ALIAS foo
在 Javascript 对象中使用 $.getJSON() 和回调

我正在尝试设置一个对象以便它具有封装的 getJSON 方法这是我的设置 function Property price deposit this price price this deposit deposit this getMor
引起原因：java.lang.IllegalStateException：没有为此提供程序指定值

我试图从 github 导入一个项目但它显示了此配置问题有人可以建议我该怎么办吗 2019 09 06 19 23 53 953 thread 10 INFO e project sync GradleSyncState Gradle
和
之间有什么区别？

假设我有一组链接我可以使用吗 div 代替 div
通用 CRUD 控制器和视图

我刚刚浏览了 ASP NET 的一些入门教程并且对如何实现简单的 CRUD 管理应用程序有了一个不错的了解是否有任何常用的模式来实现通用列表创建更新删除操作必须为每个模型构建脚手架然后维护所有添加编辑和列表视图和控制器这似
Jspx 文件和条件注释

我想使用 Spring 和 jspx 网页创建一个 Web 应用程序我的问题是如何在 jspx 中添加 IE 的条件注释他们似乎没有被解释另外我希望我的网页是 HTML5 投诉我尝试了一些方法但在 IE9 中遇到不兼容问题似乎无
cURL 错误 35 - 连接到 api.rkd.reuters.com 时出现未知 SSL 协议错误：443

在开发机器 mac 上通过 PHP 中的 cURL 连接到此没有问题但在 Ubuntu 中我收到此错误我已经在本地计算机和 Amazon AWS 实例上尝试过我用谷歌搜索了又搜索但一直遇到砖墙没有防火墙限制这完全是个谜 ph
如何使用 NumPy 数组的矢量化来使用 Geopy 库计算大型数据集的测地距离？

我正在尝试从数据帧计算测地距离该数据帧由四列纬度和经度数据组成大约有 300 万行我使用 apply lambda 方法来完成此任务但花了 18 分钟才能完成任务有没有办法将矢量化与 NumPy 数组结合使用来加速计算谢谢您的回

如何使用 NumPy 数组的矢量化来使用 Geopy 库计算大型数据集的测地距离？

如何使用 NumPy 数组的矢量化来使用 Geopy 库计算大型数据集的测地距离？ 的相关文章

随机推荐

热门标签

如何使用 NumPy 数组的矢量化来使用 Geopy 库计算大型数据集的测地距离？的相关文章