如何连接位置数据（纬度、经度）

2024-03-03

我必须数据集，一个包含某个位置（经纬度），即测试，另一个包含纽约市所有邮政编码的纬度/经度信息，即 test2。

test <- structure(list(trip_count = 1:10, dropoff_longitude = c(-73.959862, 
                                                        -73.882202, -73.934113, -73.992203, -74.00563, -73.975189, -73.97448, 
                                                        -73.974838, -73.981377, -73.955093), dropoff_latitude = c(40.773617, 
                                                                                                                  40.744175, 40.715923, 40.749203, 40.726158, 40.729824, 40.763599, 
                                                                                                                  40.754135, 40.759987, 40.765224)), row.names = c(NA, -10L), class = c("tbl_df", 
                                                                                                                                                                                        "tbl", "data.frame"))
test2 <- structure(list(latitude = c(40.853017, 40.791586, 40.762174, 
40.706903, 40.825727, 40.739022, 40.750824, 40.673138, 40.815559, 
40.754591), longitude = c(-73.91214, -73.94575, -73.94917, -73.82973, 
-73.81752, -73.98205, -73.99289, -73.81443, -73.90771, -73.976238
), borough = c("Bronx", "Manhattan", "Manhattan", "Queens", "Bronx", 
"Manhattan", "Manhattan", "Queens", "Bronx", "Manhattan")), class = "data.frame", row.names = c(NA, 
-10L))

我现在尝试加入这两个数据集，以便最终每个trip_count我得到一个borough。到目前为止我用过difference_left_join对于这样的：

test %>% fuzzyjoin::difference_left_join(test2,by = c("dropoff_longitude" = "longitude" , "dropoff_latitude" = "latitude"), max_dist = 0.01)

尽管这种方法有效，但随着数据集变大，这种连接会创建很多多个匹配项，因此我最终得到的数据集有时是初始数据集的十倍test。有没有人有不同的方法来解决这个问题而不创建多个匹配？或者有什么方法可以强制连接始终只对每一行使用一个匹配项test？我将非常感激！

EDIT: 解决这个问题R dplyr left join - 多个返回值和新行：如何仅询问第一个匹配项？ https://stackoverflow.com/questions/42431974/r-dplyr-left-join-multiple-returned-values-and-new-rows-how-to-ask-for-the-fi也能解决我的问题。所以也许你们中的一个人对此有一个想法！

你可以你geo_join函数并返回匹配项之间的距离，然后过滤到最接近的匹配项。

library(fuzzyjoin)
library(dplyr)

answer <-geo_left_join(test, test2, by = c("dropoff_longitude" = "longitude" , "dropoff_latitude" = "latitude"), 
                   max_dist = 2, distance_col = "dist") %>% 
         select(-"longitude", -"latitude")

answer  %>% group_by(trip_count) %>% slice_min(dist)

您可能需要向下调整“max_dist”的值以减少匹配数，这应该会提高性能，但可能会生成过多的 NA。

Update
四舍五入到小数点后 3 位最多为 70 米/230 英尺偏移。四舍五入到更少的小数位数会减少唯一点的数量，但会增加最大偏移量。

以下是我如何处理舍入下车位置并执行连接的方法。它增加了复杂性，但可能有助于解决内存问题。我还没有考虑过group_by在这里起作用，但这也可以工作。

#create a unique id for each rounded lon & lat
test$hash <-paste(round(test$dropoff_longitude, 3), round(test$dropoff_latitude, 3))
#the unique ids
uniques <- which(!duplicated(test$hash))
#create a reduced size data frame 
reduced <- data.frame(hash= test$hash, 
                      dropoff_longitude = round(test$dropoff_longitude, 3), 
                      dropoff_latitude = round(test$dropoff_latitude, 3))[uniques,]

#Preform matching here
#using the formula above or something else.
# adding the matched column onto the reduced dataframe
    reduced$matched <- letters[1:nrow(reduced)]
#this example is just adding on a column of letters

#merge back to the original adata set
test %>% left_join(reduced[ , c("hash", "matched")], by=("hash"))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何连接位置数据（纬度、经度）的相关文章

在 R 中将多个回归表输出到 Word 文档的多个页面中

我的目标是创建一个多页 Microsoft Word 文档在连续页面上包含许多格式化回归表输出理想情况下这可以使用 R Markdown 来完成我很幸运地使用Word在Word中制作了格式良好的回归表sjPlot tab model
在单词后获取文本——R Webscraping

几周前这里有人帮助我极大地获得了名人数据库中所有链接的列表我能够运行此代码并获得以下输出 library purrr library rvest url base lt https www nndb com lists 494 0000
如何在 R 中创建 for 循环来进行这种特殊的计算

我无法弄清楚这种显然简单的操作给定这两个不同的数据框df A nrow 10 ncol 3 和df B n行 3 n列 3 df A df B col1 col2 col3 col1 col2 col3 1 2 4 1 4 5 3 5
使用ggmap在地图上绘制等高线

我有洛杉矶港地区的颗粒物浓度差异之后之前我正在尝试使用 ggmap 在地图上绘制浓度等值线但结果看起来很不同我使用的代码如下所示数据位于代码下方 Code 安装 packages ggmap library ggmap PM r
在 R 中从一条线偏移绘制一条平行线

我有代表沿着一些街道行驶的线串但我实际上想代表骑自行车者的旅程它偏离线路即他们在路边附近行驶我正在努力思考如何去做我制作了一段可重现的 R 代码来进行说明 Let s say I have a route along some s
R：将多列转换为单列[重复]

这个问题在这里已经有答案了我有一个看起来像这样的数据框 ID week1 t week1 a week2 t week2 a 1 12 22 17 4 1 15 32 18 5 1 24 12 29 6 2 45 11
使用 glmnet 和 lm 的普通最小二乘法

这个问题是在stackoverflow com q 38378118 https stackoverflow com q 38378118但没有得到满意的答复 0 的 LASSO 相当于普通最小二乘法但对于以下情况似乎并非如此glmnet
如何将数据框随机分成三个具有给定行数的较小数据框

使用 R 我想将一个数据帧随机拆分为三个较小的数据帧第一个占总观测值的 80 第二个和第三个分别占总观测值的 15 和 5 三个数据框不能有任何重叠你有什么建议吗这是一个快速函数可以根据您在 props 参数中指定的值的数量分成任意
将模拟泊松分布添加到 ggplot

我做了泊松回归然后可视化模型 library ggplot2 year lt 1990 2010 count lt c 29 8 13 3 20 14 18 15 10 19 17 18 24 47 52 24 25 24 31 56 4
在 R 中绘制非常大的数据集

如何在 R 中绘制非常大的数据集我想使用箱线图小提琴图或类似的图内存中无法容纳所有数据我可以逐步读入并计算制作这些图所需的摘要吗如果是这样怎么办作为对我的评论的补充德米特里回答 https stackoverflow com q
data.frame 不会破坏列名

有没有办法使用 data frame 而不破坏列名我有以下结构 Canon PowerShot 1 9 997803e 01 9 997318e 01 3 327920e 01 3 327920e 01 9 988220e 01 6 4
rbind 命名向量到不同长度的矩阵

我正在尝试将命名向量绑定到矩阵上命名向量的长度与矩阵不同 gt m lt matrix data c 1 2 3 nrow 1 ncol 3 dimnames list c c column 1 column 2 column 3 gt
如何识别 R 中行的镜像重复项

在下面的SO帖子中如何识别 R 中行的部分重复项 https stackoverflow com questions 54661129 how to identify partial duplicates of rows in r 5466
如何为每个分组元素选择随机的非连续日期？

我目前正在尝试为每个分组列选择非连续日期换句话说我有以下数据框我基本上想group by Site 然后为每个分组站点仅保留 3 个随机非连续日期例如如果 HP37P1B 的日期对应于 3 月 12 日 3 月 13 日 3 月
将第一行粘贴到列表中的列名称

我有 68 个数据文件全部具有相同的标识符但具有不同的指示符我将这些单独的文件转换为一个列表其中每个数据框作为一个单独的元素每个数据框的第一行是年份我想将其粘贴到列名称中我希望能够用分隔它例如现在列名称为 Arbeits
多维数组到数据框

R 中的以下问题对你们中的许多人来说可能看起来很简单但由于我对此相对较新如果您能帮助我那将非常有帮助我想本质上编写一个多维 3 个维度数组作为我可以更轻松地操作的数据框我正在处理 1891 年 1 月 1 日至 2015 年 1
使用 R 实现具有不同距离度量的 KNN

我正在研究一个数据集以便比较不同距离度量的效果我正在使用KNN算法 R中的KNN算法默认使用欧几里德距离所以我写了自己的一个我想找到最近邻居和目标之间正确的类标签匹配的数量我一开始就准备好了资料然后我调用数据 wdbc n 我选
在 r 中使用 reprex 包创建可重现的示例，其中正在读取本地文件

我经常使用reprex reprex创建可重复的示例R代码以获得其他人的帮助以消除我的代码中的错误通常我使用数据集创建最小的示例例如iris or mtcars而且效果很好但我总是无法使用reprex任何时候我需要使用我的own数据
关于使用outer()和用户定义函数的简单问题？

gt fun1 lt function x y x y gt outer seq 1 5 length 5 seq 6 10 length 5 fun1 1 2 3 4 5 1 7 8 9 10 11 2 8 9 10 11 12 3 9
R ggplot2：stat_count() 不得与条形图中的 y 美学错误一起使用

我在绘制条形图时遇到此错误并且无法摆脱它我已经尝试了 qplot 和 ggplot 但仍然出现相同的错误以下是我的代码 library dplyr library ggplot2 Investigate data further to

随机推荐

读取文件中的值，循环直到 value = $foo?

我正在编写一个用于 grep 的 shell 脚本 foo然后计算出现的次数然后运行命令每次运行该命令时该文件中都会减少一个 foo 实例不确定如何连续读取该文件并减少我设置的变量中的值 count grep o foo some
是否有在线模拟屏幕阅读器工具来测试自定义网页？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我们关心我们网站的可访问性并想看看普通屏幕阅读器如何感知和解码它不至少没有任何好处也不代表屏幕阅
Google 地图可以设置为缓慢持续平移吗？就像一场全球革命？

正如标题所说我正在寻找解决方案但没有找到任何可以引导我找到正确文档或文章的内容如果您有任何想法或可以向我指出一个可以使用的可能解决方案我将不胜感激 Thanks 你可以自己这样做 Use setInterval https deve
OpenGL 实现多通道

我在移植一些已成功实现的代码时遇到问题着色玩具 https www shadertoy com view XdyfWK对于桌面 OpenGL 问题是我需要创建一个 FrameBufferObject FBO 以便我可以进行离屏计算稍后将其
VB.NET ArrayList 到 List(Of T) 类型复制/转换

我有一个返回旧式 ArrayList 的第 3 方方法我想将其转换为类型化 ArrayList Of MyType Dim udc As ArrayList ThirdPartyClass GetValues Dim udcT AS Li
如何获取特定日期的唯一客户和重复客户每天的客户数量？

我试图从我的订单表中获取结果以获取第一次订购和重复订单的客户数量列表像下面这样的东西 Date 1st time time repeat order 2014 09 01 43 90 2014 09 02 3 45 2014 09 03
由于 ISAPI 报告不健康状况，ASP Net Core 应用程序被回收

我收到系统事件日志条目 An ISAPI reported an unhealthy condition to its worker process Therefore the worker process with process id
.NET 生产代码中的“Assert”语句

离开是否明智Trace Assert and Debug Assert代码中的语句是否稳定并且已移至测试和生产环境中如果是这样这些断言语句有何帮助让 Guard 类等检查异常情况并适当引发异常还不够吗调试断言 http msdn
MYSQL：带有 if 语句的过程

我正在尝试制定一个例程首先检查用户密码如果正确它将从不同的表返回一些值或连续更改一些值如果不进行在 PHP 中处理的两个查询这是否可能首先要求输入密码检查密码是否正确然后允许用户更改名称下面是使用电子邮件和密码获取用户中的
SCRIPT5：由于 Wordpress 中的 jQuery.min CDN 文件，IE9 上的访问被拒绝

我读过很多关于 SCRIPT5 IE9 中的访问被拒绝问题的其他文章但据我所知这篇文章有点不同我不太确定为什么会发生这种情况使用标准 2011 主题安装 Wordpress 3 4 1 时会出现这种情况我使用以下函数将脚本排入队列
Bash 脚本中的反引号和 $() 有什么区别？ [复制]

这个问题在这里已经有答案了我在 Bash 脚本中看到两种不同的形式它们的作用似乎相同 some command and some command 两者有什么区别什么时候应该使用它们没有任何语义差异反引号语法是较旧且功能较弱的版本
如何正确使用 Alexa Skill 中的异步函数？

我对异步编程非常陌生所以请原谅我缺乏理解但我目前正在构建一个调用私人停车 API 的 Alexa 技能您可以调用该API 它会为您提供最近的停车位 const getParkingSpots Handler canHandle han
如何设置夜间模式绘图以按预期工作

我如何随着夜间模式的变化而改变背景我有 values 和 values night 文件夹其中包含具有不同值的 colors xml
了解 MVC 中的模型类与数据类

多年来我一直使用 Webforms 开发 ASP Net 应用程序并且完成了一些 MVC 应用程序但从未真正完整地使用过该框架这是由于大多数项目的时间限制虽然我使用的是 MVC 结构但我仍然使用旧的方法即不使用 Html Be
ggplot2图例不出现的原因[重复]

这个问题在这里已经有答案了我试图失败在我的 R ggplot2 图中显示一个涉及多个图的图例我的数据框df代码如下 Individuals Mod 2 Mod 1 Mod 3 1 2 0 013473145 0 010859793
php 只处理第一个空白的爆炸函数

我有一个字符串Hello This is a String 我只需要在 PHP 中将其分解为第一个White Space 这怎么可能 set limit范围 print r explode str 2 Reference http php
SQL Server 碎片问题

我的数据库中有几个表 User 和 UserRecord 它们变得极其碎片化例如 99 导致整个数据库以及网站陷入瘫痪 UserRecord 有点像该用户在某个时间点的快照用户就像该用户的主记录用户有 0 到多个 UserRecord
自定义 STL 序列的最小嵌套 typedef 集？

应在满足序列概念的自定义 STL 类中定义的最小嵌套 typedef 集是什么自定义序列应兼容 std back insert iterator http www sgi com tech stl front insert iterato
从 Apple Developer Portal 中删除开发者证书

我错误地在我的 Apple 开发者帐户上创建了开发者证书现在我想从门户中删除它但我不喜欢任何方法来删除它您能给我一个如何从苹果开发者门户删除证书的想法建议吗如果您错误地创建了证书或者想要重置证书您可以从 Apple Develo
如何连接位置数据（纬度、经度）

我必须数据集一个包含某个位置经纬度即测试另一个包含纽约市所有邮政编码的纬度经度信息即 test2 test lt structure list trip count 1 10 dropoff longitude c 73 959

如何连接位置数据（纬度、经度）

如何连接位置数据（纬度、经度） 的相关文章

随机推荐

热门标签

如何连接位置数据（纬度、经度）的相关文章