R和spark：比较不同地理点之间的距离

2024-06-23

我正在处理纽约市出租车数据集。该数据集的列包括日期时间、接送纬度/经度、下车纬度/经度等。现在我想对纬度/经度进行反向地理编码以找到行政区/社区。

我有两个数据框。 1）第一个数据框包含我想要用最近的纽约社区名称进行分类的所有点。 2）第二个数据框包含邻域名称及其质心。

我给你看一个小例子。

df_points_to_classify： 单击此处下载原始 csv https://s3.amazonaws.com/nyc-tlc/trip+data/yellow_tripdata_2015-01.csv

     longitude   latitude     
         <dbl>      <dbl>
1    -73.99037   40.73470
2    -73.98078   40.72991
3    -73.98455   40.67957 
4    -73.99347   40.71899

df_neighborhood_names_and_their_centroids： 单击此处下载原始 csv https://data.cityofnewyork.us/City-Government/Neighborhood-Names-GIS/99bc-9p23

            longitude           latitude  neighborhood
                <dbl>              <dbl>         <chr>
1   -73.8472005205491  40.89470517661004     Wakefield 
2  -73.82993910812405  40.87429419303015    Co-op City
3  -73.82780644716419  40.88755567735082   Eastchester 
4  -73.90564259591689 40.895437426903875     Fieldston

要将单个点分配给邻域，我必须计算从该点到每个邻域质心的距离。显然，该点将属于距离最短的邻域。

预期输出包括向要分类的点的数据帧添加一列，其中包含每个点所属的邻域。

预期输出：

     longitude   latitude  neighborhood
         <dbl>      <dbl>         <chr>
1    -73.99037   40.73470     Fieldston
2    -73.98078   40.72991    Co-op City
3    -73.98455   40.67957        etc...
4    -73.99347   40.71899        etc...

我想使用一种计算效率高的方法，因为我要分类的点的数据库非常大（超过一千兆字节）。因此，我在 R 上使用 Spark。文件已通过这种方式加载。

library(sparklyr)
sc <- spark_connect(master = "local")
df_points_to_classify <- spark_read_csv(sc, "D:\df_points_to_classify.csv")

是否可以使用 dplr 来解决这个问题？

编辑：该解决方案在使用 Spark 时不适用，因为以下结果df_points_to_classify$any_variable is NULL

library(spatialrisk)
ans <- purrr::map2_dfr(df_points_to_classify$longitude, 
                       df_points_to_classify$latitude, 
                       ~spatialrisk::points_in_circle(df_neighborhood_names_and_their_centroids, .x, .y, 
                                                      lon = longitude, 
                                                      lat = latitude, 
                                                      radius = 2000000)[1,])

我在下面添加了使用空间风险包的解决方案。该包中的关键函数是用 C++ (Rcpp) 编写的，因此速度非常快。

首先，加载数据：

df1 <- data.frame(longitude = c(-73.99037, -73.98078, -73.98455, -73.99347), 
                  latitude = c(40.73470, 40.72991, 40.67957, 40.71899))

df2 <- data.frame(longitude = c(-73.8472005205491, -73.82993910812405, -73.82780644716419, -73.90564259591689), 
                  latitude = c(40.89470517661004, 40.87429419303015, 40.88755567735082, 40.895437426903875), 
                  neighborhood = c("Wakefield", "Co-op City", "Eastchester", "Fieldston"))

函数spatialrisk::points_in_circle()计算以中心点为中心的半径内的观测值。请注意，距离是使用半正弦公式计算的。由于输出的每个元素都是一个数据帧，因此 purrr::map_dfr 用于将它们行绑定在一起：

ans <- purrr::map2_dfr(df1$longitude, 
                       df1$latitude, 
                       ~spatialrisk::points_in_circle(df2, .x, .y, 
                                                      lon = longitude, 
                                                      lat = latitude, 
                                                      radius = 2000000)[1,])


cbind(df1, ans)

 longitude latitude longitude latitude neighborhood distance_m
1 -73.99037 40.73470 -73.90564 40.89544    Fieldston   19264.50
2 -73.98078 40.72991 -73.90564 40.89544    Fieldston   19483.54
3 -73.98455 40.67957 -73.90564 40.89544    Fieldston   24933.59
4 -73.99347 40.71899 -73.90564 40.89544    Fieldston   20989.84

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

R和spark：比较不同地理点之间的距离的相关文章

如何重新格式化数据并映射它？

假设我有数据其中列名称是城市行名称是经度和纬度 Columbus Nashville Austin Washington D C London Manchester lon 82 99879 86 7816 97 74306 77 03
为什么流式聚合总是延迟到两批数据？

我使用 Spark 2 3 0 我的问题是每当我在输入目录中添加第三批数据时第一批数据就会被处理并打印到控制台为什么 val spark SparkSession builder appName micro1 enableHiveSu
计算网络中的周期

最好的方法是什么或者是否有任何方法可以实现对网络中的 3 个和 4 个周期进行计数 3 个周期等于从一个模式网络计算的三个节点三角形的连接组 4 个周期等于由两个模式网络计算的四个节点方块的连接组如果我有这样的网络 onemod
在 heatmap.2 中将行标签设置为斜体

我正在尝试使用 R 函数将行标签设置为斜体heatmap 2 没有默认选项我无法通过设置找到解决方法par font 3 例如如何将行标签设置为斜体heatmap 2 set seed 123 data matrix sample 10
如何使用R在csv文件中按列添加数据？

我有向量中包含的信息例如 sequence1 lt seq 1 20 sequence2 lt seq 21 40 我想将该数据附加到文件中所以我使用 write table sequence1 file test csv sep ap
使用地理位置按钮检索当前位置和邮政编码

我想放置一个Geolocation button靠近我的UISearchBar 点击后它应该返回 zip 例如 20043 我将使用 ZIP 中的值来获取我附近的建筑物列表如果有人可以帮助我使用位置按钮以及实现仅返回 ZIP 的方法是
使用 dplyr::mutate 重新编码而不在函数中工作

我正在尝试使用dplyr mutate across 重新编码 a 中的指定列tbl 单独使用它们效果很好但我无法让它们在函数中工作 library dplyr library tidyr df1 lt tibble Q7 1 1 5 Q
库存推文、文本挖掘、表情符号错误

我希望您能够协助进行文本挖掘练习我对 AAPL 推文感兴趣并且能够从 API 中提取 500 条推文我自己克服了几个障碍但最后一部分需要帮助由于某种原因 tm 包没有删除停用词您能看一下可能是什么问题吗表情符号会引起问题吗绘
R：在 glm() 中的逻辑回归中预测 (0,1)

我正在尝试在二进制 Logit 模型中模拟假设情况我正在估计通过测试的概率考虑到测试的难度级别 1 最简单 5 最难并以性别为控制数据是here http dl dropbox com u 1791181 bayesglm cs
更改分配新变量的默认环境

我经常想在全局环境下的一个环境中创建很多变量这可以通过以下方式轻松完成envir论证sys source 如果由正在获取的文件创建的所有变量都应该进入单个环境但我通常使用创建变量集的文件一组应该进入一个环境另一组应该进入另一个环境
将最新的 R 安装路径从注册表添加到 PATH windows 7/8/10

嗨我是 Windows 批处理新手我想向打电话的同事分发一个 runMe bat 文件Rscript myRfile R处理一些数据文件但众所周知我的同事在不同地方安装了 R 我不能指望他们知道如何将 Rscript 添加到 PAT
R 中循环函数返回什么值

我正在阅读 R 语言手册想知道循环函数返回什么值手册第 3 3 2 节循环中说三个语句 for while repeat 中的每一个都返回最后计算的语句的值循环语句的返回值始终为 NULL 并且是不可见返回的那么返回什么值 NUL
按组连接/粘贴列并添加到原始数据

我有一个名称数据框名称按部门分组 Dept Date Name 30 07 DEC 02 Raphaely 30 18 MAY 03 Khoo 40 07 JUN 02 Mavris 50 01 MAY 03 Kaufling 50
求R中3列中每一行的最大值

我需要计算 3 列中每行的最大值一个表可以是 x c 1 2 3 4 5 y c 2 3 3 1 1 z c 4 3 2 1 1 df lt data frame x y z 我需要得到 x y z max 1 1 2 4 4 2 2 3
R 数据框中的重复行

我正在尝试使用下面的代码复制数据框中的行但是我发现它很慢 duprow df 1 for i in 1 2000 print i df rbind df duprow 有更快的方法吗您可以使用rep 例如对于数据框第 1 行的 5 个
在 R 中调用“boot”时没有数据

我有一个包含很多列的数据框第一列包含系统 1 系统 2 等类别第二列包含代表 0 和 1 的数字请看下面例如 SYSTEM Q1 Q2 S1 0 1 S1 1 0 S2 1 1 S2 0 0 S2 1 1 我在 R 中有这段代码来
按组渐进串联列[重复]

这个问题在这里已经有答案了假设我有这个输入 ID date 1 date 2 str 1 1 2010 07 04 2008 01 20 A 2 2 2015 07 01 2011 08 31 C 3 3 2015 03 06 2013
如何在R中绘制堆积柱形图？

有谁知道如何使用 R 绘制由超过 1 个变量堆叠的列的直方图就像excel中的堆积柱形图一样谢谢你我假设您确实想要一个条形图而不是直方图在这种情况下 barplot从标准图形或barchart格子包中的两者都可以做到或者使用
根据值绘制具有条件颜色的折线图

我想绘制折线图根据值它应该改变它的颜色我发现的是 plot sin seq from 1 to 10 by 0 1 type p col ifelse sin seq from 1 to 10 by 0 1 gt 0 5 red ye
合并共享属性的节点

EDITED 我真的需要 Networkx graph 专家的帮助假设我有以下数据框我想将这些数据框转换为图表然后我想根据描述和优先级属性将两个图映射到相应的节点 df1 From description To priority 10

随机推荐

在 VC++ 中从 MSI（数据库）查找文件路径

我需要计算 MSI 中文件的相对路径目前我正在查询File表获取FileName对应的Component 然后我使用此组件来查询组件表并找到 Directory 接下来我使用这个Directory 来查询Directory表并找到D
Mockito.when().thenReturn() 不起作用或返回 null

测试期间抛出 NullPointerException 我尝试调试它但我唯一解决的问题是 eventOptional 始终为 null 就像 Mockito when thenReturn 不起作用一样有人可以帮忙吗这是我的经过测试的
用于实验协议设计和开发的工具？

是否有任何开源的高级工具可以使用 GUI 促进和简化实验网络协议 TCP UDP 的开发基本上类似于动态状态机编辑器它允许您定义数据包消息状态验证器处理程序等最好这样的工具足够全面足以处理协议的所有相关方面即客户端
php中使用Curl读取Cookie，如何操作？

我正在连接到一个 API 服务该服务使用 cookie 对用户进行身份验证我从命令提示符处发出这两条语句并且它有效 curl d u username p password c cookiejar https domain login
如何用R删除字符串中的重复字符？

我想实现一个功能R删除字符串中的重复字符例如假设我的函数名为removeRS 所以它应该这样工作 removeRS Buenaaaaaaaaa Suerrrrte Buena Suerte removeRS Hoy estoy tris
反应 | Ant design select值未设置

我正在尝试将全选取消全选添加到 React Antd 的 SELECT 组件中 My code const models A4 A6 A8 A1 Q3 Q5 const selected setSelected useState mo
交叉编译 - 检索目标 CPU 和版本

我正在使用 cmake 交叉编译 VxWorks 当我第一次运行 cmake 时我必须提供有关编译器目标操作系统等的信息在交叉编译对话框中我设置了三个目标系统设置操作系统 Version 处理器后面是编译器等虽然我可以使用检索
如何在 pygame 中制作一个进入网站的按钮？

我的 pygame 中有一个 Credits 菜单我想制作一些可以访问某些网站的按钮我的意思是当单击按钮时它应该打开例如 GitHub 或任何链接有什么方法可以实现这个目标吗实施一个Button类并使用网页浏览器 https
如何在 C# 中比较两个 list
并仅保留不重复的项目？
这里有两个列表 var list1 new List

如何为 ASP.NET Mvc 缓存数据库中的大量数据

我的网站使用 linq to sql 从数据库加载大约 50k 行数据该数据是静态的并且永远不会改变它的工作原理类似于垃圾邮件过滤器需要加载所有 50k 行模式对此进行编程的最佳方法是什么以获得最佳性能将整个数据加载到单个静态只

如何根据列名子集的成对组合创建新的数据表？

我正在尝试定义一个函数该函数将数据框或表作为具有特定数量的 ID 列例如 2 或 3 个 ID 列的输入其余列是 NAME1 NAME2 NAMEK 数字列输出应该是一个数据表其中包含与之前相同的 ID 列以及一个附加 ID 列

PostgreSQL 中的用户定义变量

我有以下 MySQL 脚本我想在 PostgreSQL 中实现 SET statement search address query PREPARE dynquery FROM statement EXECUTE dynquery DEA

如何在javascript中将字符串转换为long？

我有一个毫秒时间戳需要将其从字符串转换为长整数 JavaScript 有一个parseInt但不是parseLong 那么我该怎么做呢稍微扩展一下我的问题鉴于 JavaScript 显然没有 long 类型我如何使用最初表示为字符串

Java 中的原子整数和普通不可变整数类有什么区别？

由于 Integer 类也是不可变类并且我们知道不可变类是线程安全的因此原子整数需要什么我很困惑这是否是不可变对象的读取和写入不需要是原子的而原子整数的读取和写入是原子的原因这意味着原子类也是线程安全的当您需要确保只有一个线程

“你可能认识的人”sql查询

我正在开发你可能认识的人功能我有两张桌子 USERS id email name etc 友谊 user id朋友ID 对于每段友谊我都会做两条记录假设用户 7 和 9 成为朋友我会在友谊表中创建一条记录其中 user id

OpenCV/FFMpeg 图像捕获问题

我正在尝试从网络摄像机实时捕获图像该流在 VLC 中运行得很好但 OpenCV 的cvQueryFrame 似乎使传入的图像变得混乱和损坏以至于无法识别同样从文件捕获可以正常工作但实时流则不行为了以防万一我使用了 rtsp

如何从浏览器接收“共享 URL”？

我读过这个如何在 Android 中处理浏览器的共享页面意图 https stackoverflow com questions 2886556 how do i handle the browsers share page inte

ASP.net MVC 核心 RedirectToPage 错误 - 指定根相对路径错误

我想从正常的控制器操作重定向到剃刀页面如下所示 return RedirectToPage Edit new id blogId I have already a razor page named Edit which is workin

Physijs加载模型三.js碰撞不起作用

当我使用 JSONLoader 加载模型地图时出现冲突问题如果我使用 BoxMesh 加载它可以工作但几何碰撞就像一个立方体而我的模型不是立方体模型的中间是空的我将另一个对象立方体放在地图的顶部该对象停在该地图的顶部

R和spark：比较不同地理点之间的距离

我正在处理纽约市出租车数据集该数据集的列包括日期时间接送纬度经度下车纬度经度等现在我想对纬度经度进行反向地理编码以找到行政区社区我有两个数据框 1 第一个数据框包含我想要用最近的纽约社区名称进行分类的所有点 2 第二个数据
热门标签

hypermesh

车贴服务器维修

服务器共享设置密码

页面中直接播放

轻松实现在

方差公式

新建环境

EXPR

MARKER

服务器分几个虚拟主机

三菱伺服驱动器示例

按键中断控制蜂鸣器

来构建应用程序

读取大文件目录

下远程管理

远程管理方法

苹果闪退解决方法

语言调用

goqt
Powered by Hwhale

R和spark：比较不同地理点之间的距离

R和spark：比较不同地理点之间的距离 的相关文章

随机推荐

热门标签

R和spark：比较不同地理点之间的距离的相关文章