在 R SF 中交叉大型空间数据集

2024-02-18

我有两个空间数据集。一个数据集包含许多多边形（总共超过 150k），指定不同的特征，如河流、植被。另一个数据集包含更少的指定不同区域的多边形 (500)。我需要将这两个数据集相交以获得不同区域的特征。我可以根据不同的特征对第一个数据集进行子集化。如果我使用小要素（2,500 个多边形）的子集，与区域的相交速度相当快（5 分钟）。但如果我想要更大的特征子集（20,000 个多边形），计算会运行很长时间（我在两个小时后终止了它）。这甚至不是我需要相交的最大特征（50,000 个多边形）。

这是我运行的代码片段：

    clean_intersect_save = function(geo_features, areas) {

  # make geometries valid
  data_valid_geoms = st_parallel(sf_df = st_geometry(geo_features), 
                                 sf_func = st_make_valid, 
                                 n_cores = 4)

  # remove unnecessary columns
  data_valid = st_drop_geometry(x) %>% select("feature")
  data_valid = st_sf(data_clean, geometry = data_valid_geoms)

  # intersect the geo-features and areas
  data_valid_split = st_parallel(sf_df = bezirke, 
                                 sf_func = st_intersection, 
                                 n_cores = 4,
                                 data_clean)

  # save shp file
  st_write(data_valid_split, "data_valid_splir.shp")

  return(data_valid_split)
}

其中两个输入都是 sf 数据帧。 st_parallel是我发现的一个函数here https://www.spatialanalytics.co.nz/post/2017/09/11/a-parallel-function-for-spatial-analysis-in-r/.

我的问题是：经验丰富的空间数据人员通常如何解决这样的任务？我只需要更多的核心和/或更耐心吗？我用sf错了吗？ R/sf 是错误的工具吗？

谢谢你的帮助。这是我的第一个空间数据分析项目，如果我监督了一些明显的想法，我很抱歉。

由于这个模糊的问题可能不会有真正的答案，我会自己回答。

感谢@Chris 和@TimSalabim 的帮助。我最终结合了这两种想法。

我最终使用了 PostGIS，根据我的经验，这是一种处理空间数据的非常直观的方式。对我来说加快交集计算速度的三件事是：

在我的追逐中，从 shapefile 加载时，空间数据存储在 MULTIPOLYGONS 中。我使用 ST_DUMP 将它们扩展为 POLYGONS：https://postgis.net/docs/ST_Dump.html https://postgis.net/docs/ST_Dump.html
我在多边形上创建了一个空间索引：https://postgis.net/workshops/postgis-intro/indexing.html https://postgis.net/workshops/postgis-intro/indexing.html
我使用 ST_Intersection 和 ST_Intersects 的组合，仅在真正需要时调用昂贵的 ST_Intersection （正如 @TimSalabim 建议的那样，这种方法也可以加快 R 中的速度......但我目前没有时间测试这种方法）：https://postgis.net/2014/03/14/tip_intersection_faster/ https://postgis.net/2014/03/14/tip_intersection_faster/

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在 R SF 中交叉大型空间数据集的相关文章

如何确定地址是否在地图上的某些边界内？

我正在对此进行一些初步研究但我对这个主题知之甚少我需要创建一个解决方案可以获取一个地址然后确定该地址是否在某些预定义的边界内可能是一系列相连的街道有人对从哪里开始有一些建议吗首先您需要对地址进行地理编码 http code
在闪亮的应用程序和多个页面中进行身份验证

在我正在开发的系统中我有 3 个不同的参与者用户管理员支持团队使用 Shiny App 我想知道如何向这三个参与者进行身份验证每个参与者只能访问他们的页面我发现使用闪亮的服务器专业版可以实现这一点但它不是免费的有什么方法可
在 Bookdown 中呈现附录图号

Bookdown 是一个很棒的软件包我期待看到它如何发展但现在我在渲染数字方面遇到了麻烦pdf document2附录中的数字时的格式具体来说当带有标题的图形位于附录中时图形编号应采用 A 1 A 2 B 1 B 2 等形式但图
在knitr中打印漂亮的交叉表

我想要的是使用 R Markdown 和 knit 从 RStudio 打印漂亮的交叉表无论是在 pdf 文件中还是在 html 文件中我怀疑我错过了一些非常明显的东西因为我不敢相信这是如此困难我使用 xtabs 或 ftable
完全缺失列的 VaR 计算

我需要计算股票收益的滚动 VaR 从这篇文章使用rollapply函数使用R进行VaR计算 https stackoverflow com questions 25045612 using rollapply function for v
在R中绘制3x3方形网格

我得到了一个数字列表 n 9 想将它们画在一个 3 3 的正方形网格中每个网格填充相应的数字我如何在 R 中执行此操作而不安装额外的软件包例如情节非常感谢这里有一个ggplot解决方案比我预期的要难一点 Setup the dat
如何在ggplot2中使用希腊符号？

我的类别需要用希腊字母命名我在用ggplot2 并且它与数据配合得很好不幸的是我无法弄清楚如何将这些希腊符号放在 x 轴上在刻度线处并使它们出现在图例中有什么办法可以做到吗更新我看了一下link https github c
如何更改 Quarto pptx 中的字体格式

我正在 R 中使用 Quarto 创建 pptx 要更改我尝试更改的默认字体格式mainfont范围但是当我渲染它时最终的 pptx 文件具有默认字体 Calibri 这是我的文件 YAML 将 Quarto 文件渲染为 pptx 时如
（R 错误）错误：cons 内存耗尽（达到限制？）

我正在处理大数据并且有一个 70GB 的 JSON 文件我正在使用 jsonlite 库将文件加载到内存中我尝试过 AWS EC2 x1 16large 机器 976 GB RAM 来执行此负载但 R 因错误而中断 Error co
使 matplotlib 图形默认看起来像 R？

Is there a way to make matplotlib behave identically to R or almost like R in terms of plotting defaults For example R t
以计数矩阵作为响应的多项式

根据帮助multinom 包裹nnet 响应应该是一个因子或具有 K 列的矩阵它将被解释为每个 K 类的计数我尝试在第二种情况下使用此函数但出现错误这是我所做的示例代码 response lt matrix round runif
如何获得 R 帮助？

R 包可能有哪些可用文档例如我尝试理解sp包裹此外help sp 还有哪些用于搜索帮助和文档的其他功能获取有关您知道其名称的函数的帮助 Use http www inside r org r doc utils Question或者
数据表中的 NA

我有一个data table其中包含一些组我对每个组进行操作有些组返回数字其他组返回NA 因为某些原因data table很难将所有东西重新组合在一起这是一个错误还是我误解了这是一个例子 dtb lt data table a 1
粘贴两个 data.table 列

dt lt data table L 1 5 A letters 7 11 B letters 12 16 L A B 1 1 g l 2 2 h m 3 3 i n 4 4 j o 5 5 k p 现在我想粘贴列 A 和 B 以获得一个新
plot xts if (on == "years") { 中的错误：缺少 TRUE/FALSE 需要的值

我正在尝试绘制 xts 对象但出现有关年份的错误 xts 对象只有一个数值和一个 POSIXct 索引下面的代码显示了 xts 和尝试绘图时的错误关于需要对 xts 对象做什么才能正确绘制的任何想法 xTest lt as xts 3
svyby比例的置信区间

是否存在创建置信区间的现有函数从一个svyby比例对象在我的例子中是一个二进制项目的交叉表survey包裹我经常比较各组之间的比例如果有一个可以提取置信区间的函数使用调查函数svyciprop而不是confint 下面的示例显示
如何缩放（标准化）每列内的 ggplot2 stat_bin2d 值（按 X 轴）

我有一个 ggplot stat bin2d 热图 library ggplot2 value lt rep 1 5 1000 df lt as data frame value df group lt rep 1 7 len 5000 d
如何在RcppParallel中调用用户定义的函数？

受到文章的启发http gallery rcpp org articles parallel distance matrix http gallery rcpp org articles parallel distance matrix 我
删除绘图轴值

我只是想知道是否有一种方法可以消除 r 图中的轴值分别是 x 轴或 y 轴我知道axes false将摆脱整个轴但我只想摆脱编号删除 x 轴或 y 轴上的编号 plot 1 10 xaxt n plot 1 10 yaxt n 如果
R Leaflet：添加多边形时传递 popupOptions。

Within addPolygons 有一个popup参数就像addPopups 功能区别我认为是当弹出窗口创建时addPolygons 可以单击多边形内的任意位置来触发弹出窗口但是如果addPopups 被使用单个lng and

随机推荐

Map[..] 上的 Scala map() 比 mapValues() 慢得多

在我编写的 Scala 程序中我有一个scala collection Map将字符串映射到一些计算值详细来说是Map String Double immutable Map String Double Double 我知道这很丑应该
如何修复此错误：“ImportError：DLL 加载失败：找不到指定的模块。”使用 PyQt5

我目前使用 Python 3 6 8 和 PyQt5 我的程序运行良好但在 Windows 更新后一切都停止运行这是错误 Traceback most recent call last File main py line 10 in
从 Zingchart 中的 CSV 数据获取系列和值

While creating mixed chart in Zingchart we can pass the type attribute values with values array But I m not sure when re
Ruby 中的时间范围？

我想知道某个时间是否属于schedule或其他就我而言用于计算time is in 夜间时间表 or 正常时间表我已经找到了这个解决方案 NIGHT 21 00 06 00 def night date date str date s
如何在 Visual Studio Code 中将 python 作为主模块运行

如何在 Visual Studio Code 中运行 python主模块从命令行我会使用 m开关比如 python m program py 我需要这个才能使相对导入工作有什么我可以添加到的launch json file 如果这是不
git svn fetch '运行上下文时出错：软件导致连接中止...'

几个月前我 GIT 克隆了一个大型 SVN 存储库 6GB 大约 10 个分支 3 年的每日日志克隆花了很多小时才完成多次停止不得不继续git svn fetch 与此同时由于其他项目变得更加优先 SVN 到 Git 的迁移被搁置
协议映射器在 Keycloak 中如何工作？

我正在尝试一个示例来将用户属性添加到声明中我正在按照这个例子here https www baeldung com keycloak custom user attributes 我正在尝试访问过滤器中的声明但没有成功我想了解协议映射
spring - 使用谷歌番石榴缓存

我试图在我的 Spring 应用程序中使用谷歌番石榴缓存但结果永远不会缓存这是我的步骤在conf文件中 EnableCaching Configuration public class myConfiguration Bean nam
如何解释“grid-template-rows: auto auto 1fr auto”？

最近我使用创建了一个布局CSS grid https www w3 org TR css grid 1 虽然这很有效但我对它的工作原理感到困惑具体来说我对这条线感到困惑grid template rows auto auto 1fr
使用 Logback MDC 进行 Spring Boot ErrorController 日志记录

更新我的问题似乎与this one https stackoverflow com q 55146885 4506703 但没有有效的答案我正在尝试登录 Spring BootErrorController 但它的日志没有 MDC 值
Swift 可变字典被视为不可变

我正在尝试实施应用内购买并且正在跟踪用户通过哪些购买进行了购买NSUserDefaults 我有一个设置每次购买的值的函数但是当它运行时我收到一条错误消息指出我正在改变购买值的字典即使该字典是用var代替let并且是一个NSMut
Windows Phone中如何设置TextBlock的背景图片？

我在 Windows Phone 中设置文本块背景时遇到问题
Java 中双精度值的四舍五入

目前我正在使用 DecimalFormat 类来舍入双精度值 double d 42 405 DecimalFormat f new DecimalFormat 00 System out println f format d output
Swagger 编辑器如何指定请求正文（POST）中的哪些字段是必需的？

我正在尝试在在线 Swagger 编辑器中的用户类上定义 POST 方法我希望能够在请求正文中指定多个字段并且我希望生成的文档能够反映只有 2 个字段是必需的其他是可选的我必须做什么改变才能做到这一点我已经尝试过使用 requi
管理 mnesia DBMS 中的增量计数器？

我意识到 mnesia 不像 MySQL 或其他 RDBMS 那样支持自动增量功能 mnesia 文档中谈到的计数器并没有得到很好的解释例如到目前为止我在整个文档中发现了一个操作计数器的函数 mnesia dirty update c
检查 Python 列表中是否存在某个键

假设我有一个可以包含一个或两个元素的列表 mylist important comment or mylist important 然后我想要一个变量作为标志具体取决于第二个值是否存在检查第二个元素是否存在的最佳方法是什么我已经使用了
流式操作符与延迟执行有何不同？

In LINQ Where是一个流媒体运营商然而OrderByDescending是一个非流操作符 AFAIK 流媒体运营商仅收集下一个必要的项目非流式运算符立即评估整个数据流我看不出定义流操作符的相关性对我来说延迟执行是多余的
如何将 autoconf/automake 指向非标准包

我正在尝试在 RedHat Linux 机器上构建 ZooKeeper ZooKeeper 到底是什么可能并不重要当我按照包装说明进行操作时我得到 autoreconf if aclocal configure ac 33 warnin
使用RabbitMQ（Java客户端），有没有办法确定消费期间网络连接是否关闭？

我在 RHEL 5 3 上使用 Java 客户端使用 RabbitMQ 我有 2 个节点机器 Node1 正在使用 Java 帮助器类 QueueingConsumer 消费 Node2 上队列中的消息 QueueingConsumer
在 R SF 中交叉大型空间数据集

我有两个空间数据集一个数据集包含许多多边形总共超过 150k 指定不同的特征如河流植被另一个数据集包含更少的指定不同区域的多边形 500 我需要将这两个数据集相交以获得不同区域的特征我可以根据不同的特征对第一个数据集进行子集化

在 R SF 中交叉大型空间数据集

在 R SF 中交叉大型空间数据集 的相关文章

随机推荐

热门标签

在 R SF 中交叉大型空间数据集的相关文章