我有两个空间数据集。一个数据集包含许多多边形(总共超过 150k),指定不同的特征,如河流、植被。另一个数据集包含更少的指定不同区域的多边形 (500)。
我需要将这两个数据集相交以获得不同区域的特征。
我可以根据不同的特征对第一个数据集进行子集化。如果我使用小要素(2,500 个多边形)的子集,与区域的相交速度相当快(5 分钟)。但如果我想要更大的特征子集(20,000 个多边形),计算会运行很长时间(我在两个小时后终止了它)。这甚至不是我需要相交的最大特征(50,000 个多边形)。
这是我运行的代码片段:
clean_intersect_save = function(geo_features, areas) {
# make geometries valid
data_valid_geoms = st_parallel(sf_df = st_geometry(geo_features),
sf_func = st_make_valid,
n_cores = 4)
# remove unnecessary columns
data_valid = st_drop_geometry(x) %>% select("feature")
data_valid = st_sf(data_clean, geometry = data_valid_geoms)
# intersect the geo-features and areas
data_valid_split = st_parallel(sf_df = bezirke,
sf_func = st_intersection,
n_cores = 4,
data_clean)
# save shp file
st_write(data_valid_split, "data_valid_splir.shp")
return(data_valid_split)
}
其中两个输入都是 sf 数据帧。
st_parallel是我发现的一个函数here https://www.spatialanalytics.co.nz/post/2017/09/11/a-parallel-function-for-spatial-analysis-in-r/.
我的问题是:经验丰富的空间数据人员通常如何解决这样的任务?我只需要更多的核心和/或更耐心吗?我用sf错了吗? R/sf 是错误的工具吗?
谢谢你的帮助。
这是我的第一个空间数据分析项目,如果我监督了一些明显的想法,我很抱歉。