数百万个点使用哪种 GEO 实现

2023-11-25

我试图找出使用哪种 GEO 实现来根据某个点的长/纬度找到最近的点。我将有数百万甚至数十亿个不同的纬度/经度点需要比较。我一直在研究许多不同的实现来完成我需要完成的工作。我研究过 Postgis（看起来很流行并且性能良好）、Neo4J（图形数据库对我来说是一个新概念，我不确定它们的性能如何）、AWS dynamodb geohash（扩展性非常好，但只有库是用Java，我希望在node.js等中编写一个库，但无法弄清楚哪个性能最好。我纯粹是在研究性能而不是功能数量。我所需要的就是将一个点与所有点进行比较并找到最接近的点（读取操作），并且能够快速更改数据库中的点（写入操作）。任何人都可以根据这些要求提出一个好的实施方案

PostGIS 有多种地理哈希函数。如果你的字符串足够长，搜索会变得更快（每个盒子+它的 8 个邻居的碰撞更少），但插入新点时 geohash 的生成速度会变慢。

问题还在于您想要多准确。随着纬度的增加，纬度/经度“距离”会恶化，因为经度从赤道的约 110 公里缩小到两极的 0，而纬度始终约为 110 公里。在中纬度 45 度处，经度接近 79 公里，距离误差为 2 倍 (sqr(110/79))。为您提供纬度/经度对之间的真实距离的球面距离的计算成本非常昂贵（需要进行大量三角学计算），然后您的地理哈希将无法工作（除非您将所有点转换为平面坐标）。

可能有效的解决方案如下：

CREATE INDEX hash8 ON tablename(substring(hash_column FROM 1 FOR 8))。这为您提供了两倍于分辨率的框的索引，这有助于查找点并减少搜索相邻散列框的需要。
On INSERT对于一个点，使用 PostGIS 将其长度为 9（大约 10m 分辨率）的 geohash 计算到 hash_column 中。你可以使用BEFORE INSERT TRIGGER here.

在一个函数中：

给定一个点，通过查找所有 geohash 值缩短为 8 个字符（等于给定点 8 字符 geohash）的点（因此是上面的索引）来找到最近的点。
使用球坐标计算到每个遇到的点的距离，保留最近的点。但由于您只是寻找最近的点（至少最初是这样），因此不要使用球坐标搜索距离，而是使用下面的优化，这应该会使搜索速度更快。
计算给定点是否比最近的计算点更接近由 8 字符 geohash 确定的框的边缘。如果是这样，请在其 8 个邻居的所有点上使用 7 字符 geohash 重复该过程。这可以通过计算到各个框边和角的距离并仅评估相关的邻居散列框来高度优化；我把这个留给你去修改。

无论如何，这都不会特别快。如果您确实要处理数十亿个点，您可能需要考虑聚类，它对地理哈希有一个相当“自然”的解决方案（将您的表分解为substring(hash_column FROM 1 FOR 2)例如，给你四个象限）。只要确保您考虑到跨境搜索即可。

两项优化可以相当快地制作：

First，“标准化”您的球面坐标（意思是：随着纬度的增加补偿经度长度的减少），以便您可以使用“伪笛卡尔”方法搜索最近的点。这只适用于点距离很近的情况，但由于您正在处理很多点，这应该不是问题。更具体地说，这应该适用于长度为 6 或更长的 geohash 框中的所有点。

假设 WGS84 椭球体（用于所有 GPS 设备），地球长轴 (a) 为 6,378,137 米，椭圆率 (e2) 为 0.00669438。一秒经度的长度为

longSec := Pi * a * cos(lat) / sqrt(1 - e2 * sqr(sin(lat))) / 180 / 3600

longSec := 30.92208078 * cos(lat) / sqrt(1 - 0.00669438 * sqr(sin(lat)))

对于一秒的纬度：

latSec := 30.870265 - 155.506 * cos(2 * lat) + 0.0003264 + cos(4 * lat)

使本地坐标系成为“正方形”的校正因子是将经度值乘以longSec/latSec.

Secondly，由于您正在寻找最近的点，因此不要搜索距离，因为平方根的计算成本很高。相反，如果愿意的话，可以搜索平方根（平方距离）内的术语，因为它具有选择最近点的相同属性。

在伪代码中：

CREATE FUNCTION nearest_point(pt geometry, ptHash8 char(8)) RETURNS integer AS $$
DECLARE
  corrFactor double precision;
  ptLat    double precision;
  ptLong     double precision;
  currPt     record;
  minDist    double precision;
  diffLat    double precision;
  diffLong   double precision;
  minId      integer;
BEGIN
  minDist := 100000000.; -- a large value, 10km (squared)
  ptLat := ST_Y(pt);
  ptLong := ST_X(pt);
  corrFactor := 30.92208078 * cos(radians(ptLat)) / (sqrt(1 - 0.00669438 * power(sin(radians(ptLat)), 2)) *
                (30.870265 - 155.506 * cos(2 * radians(ptLat)) + 0.0003264 + cos(4 * radians(ptLat))));
  FOR currPt IN SELECT * FROM all_points WHERE hash8 = ptHash8
  LOOP
    diffLat := ST_Y(currPt.pt) - ptLat;
    diffLong := (ST_X(currPt.pt) - ptLong) * corrFactor; -- "square" things out
    IF (diffLat * diffLat) < (minDist * diffLong * diffLong) THEN -- no divisions here to speed thing up a little further
      minDist := (diffLat * diffLat) / (diffLong * diffLong); -- this does not happen so often
      minId := currPt.id;
    END IF;
  END LOOP;
  IF minDist < 100000000. THEN
    RETURN minId;
  ELSE
    RETURN NULL;
  END IF;
END; $$ LANGUAGE PLPGSQL STRICT;

不用说，这在 C 语言函数中会快得多。另外，不要忘记进行边界检查以查看是否需要搜索相邻的 geohash 框。

顺便说一句，“空间纯粹主义者”不会在 8 字符 geohash 上建立索引并从那里进行搜索；相反，它们将从 9 个字符的哈希开始，并从那里向外工作。然而，初始哈希盒中的“未命中”（因为没有其他点或者您靠近哈希盒一侧）的成本很高，因为您必须开始计算到相邻哈希盒的距离并提取更多数据。在实践中，您应该使用大约是典型最近点大小两倍的散列框；该距离是多少取决于您的点集。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

数百万个点使用哪种 GEO 实现的相关文章

用户非超级管理员和大对象的 pg_dump

我与非超级管理员的用户开始了导出数据库的长期职业生涯但我发现了一个问题在新版本的postgresql中只有超级管理员才能访问大对象 ERROR permission denied for large object 5141 没有办法做到
Alembic 无法识别 False 默认值

在维护 SQLAlchemy 数据模型并利用 alembic 进行版本控制时我所做的以下代码更改导致了空修订 some column Column Boolean nullable False default False 以前是 some
sqlalchemy 的 row_to_json 语法

我想弄清楚如何将 Postgres 9 2 row to json 与 SqlAlchemy 一起使用但是我无法想出任何有效的语法 details foo row q select Foo where Foo bar id Bar id
DynamoDB 中条件写入的日期时间比较

我目前正在使用 DynamoDB 如果该记录的日期早于新记录日期字段我想使用条件写入来更新该记录有没有办法比较条件写入的 DateTime 类型或者目前仅适用于整数字符串和流 Thanks 既然你提到你正在使用ISO 8601 ht
将 PostgreSQL 中的 IP 地址转换为整数？

有没有一个查询可以完成这个任务例如给定一个条目 216 55 82 34 我想用分割字符串并应用等式 IP 号 16777216 w 65536 x 256 y z 其中 IP 地址 w x y z 仅通过查询就可以实现这一点吗您
尝试使用 Rails 和 PostgreSQL 生成模型时，命令挂起且没有错误

使用该命令时 rails generate model Event name string 什么也没发生我必须按 CTRL c 我使用的版本是红宝石 2 1 1p76 导轨4 1 0 PostgreSQL 9 3 4 Mac OS X
同时运行 Gremlin-Server 和 NEO4J Server

目前看来我们不能同时运行两者Neo4J服务器 and Gremlin服务器同时有什么办法可以同时运行两者吗 NEO4J 正在运行我尝试启动 Gremlin Server 然后出现以下错误 java lang RuntimeExcepti
SQL where 连接集必须包含所有值，但可以包含更多值

我有三张桌子offers sports和连接表offers sports class Offer lt ActiveRecord Base has and belongs to many sports end class Sport lt
使用 RMySQL 会干扰 RPostgreSQL

我有一个 R 脚本我想从 MySQL 数据库中提取一些数据然后从 PostgreSQL 数据库中提取一些数据但是从 RMySQL 加载 MySQL 驱动程序会阻止我从以下位置加载 PostgreSQL 驱动程序 PostgreSQL
如何从主机连接到 Docker Postgres 容器

我按照以下说明搭建了一个 Rails 开发环境https docs docker com compose rails https docs docker com compose rails 它可以工作但我无法从主机连接到 Postgres
PostgreSQL regexp_matches 只返回匹配的行？

这是我第一次使用 regexp matches 我发现使用它只会返回与 SELECT 子句中的所有 regexp matches 匹配的行例如 SELECT parameters regexp matches parameters a d
Neo4j - 根据关系属性查找两个节点之间的最短路径

我试图弄清楚是否有某种方法可以根据关系总和获得两个节点之间的最短距离给出以下示例 neo4j 图像示例 https i stack imgur com fiJe1 png 上图代码 CREATE some point 1 Point ti
查找 postgres 提供的列表中不存在的值

我试图找到一个查询来告诉我数据库中没有的值例如 select seqID segment from flu where seqID IN 1 2 3 4 5 6 7 8 9 现在如果我的数据库没有 seqID 3 8 9 我将如何查找
按每月时间为用户标记标签

数据源 User ID Visit Date 1 2020 01 01 12 29 15 1 2020 01 02 12 30 11 1 2020 04 01 12 31 01 2 2020 05 01 12 31 14 Problem 我
Slick和bonecp：org.postgresql.util.PSQLException：FATAL：抱歉，太多客户端已经错误

当我在本地开发应用程序时我使用以下命令启动我的 play2 应用程序sbt run 我喜欢如何更改代码然后重新加载浏览器以查看我的更改在大约 10 次代码更改之后我收到 postgresql 太多连接错误见下文我的数据库连接使用
如何记录数据库代码以查看数据库对象之间的依赖关系？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我想为我的宠物项目编写文档我的 PostgreSQL 数据库中有 30 个表近 50 个视图和大约 30 个函数存储过程我想看
如何从 Neo4j 服务器插件登录？

我正在尝试调试我正在编写的 Neo4J 服务器插件中的问题有可以输出的日志吗在哪里或如何执行此操作并不明显好问题我想你可以使用 Java 日志记录吗这应该被路由到正常的日志系统中
用数字 1-1000 填充 Postgres 数据库？

我是 pgAdmin3 的新手我想用数字 1 1000 填充 pgAdmin3 中的数据库我该怎么做呢目前我创建了一个名为 MyDatabase 的数据库其中没有任何内容每行应与其数值相对应第 1 行应包含 1 第 2 行应包
在全局二级索引上使用“withExclusiveStartKey”进行分页

我有一个名为 product 的 DynamoDB 表其全局二级索引位于 userId 上主键位于 id 上我正在尝试使用 userID GSI 上的 withExclusiveStartKey 来实现分页查询但是当我传递有效的
Postgres 中 -Infinity 和 Infinity 的适当值

在一种情况下我们必须在 Postgres DB 中存储无穷大和无穷大的值应该考虑什么合适的值如果没有请建议最合适的替代方案你实际上可以使用 infinity and infinity for FLOAT4 and FLOAT8

随机推荐

在 contenteditable div 中按 Enter 键插入换行符

当我在 contenteditable div 中按 Enter 键时我尝试插入换行符而不是浏览器想要插入的任何内容我当前的代码看起来像这样 if e which 13 e stopPropagation e preventDefau
通过 ADAL JavaScript Ajax 和 KnockoutJs 的 MVC AD Azure 刷新令牌

我构建的 MVC 应用程序类型存在固有的设计缺陷我相信我不是第一个意识到这一点的人我有一个 MVC 4 应用程序它利用 AD Azure 身份验证通过以下方式引入到应用程序中使用 Azure Active Directory 开发
有没有适用于 Java 的 RFC 2397 数据 URI 解析器？

dataurl data mediatype base64 data mediatype type subtype parameter data urlchar parameter attribute value value token q
如何使用 Joda-Time 通过 EclipseLink 将 UTC 区域中的日期/时间插入 MySQL？

我需要将 UTC 区域中的日期时间存储到 MySQL 数据库 DATETIME 类型列中当用户输入日期时它首先被转换为org joda time DateTime通过 JSF 转换器在将此日期插入 MySQL 数据库之前需要再次
我可以停止在 Django 中渲染变量吗？

So 我可以以某种方式停止 django 渲染特定的模板变量吗背景是我想在 django 应用程序中尝试 vuejs 哪种有效问题是两者共享相同的变量语法所以在 vuejs 中你可以像这样声明它们 message django 模
如何在Python中找到另一个函数中特定函数参数的默认值？

假设我们有一个这样的函数 def myFunction arg1 a default value pass 我们可以使用内省来找出参数的名称myFunction 需要使用myFunction func code co varnames 但是
表视图中的复选框和 itemdelegate

我正在实现一个继承自 QitemDelegate 的 CheckBox 将其放入 QTableView 中问题是当我插入时我需要将其居中据我了解负责 Paint 的方法我把它写成如下 void CheckBoxDelegate p
iPad 删除后记住相机权限 - 如何清除？

我正在尝试重新创建以下代码返回的条件AVAuthorizationStatusNotDetermined AVAuthorizationStatus authStatus AVCaptureDevice authorizationStatu
Python中的集合差函数的运行时间是多少？

问题解释了但是Python中的集差运算的时间复杂度是多少 EX A set B set print A difference B What is the time complexity of the difference function
使用 MSBuild，如何从命令行构建 MVC4 解决方案（在此过程中应用 Web.config 转换）并输出到文件夹？

我认为问题标题几乎说明了一切但为了清楚起见我试图从命令行 MSBuild 构建 VS2010 ASP NET MVC4 解决方案指定解决方案配置例如 Release 在此过程中为该配置应用任何 Web config 转换将结果输
‘echo’换行符抑制[重复]

这个问题在这里已经有答案了为什么不 echo n write n虽然在终端上 n是用单引号写的吗因为引号是由 shell 处理的echo命令接收明文 n 如果你想回声 n 您可以例如printf s n n
具有客户端身份验证的 GCDAsyncSocket

我一直在使用CocoaAsyncSocket无需 SSL 即可将数据发送到我们的服务器现在服务器端已经实现了带有客户端身份验证的 SSL TLS 为了在我们的应用程序中实现这一点我获得了以下三个文件 ca chain cert pem
是否可以隐藏 C++ 代码中定义的密码

这样浏览反汇编代码不会立即暴露密码声明为静态变量举个例子想象一个程序附加了一个 zip 文件必须打开该文件才能获取资源但不易被窥探者访问我知道不可能完全隐藏或保护该拉链但我很好奇有什么方法可以至少阻止一个不经意的窥探者 Tha
Visual Studio解决方案资源管理器不显示表单cs文件

Cant find user code file of Windows form in solution explorer now I must right click on form class and choose lt gt View
使用 ncurses 调整终端大小和滚动问题

我正在使用 ncurses 库用 C 进行编程这是第一次但有两个问题我在 ubuntu 上使用默认终端 gnome 终端 1 我需要调整终端的大小我使用了 resizeter 和 resize term 但它们失败了 2 我使用sc
iTextSharp：PdfPCell 中使用哪些对齐属性？

当我使用单元格对齐时它可以工作 PdfPCell cell1 new PdfPCell new Phrase Text Font cell1 HorizontalAlignment 2 但一旦对齐不起作用 PdfPCell cell1 n
在 C++ 中将彩色文本打印到控制台

我想编写一个可以将彩色文本输出到控制台的 Console 类所以我可以做类似的事情基本上是 printf 的包装 Console Print This is a non coloured message n Console Warnin
如何在按键而不是长按/点击时实现上下文菜单

我有一个 ListActivity 我想为每个列表元素实现上下文菜单我知道执行此操作的常见方法是在长按点击时显示上下文菜单我想知道是否有一种方法可以在按键最好是菜单键上显示每个元素的上下文菜单要重新表述我的问题如何通过按菜单键
向命名空间下的命名路由助手添加前缀

这就是公共命名空间的样子 namespace admin do resources posts end 它创建了一个像这样的命名路由 new admin post path 这是我的问题如何将前缀如本例中的 new 添加到命名空间下的命
数百万个点使用哪种 GEO 实现

我试图找出使用哪种 GEO 实现来根据某个点的长纬度找到最近的点我将有数百万甚至数十亿个不同的纬度经度点需要比较我一直在研究许多不同的实现来完成我需要完成的工作我研究过 Postgis 看起来很流行并且性能良好 Neo4J 图形数

数百万个点使用哪种 GEO 实现

数百万个点使用哪种 GEO 实现 的相关文章

随机推荐

热门标签

数百万个点使用哪种 GEO 实现的相关文章